主流大语言“推理模型”深度评测：ChatGPT vs Grok3 vs Claude3.7 vs Deepseek-R1 vs Gemini 2.0 Pro

一、引言

在当今AI快速发展的时代，各家大语言模型不断迭代更新，让人眼花缭乱。今天，我们将深入测评五款顶尖大模型：ChatGPT o3-mini、Grok3 thinking、Claude3.7 thinking、Deepseek-r1和Gemini-2.0-Pro，全方位对比它们在不同场景下的表现。

二、深度测评分析对比

分别使用ShirtAI里的各个模型来回答同一题目，ShirtAI可以免费无限使用GPT Plus、Claude Pro、Grok Super、Deepseek满血版，官网一键直达：www.lsshirtai.com

题目1：茶厂工人要将长、宽均为20cm、高为10cm的长方体茶盒装入棱长为30cm（从内部测量）的正方体纸箱。一箱最多能装几盒？怎样才能装下？

结论：答案为6盒，claude-3.7-thinking推理模型完胜，又快又准确！deepseek-r1速度最慢但答案正确，Grok3深度思考和O3-mini答案错误。

题目2：已知函数 $$f(x) = e^x + ax^2 – x.$$ (1) 当$a = 1$时，讨论$f(x)$的单调性； (2) 当$x \geq 0$时，$f(x) \geq \frac{1}{2}x^3 + 1$，求$a$的取值范围。

结论：所有模型给出的答案都正确，但o3-mini在速度方面更胜一筹。

此外，我们还进行了其他测试，结果如下：

测试场景	ChatGPT o3-mini	Grok3 thinking	Claude3.7 thinking	Deepseek-r1	Gemini-2.0-Pro
复杂数学问题 (贝叶斯定理)	基础解释清晰，但深度和细节不足，案例简单	解释生动，引入直观可视化类比，但严格推导略有欠缺	最系统的证明过程，深入浅出解释概念，医学筛查案例详细，计算过程清晰	数学推导最为严谨，公式排版精美，但案例解释相对学术化	平衡理论与实践，但在特定细节上不如Claude和Deepseek
代码能力 (快速排序)	基本功能实现正确，但代码效率和边界处理欠佳	算法正确，代码结构略显冗余，优化建议实用	代码清晰易读，注释详尽，解释各步骤思路，复杂度分析全面	代码最为精简高效，边界条件处理最佳，复杂度分析深入	提供多种实现方式，包括原地排序和函数式编程，某些边界情况考虑不足
创意写作 (2050年)	故事流畅但较为平淡，未来科技元素偏向常见想象	擅长构建宏大世界观，科技描绘大胆，人物情感塑造稍弱	情节丰富生动，人物塑造立体，科技细节既前瞻又合理，融入情感元素	科技细节准确但略显刻板，故事性不足	叙事结构完整，科技与社会议题结合紧密，创新性略显不足
逻辑推理 (囚徒困境)	基础概念解释准确，但深度分析不足	分析最为深入，引入演化博弈论视角，讨论重复博弈的均衡策略	理论解释最为清晰，逻辑推导严密，提供多个领域的现实案例	数学模型构建最为严谨，但实例略显学术化	平衡理论与实践应用，案例丰富多样

总的来说，各模型的优劣势对比情况如下：

模型	优势	劣势	最适用场景
ChatGPT o3-mini	• 轻量级模型中表现最佳 • 响应速度快 • 基础问题处理精确	• 复杂推理能力有限 • 深度思考功能不如其他模型	• 日常简单问答 • 基础内容创作 • 轻量级应用场景
Grok3 thinking	• 思考过程透明 • 逻辑推理能力突出 • 解释概念生动有趣	• 中文能力略逊 • 某些专业领域深度不足	• 需要看到思考过程的复杂推理 • 创新思维激发
Claude3.7 thinking	• 综合能力最为平衡 • 指令跟随精确 • 创意与逻辑并重 • 幻觉最少	• 特定垂直领域专业性稍弱于专精模型	• 需要平衡创意与准确性的内容创作 • 复杂指令任务
Deepseek-r1	• 代码与数学能力极其突出 • 中文理解最佳 • 学术推理严谨	• 创意写作相对刻板 • 通用表达不如其他模型生动	• 编程开发 • 数学科学研究 • 中文学术内容生成
Gemini-2.0-Pro	• 知识面广泛 • 多模态理解能力强 • 实用性案例丰富	• 某些复杂推理场景深度不足	• 需要结合图像的多模态交互 • 知识密集型问答

三、模型基本情况对比

模型名称	开发公司	发布时间	模型大小	收费情况
ChatGPT o3-mini	OpenAI	2024年7月	约70亿参数	免费版和Plus付费版
Grok3 thinking	xAI	2024年7月	未公开	xAI会员
Claude3.7 thinking	Anthropic	2024年8月	未公开	部分免费，Claude Pro付费
Deepseek-r1	深度求索	2024年5月	2360亿参数	免费
Gemini-2.0-Pro	Google	2024年5月	未公开	部分免费，高级版付费

四、核心能力对比表

能力维度	ChatGPT o3-mini	Grok3 thinking	Claude3.7 thinking	Deepseek-r1	Gemini-2.0-Pro
通用问答	4	5	5	4	4
代码能力	3	4	5	5	4
数学推理	3	4	4	5	4
逻辑思考	3	5	5	4	4
创意写作	4	4	5	3	4
指令跟随	4	4	5	4	4
中文能力	4	3	4	5	4
思考深度	3	5	5	4	4
幻觉控制	3	3	5	4	4

五、综合结论

经过全方位测评，我们得出以下结论：

最佳综合表现：Claude3.7 thinking，在大多数测试中表现优异，尤其是在创意写作、指令跟随和幻觉控制方面
最佳专业能力：Deepseek-r1在代码、数学和中文专业内容方面表现最为突出
最佳思考过程：Grok3 thinking和Claude3.7 thinking在展示思考过程方面最为透明
最佳轻量应用：ChatGPT o3-mini在轻量级应用中性价比最高
最佳多模态：Gemini-2.0-Pro在处理多模态内容方面领先

选择哪款模型，最终应根据您的具体使用场景来决定。如果追求全面均衡的体验，Claude3.7是不错的选择；对于编程和数学需求，Deepseek-r1值得考虑；而如果您需要轻量级的日常助手，ChatGPT o3-mini也能满足基本需求。

为了帮助大家挖掘模型潜力，特此准备附加资源。想掌握大模型提示词技巧，与模型高效互动，点击链接：大模型提示词技巧，这里有实用策略，助你解锁模型强大功能。

如果想要使用GPT Plus、Claude Pro、Grok Super官方付费独享账户的，自己不会充值可以联系我们专业团队（wx：f15303420735）

更多产品请查看	更多内容请查看
ShirtAI – 渗透智能	AIGC大模型：开创工程与科学双重革命时代 – 渗透智能
1:1还原Claude和GPT官网 – AI云原生	比赛直播APP 全球高清体育观影播放器（推荐） – 蓝衫科技
基于官方API的中转服务 – GPTMeta API	求助，各位大神谁能提供一些GPT的提问技巧？ – 知乎
全球化虚拟商品数字商店 – 环球智购（凤灵阁）	Claude airtfacts功能有多强大，GPT瞬间不香了？-哔哩哔哩

GPTMeta API