OpenAI 推出最新推理模型 o3 和 o4-mini：性能跃升与范式革新

2025 年 4 月 17 日，OpenAI 在深夜直播中正式发布了全新推理模型 o3（满血版）和 o4-mini，取代了此前的 o1、o3-mini 等旧模型。此次更新在知识推理、多模态处理、代码能力等领域实现显著提升，同时优化了定价策略，为开发者和用户带来更高效的 AI 体验。

ShirtAI可以免费无限使用GPT-4、 GPT-4o最强、GPT-4.1-mini等模型，官网一键直达：www.lsshirtai.com

一、模型概述：从参数到定位的全面升级

OpenAI 此次发布的 o3 和 o4-mini 均基于全新架构，聚焦不同场景需求：

o3：作为 “满血版” 旗舰模型，主打高级推理与工具协同，支持全功能工具接入（如 Python、联网浏览、函数调用），首次实现 “视觉推理融入思维链”，适用于复杂问题解决。
o4-mini：轻量化高性能模型，侧重快速高级推理与代码 / 视觉任务，在保持高效的同时，性价比突出。

二、性能对比：多维度能力碾压旧模型

1. 知识推理能力：工具加持下的准确率飙升

在数学竞赛、科学问题、跨学科综合测试中，o3 和 o4-mini 展现出碾压级表现，尤其在允许调用工具时优势显著：

数据集 / 任务	o1	o3-mini	o3（无工具）	o3（含 Python）	o4-mini（无工具）	o4-mini（含 Python）
AIME 2024 数学竞赛（AC%）	74.3	87.3	91.6	95.2	93.4	98.7
Codeforces 代码竞赛（ELO）	1891	2073	–	2719	–	2073
GPQA Diamond 科学题（AC%）	78	77	83.3	–	81.4	–
Humanity’s Last Exam（AC%）	13.4	20.3	20.3	24.9	14.28	17.7

关键发现：

o3 调用 Python 后，AIME 准确率从 91.6% 提升至 95.2%，跨学科专家测试（Humanity’s Last Exam）凭借工具链将准确率提升 24.9%。
o4-mini 虽为轻量化模型，无工具时已达 93.4%（AIME），接近 o3 工具版，性价比突出；在一道最新的Project Euler问题， o4-mini-high只用了2分55秒就解出来了，但这道题并不简单，只有15个人能在30分钟内解决它，而且这还是一道几天前才出来的新题，不可能出现在o4的训练集中，这表明o4-mini-high依靠「思考」解决了它。

2. 多模态视觉推理：从 “图像识别” 到 “图像思考”

o3 和 o4-mini 首次支持视觉推理融入思维链，在复杂图像理解任务中远超旧模型：

数据集	任务描述	o1	o3	o4-mini
MMMU（大学视觉数学）	公式 + 图形综合解题（AC%）	77.6	82.9	81.6
MathVista（视觉数学）	几何 / 函数图像推理（AC%）	71.8	87.5	84.3
CharXiv-Reasoning	科研图表理解（AC%）	55.1	75.4	72

突破意义：o3 能像人类一样 “看图思考”，实现从 “像素处理” 到 “场景推理” 的范式升级，某用户在上班路上随手拍了张照片，让o3分析所在位置，它先在截取放大图片，分析图中的关键信息，然后搜索相关网页一步步缩小搜索范围，最后给出了具体位置信息。

3. 代码与工程能力：o3 成开发者首选

在软件工程任务中，o3 凭借工具接入和代码理解能力领先，o4-mini 则在轻量场景中表现均衡：

代码任务	指标	o1-high	o3-mini	o3-hoch	o4-mini-high
SWE-Bench 验证（AC%）	算法 / 系统设计	48.9	69.1	69.1	68.1
Aider 代码编辑（whole）	多语言整体重写（%）	66.7	81.3	81.3	64.4
SWE-Lancer 接单收益	自由职业任务（$）	118,000	177,000	236,000	–

实践价值： o3 在真实编码任务中月均收益达 23.6 万美元，远超旧模型，成为企业级代码开发的核心工具；o4-mini 则适合快速原型开发和轻量级代码调试。

4. 工具使用与执行力：o3 构建智能体新范式

在多轮指令跟随、浏览器操作、函数调用等工具协同场景中，o3 展现出更强的任务连贯性：

工具任务	指标	o1-high	o3-mini	o3（工具版）	o4-mini（工具版）
Scale MultiChallenge	多轮指令跟随（AC%）	28.3	44.93	56.51	42.99
BrowseComp 浏览器操作	信息抓取（AC%）	32.4	50.0	70.8	52.0
Tau-bench 函数调用	结构化输出（AC%）	49.7	51.5	57.6（Retail）	65.6（Retail）

关键优势：o3 能自主操作虚拟浏览器、调用 API 生成航班预订 JSON 等结构化输出，在复杂流程自动化中具备商用级能力。

三、参数与定价：性价比全面优化

Modellierung	推理能力	速度	价格（输入・输出 / 千 Token）	支持输入	上下文窗口
o1	基础	最慢	$15-$60	Text/Bild	200,000
o3-mini	高级	mäßig	$1.1-$4.4	文本	200,000
o4-mini	高级	mäßig	$1.1-$4.4	Text/Bild	200,000
o3	最高	最慢	$10-$40	Text/Bild	200,000
o1-pro	专业	最慢	$150-$600	Text/Bild	200,000

核心调整：o3 定价较 o1 降低 1/3，性价比大幅提升；o4-mini 与 o3-mini 同价，但支持图像输入和更优推理。

Wenn Sie GPT Plus, Claude Pro, Grok Super offizielles bezahltes exklusives Konto benutzen wollen, können Sie unser professionelles Team (wx: abch891) kontaktieren, wenn Sie nicht wissen, wie Sie Ihr Konto aufladen können.

Weitere Produkte finden Sie unter	Siehe mehr unter
ShirtAI - Durchdringende Intelligenz	Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native	Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API	Hilfe, kann jemand von Ihnen Tipps geben, wie man Fragen auf GPT stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge)	Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep

GPTMeta-API