OpenAI 推出最新推理模型 o3 和 o4-mini:性能跃升与范式革新

2025 年 4 月 17 日,OpenAI 在深夜直播中正式发布了全新推理模型 o3(满血版)和 o4-mini,取代了此前的 o1、o3-mini 等旧模型。此次更新在知识推理、多模态处理、代码能力等领域实现显著提升,同时优化了定价策略,为开发者和用户带来更高效的 AI 体验。
ShirtAI可以免费无限使用GPT-4、 GPT-4o最强、GPT-4.1-mini等模型,官网一键直达:www.lsshirtai.com

 

一、模型概述:从参数到定位的全面升级

OpenAI 此次发布的 o3 和 o4-mini 均基于全新架构,聚焦不同场景需求:
  • o3:作为 “满血版” 旗舰模型,主打高级推理与工具协同,支持全功能工具接入(如 Python、联网浏览、函数调用),首次实现 “视觉推理融入思维链”,适用于复杂问题解决。
  • o4-mini:轻量化高性能模型,侧重快速高级推理与代码 / 视觉任务,在保持高效的同时,性价比突出。

二、性能对比:多维度能力碾压旧模型

1. 知识推理能力:工具加持下的准确率飙升

在数学竞赛、科学问题、跨学科综合测试中,o3 和 o4-mini 展现出碾压级表现,尤其在允许调用工具时优势显著:
数据集 / 任务 o1 o3-mini o3(无工具) o3(含 Python) o4-mini(无工具) o4-mini(含 Python)
AIME 2024 数学竞赛(AC%) 74.3 87.3 91.6 95.2 93.4 98.7
Codeforces 代码竞赛(ELO) 1891 2073 2719 2073
GPQA Diamond 科学题(AC%) 78 77 83.3 81.4
Humanity’s Last Exam(AC%) 13.4 20.3 20.3 24.9 14.28 17.7
关键发现:
  • o3 调用 Python 后,AIME 准确率从 91.6% 提升至 95.2%,跨学科专家测试(Humanity’s Last Exam)凭借工具链将准确率提升 24.9%。
  • o4-mini 虽为轻量化模型,无工具时已达 93.4%(AIME),接近 o3 工具版,性价比突出;在 一道最新的Project Euler问题, o4-mini-high只用了2分55秒就解出来了,但 这道题并不简单,只有15个人能在30分钟内解决它, 而且这还是一道几天前才出来的新题,不可能出现在o4的训练集中,这表明o4-mini-high依靠「思考」解决了它。

 

2. 多模态视觉推理:从 “图像识别” 到 “图像思考”

o3 和 o4-mini 首次支持视觉推理融入思维链,在复杂图像理解任务中远超旧模型:
数据集 任务描述 o1 o3 o4-mini
MMMU(大学视觉数学) 公式 + 图形综合解题(AC%) 77.6 82.9 81.6
MathVista(视觉数学) 几何 / 函数图像推理(AC%) 71.8 87.5 84.3
CharXiv-Reasoning 科研图表理解(AC%) 55.1 75.4 72
突破意义:o3 能像人类一样 “看图思考”, 实现从 “像素处理” 到 “场景推理” 的范式升级,某用户在上班路上随手拍了张照片,让o3分析所在位置,它先在截取放大图片,分析图中的关键信息,然后搜索相关网页一步步缩小搜索范围,最后给出了具体位置信息。

 

3. 代码与工程能力:o3 成开发者首选

在软件工程任务中,o3 凭借工具接入和代码理解能力领先,o4-mini 则在轻量场景中表现均衡:
代码任务 指标 o1-high o3-mini o3-hoch o4-mini-high
SWE-Bench 验证(AC%) 算法 / 系统设计 48.9 69.1 69.1 68.1
Aider 代码编辑(whole) 多语言整体重写(%) 66.7 81.3 81.3 64.4
SWE-Lancer 接单收益 自由职业任务($) 118,000 177,000 236,000
实践价值: o3 在真实编码任务中月均收益达 23.6 万美元,远超旧模型,成为企业级代码开发的核心工具;o4-mini 则适合快速原型开发和轻量级代码调试。

 

 

 

 

4. 工具使用与执行力:o3 构建智能体新范式

在多轮指令跟随、浏览器操作、函数调用等工具协同场景中,o3 展现出更强的任务连贯性:
工具任务 指标 o1-high o3-mini o3(工具版) o4-mini(工具版)
Scale MultiChallenge 多轮指令跟随(AC%) 28.3 44.93 56.51 42.99
BrowseComp 浏览器操作 信息抓取(AC%) 32.4 50.0 70.8 52.0
Tau-bench 函数调用 结构化输出(AC%) 49.7 51.5 57.6(Retail) 65.6(Retail)
关键优势:o3 能自主操作虚拟浏览器、调用 API 生成航班预订 JSON 等结构化输出,在复杂流程自动化中具备商用级能力。

 

三、参数与定价:性价比全面优化

Modellierung 推理能力 速度 价格(输入・输出 / 千 Token) 支持输入 上下文窗口
o1 基础 最慢 $15-$60 Text/Bild 200,000
o3-mini 高级 中等 $1.1-$4.4 文本 200,000
o4-mini 高级 中等 $1.1-$4.4 Text/Bild 200,000
o3 最高 最慢 $10-$40 Text/Bild 200,000
o1-pro 专业 最慢 $150-$600 Text/Bild 200,000
核心调整:o3 定价较 o1 降低 1/3,性价比大幅提升;o4-mini 与 o3-mini 同价,但支持图像输入和更优推理。

Wenn Sie GPT Plus, Claude Pro, Grok Super offizielles bezahltes exklusives Konto benutzen wollen, können Sie unser professionelles Team (wx: abch891) kontaktieren, wenn Sie nicht wissen, wie Sie Ihr Konto aufladen können.

Weitere Produkte finden Sie unter

Siehe mehr unter

ShirtAI - Durchdringende Intelligenz Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API Hilfe, kann jemand von Ihnen Tipps geben, wie man Fragen auf GPT stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge) Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep

Werbefläche

Transit Agent Service basierend auf offiziellen APIs

In dieser Ära der Offenheit und des Teilens führt OpenAI eine Revolution in der künstlichen Intelligenz an. Jetzt geben wir der Welt bekannt, dass wir alle Modelle von OpenAI vollständig unterstützt haben, z.B. GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-*, etc. sowie eine Vielzahl von selbstentwickelten großen Modellen. Am aufregendsten ist, dass wir das leistungsfähigere und einflussreichere GPT-4o in die Welt eingeführt haben!

Website-Navigation

Abb. Anfang
Andocken von Dritten
Konsolen
Anweisungen für den Gebrauch
Online-Überwachung

Kontakt

公众号二维码

öffentliche Nummer

企业合作二维码

Zusammenarbeit Wechat

Copyright © 2021-2024 Alle Rechte vorbehalten 2024 | GPTMeta API