NVIDIA Llama-Nemotron:超越DeepSeek-R1的开源新王者

英伟达开源新霸主:从6710亿到2530亿参数的效率革命

在当今AI大模型飞速发展的时代,英伟达(NVIDIA)再次凭借其技术实力掀起了一场波澜。近日,英伟达发布的Llama-Nemotron系列模型以惊人的效率和性能,迅速登顶开源模型之巅,甚至在多项关键基准测试中超越了参数量更大的DeepSeek-R1。

Llama-Nemotron系列包含三个模型:

  • LN-Nano (8B):专为边缘设备和移动应用设计的高效小模型
  • LN-Super (49B):平衡性能与效率的中端模型
  • LN-Ultra (253B):旗舰级推理模型,专为复杂任务设计

最令人惊叹的是,LN-Ultra以仅2530亿参数(约为DeepSeek-R1的6710亿参数的三分之一)在GPQA-Diamond(76.01分 vs 71.5分)、IFEval(89.45分 vs 83.3分)和LiveCodeBench(66.31分)等多项关键基准测试中全面超越了DeepSeek-R1。更为重要的是,LN-Ultra可在单个8xH100节点上高效运行,而DeepSeek-R1需要8xH200硬件,这意味着LN-Ultra不仅性能更佳,还具有更高的推理吞吐量和更低的部署门槛。

根据人工分析智能指数显示,截至2025年4月,Llama-Nemotron-Ultra已被公认为当前”最智能”的开源模型。这一系列模型全部采用商业友好的开源许可,遵循NVIDIA Open Model License和Llama社区许可,允许企业自由使用和修改,无疑将加速AI技术的普及与应用创新。

模型训练揭秘:14万H100小时的五阶段构建流程

英伟达在技术报告中详细揭示了Llama-Nemotron系列模型的五阶段构建流程,展示了从架构优化到强化学习的全部技术细节。

第一阶段:神经架构搜索与FFN融合

团队首先利用名为”Puzzle”的神经架构搜索(NAS)框架,对基于Llama 3.1的原始架构进行深度优化。通过构建替代Transformer模块库,实现了多种变体:

  • 注意力机制选择性移除,降低计算量和KV缓存内存消耗
  • 可变FFN维度,实现不同粒度的模型压缩

特别创新的是FFN融合(FFN Fusion)技术:当NAS移除部分注意力层后,模型中出现连续FFN块时,FFN Fusion会将这些结构替换为更少但更宽、可并行执行的FFN层,显著提升了多GPU环境下的计算效率。

第二阶段:知识蒸馏与持续预训练

在架构优化后,团队进行了大规模的知识蒸馏与持续预训练以恢复和提升模型性能:

  • LN-Super使用Distillation Mix数据集训练400亿token
  • LN-Ultra先训练650亿token相同数据集,再在Nemotron-H第四阶段数据集上继续训练880亿token

第三阶段:合成数据监督微调

监督微调阶段采用了创新的合成数据训练方法,精心构建了包含推理和非推理样本的数据集:

  • 推理样本:系统指令中加入”detailed thinking on”
  • 非推理样本:使用”detailed thinking off”

这种设计使模型能够根据提示内容动态切换推理行为,为”推理开关”功能奠定了基础。

第四阶段:大规模强化学习训练

这一阶段是LN-Ultra超越DeepSeek-R1的关键。团队采用了与DeepSeek-R1同款的分组相对策略优化(GRPO)算法,训练过程中的创新设计包括:

  • 奖励机制:准确性奖励(基于标准答案匹配度)和格式奖励(强制特定标签使用)
  • 数据筛选:预先剔除通过率≥75%的简单样本
  • 课程训练:采用基于通过率的渐进式批次分配,从简单样本逐步过渡到困难样本

整个训练过程消耗约14万H100 GPU小时,使用72个节点(每个节点8张H100 GPU),生成阶段采用FP8精度,训练阶段采用BF16精度,这一系列技术组合使LN-Ultra在GPQA-Diamond数据集上的准确率获得显著提升。

第五阶段:指令对齐与人类偏好优化

最后阶段进行了简短的强化学习,重点优化模型的指令跟随能力和人类偏好对齐。团队使用RLHF技术提升模型的通用帮助能力和聊天表现,同时保留其在数学、科学等专业领域的能力。结果显示,经过对齐的LN-Super在Arena Hard测试中获得88.3分,超越了Claude 3.5 Sonnet和GPT-4o等专有模型。

革命性创新:推理开关功能与硬件感知优化

Llama-Nemotron系列最大的创新之一是推理开关功能,用户只需在系统提示中加入”detailed thinking on/off”即可动态切换两种模式:

  • 标准聊天模式:快速响应日常查询,直接给出答案
  • 深度推理模式:进行复杂多步推理,展示完整的思考过程

这一设计解决了当前AI模型的一大痛点——开发者无需维护不同架构的模型,即可根据需求灵活调整模型行为。在全球AI开源领域,这是首次实现此类功能的模型系列。

在硬件优化层面,Nemotron系列进行了深度的硬件感知优化:

  • 精度支持:训练阶段采用BF16,生成阶段使用FP8(带来1.8倍加速),优化器状态保持FP32
  • FP8精度生成:研究者开发了支持vLLM框架下在线FP8精度生成模式,单个GPU每个prompt的生成吞吐量最高可达32 token/s
  • 自定义vLLM权重加载器:在运行时将BF16权重转换为FP8格式

通过这些优化,LN-Ultra在推理吞吐量上实现了比DeepSeek-R1高4倍的惊人性能,同时保持了卓越的准确率。

性能对比:打破参数量与性能的线性关系神话

通过对比测试,Llama-Nemotron系列模型展现出超越其参数规模的卓越性能:

ModellierungGPQA-DiamondIFEvalLiveCodeBenchArena Hard
LN-Ultra (253B)76.0189.4566.3185.2
DeepSeek-R171.583.381.7
Llama 3.1-405B70.788.563.382.4

即使是体积更小的LN-Super (49B)也表现出色,在Arena Hard测试中取得88.3的高分,超越了专有模型如Claude 3.5 Sonnet和GPT-4o-2024-05-13,也优于体量更大的开源模型。

更值得注意的是,在分布外任务JudgeBench(区分高质量与低质量回答)上,LN-Ultra成为表现最好的开源模型,明显超过了DeepSeek-R1,仅次于专有模型o3-mini(high)。这充分证明了模型良好的泛化能力。

开源新格局:效率优先时代的到来

Llama-Nemotron系列的发布标志着AI发展进入效率优先的新阶段,对行业产生多方面影响:

  1. 打破参数壁垒:以更小的规模超越更大模型,挑战”更大即更好”的传统观念
  2. 降低部署门槛:高效架构设计使更多企业能够负担大模型部署
  3. 加速技术创新:完全开源的策略将加速AI技术的普及与创新
  4. 推动效率研究:激励更多研究者探索大模型的效率边界

随着AI竞赛进入效率为王的时代,英伟达Llama-Nemotron系列公开的多项创新技术——从动态推理开关到硬件感知优化,从合成数据训练到大规模强化学习,都将影响未来大模型的发展方向。

这次技术公开的意义不仅在于新一代高效模型的诞生,更在于为整个AI行业树立了新的技术标杆,推动AI技术向着更实用、更普惠的方向持续进化。在即将到来的B100 GPU等新一代硬件支持下,这一系列模型很可能只是效率革命的开始。

Wenn Sie GPT Plus, Claude Pro, Grok Super offizielles bezahltes exklusives Konto benutzen wollen, können Sie unser professionelles Team (wx: abch891) kontaktieren, wenn Sie nicht wissen, wie Sie Ihr Konto aufladen können.

Weitere Produkte finden Sie unter

Siehe mehr unter

ShirtAI - Durchdringende Intelligenz Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API Hilfe, kann jemand von Ihnen Tipps geben, wie man Fragen auf GPT stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge) Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep

Werbefläche

Transit Agent Service basierend auf offiziellen APIs

In dieser Ära der Offenheit und des Teilens führt OpenAI eine Revolution in der künstlichen Intelligenz an. Jetzt geben wir der Welt bekannt, dass wir alle Modelle von OpenAI vollständig unterstützt haben, z.B. GPT-4-ALL, GPT-4-multimodal, GPT-4-gizmo-*, etc. sowie eine Vielzahl von selbstentwickelten großen Modellen. Am aufregendsten ist, dass wir das leistungsfähigere und einflussreichere GPT-4o in die Welt eingeführt haben!

Website-Navigation

Abb. Anfang
Andocken von Dritten
Konsolen
Anweisungen für den Gebrauch
Online-Überwachung

Kontakt

公众号二维码

öffentliche Nummer

企业合作二维码

Zusammenarbeit Wechat

Copyright © 2021-2024 Alle Rechte vorbehalten 2024 | GPTMeta API