设为首页加入收藏
  • 首页
  • {$vo.typename}
  • {$vo.typename}
  • {$vo.typename}
  • {$vo.typename}
  • {$vo.typename}
  • {$vo.typename}
    • 当前位置:首页>赣州>扩散模型成最快深度思考!告别自回归每�个tokens

      扩散模型成最快深度思考!告别自回归每�个tokens

      发布时间:2026-04-17 来源:角立杰出网作者:带頭大哥哥

      首个会深度思考的扩散模型来了!

      抛弃自回归范式,一举成为世界上生成速度最快的模型。

      你瞅瞅,对比之下传统自回归的“打字机模式”(按顺序一个个token往外吐)是不是就有点像乌龟了:

      实际测评显示,这款名为Mercury 2的扩散推理LLM在英伟达GPU上可实�个tokens/s。

      这个速度整整比GPT-5(mini)和Claude-4.5(haiku)这些传统模型快𱅁倍。

      消息一出,英伟达第一时间跑来祝贺了(当然也可能是因为它投了Mercury 2背后的公司):

      一众网友也纷纷坐不住,毕竟最近很火的“龙虾们”也少不了对速度的极限追求:

      还有人已经开始怀念自回归曾经的风光了(doge)。

      so,Mercury 2是谁?它又是如何突破速度瓶颈的呢?

      不止是快,还稳

      原理其实很简单。

      前面已经说了,传统自回归就像打字机一样,一次只能处理一个token,且必须按照从左到右的顺序。

      但扩散模型Mercury 2的工作方式更像一位编辑——

      你不是在看它打字,而是看它拿到一份草稿后,立刻拿着红笔在整页纸上同时圈改。

      换言之,一次生成答案草稿再整体编辑。

      这种“并行优化”机制,使得Mercury 2不需要等待前一个字的结果就能生成下一个字,因此响应速度极快,延迟不再与输出长度成正比。

      最终,Mercury 2能将生成速度提𴃋倍以上,且速度曲线截然不同。

      瞅瞅,在第三方测评中,其输出速度可谓一骑绝尘。

      和市面主流的顶尖模型比,速度也是独一档的存在。

      而且不止是快,它在性能、价格方面都具有一定优势。

      延迟低񑍿.7s的情况下,在GPQA(科学问答)、LCB(编程)、AIME(数学)等多个基准测试中,Mercury 2的得分普遍高于或持平于那些速度较慢的“小型/轻量级”模型(如GPT-5 Nano, Claude 4.5 Haiku)。

      甚至在AIME上的得分超过了公认的“性能怪兽”Gemini 3 Flash(推理版) 。

      这说明Mercury 2在保持极高速度的同时,并不以牺牲智商为代价。

      它目前支�K上下文,输入价格为每百万token 0.25美元(约合人民𺰋.7元),输出价格为每百万token 0.75美元(约合人民𺰏.2元)。

      综合速度与价格,Mercury 2也保持了较高性价比。

      官方表示,Mercury 2的这种速度优势改变了推理。

      如今,更高的智能意味着更多的test-time计算——更长的链、更多的样本、更多的重试,而这直接以延迟和成本为代价。基于扩散的推理能够在实时延迟预算内实现推理级别的质量。

      背后公司一开始就押注扩散模型

      最后介绍一下Mercury 2背后的公司及团队。

      它是由Inception Labs这家成立�年的硅谷初创公司推出的。

      从一开始这家公司就力押扩散模型,其核心使命为——

      用全新的、基于扩散/diffusion的生成机制替代传统的自回归Transformer模型,从根本上突破速度与成本瓶颈。

      他们认为,传统自回归模型的缺陷不言自明——延迟和成本会随着token数量的增加而增加。

      而扩散模型采用由粗到精的生成过程。它并非逐个提交数据,而是通过少量步骤并行迭代地细化输出。这使得在生成过程中可以进行修改,并带来截然不同的速度-成本曲线。一言以蔽之:

      人工智能不应该像单向打字机那样运作,而应该更像一个编辑。

      基于此,他们开始在Mercury系列中践行这一理念。

      2025𻂊月,发布全球首个基于扩散模型的商业级语言模型——初代Mercury,一开始就把生成速度拉到传统񊄭倍以上,而且同一时间还推出编程助手Mercury Coder。

      一年之后,升级版Mercury 2问世,在推理和多智能体日益进入主流视线的今天,带来了更多可能。

      事实上,早�年,这家公司的联创兼CEO Stefano Ermon就开始投身扩散模型的研究了。

      时任斯坦福大学计算机科学教授的Stefano Ermon,很早就思忖着将扩散模型应用于内容生成。

      当时主流的图像生成模型还在使用GAN(生成对抗网络),但他和团队认为结果“不够好”,于是开始尝试应用Diffusion。

      而在看到Diffusion的效果不错后(后来Midjourney、DALL-E等都是用这种方法),他们开始将研究目光转向文本和代码生成。

      图像由连续的像素构成,而文本由离散的token构成。之前成功的扩散模型理论(如去噪得分匹配)是建立在连续空间上的,无法直接迁移到文本。

      于是�年,他和团队发表了一篇关键性论文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》,里面介绍了一种名为Score Entropy Discrete Diffusion models(SEDD)的模型。

      该模型创新性提出了“分数熵”(score entropy)这一全新损失函数,它巧妙地将连续空间的分数匹配理论扩展到了离散数据领域。

      这使得扩散模型能够像理解图像一样,去理解和生成语言。

      论文结果表明,SEDD的表现明显优于当时已有的语言模型,困惑度比未退火(未使用“动态调整温度”这个优化技巧)的GPT-2𷻨-8倍。

      (注:后来这篇论文还获得了ICML 2024最佳论文奖)

      见此,Stefano Ermon决定通过创业将技术价值放大。

      于是�年夏天,他邀请美国加利福尼亚大学洛杉矶分校教授Aditya Grover(左)和美国康奈尔大学教授Volodymyr Kuleshov(右)加入Inception Labs。

      去�月,这家公司还宣布获得�万美元融资,而且投资阵容相当豪华。

      除了NVentures(英伟达风投部门)、M12(微软旗下风险基金)、Menlo Ventures (领投方、知名长期风投机构)等明星机构,还不乏吴恩达、卡帕西这些AI大佬。

      可以说,坚持走扩散模型路子的Inception Labs始终稳扎稳打并获得市场支持。

      最后顺便一提,Mercury 2目前暂无开源计划,不过其API全面兼容OpenAI标准。

      感兴趣的朋友也可亲自上手一试了。

      体验地址:https://chat.inceptionlabs.ai/

      • 上一篇:{loop type="arclist" row=1 }{$vo.title}