DeepSeek最新模型硬刚o1!英伟达科学家等大佬:这才配叫OpenAI
OpenAI 怎么也没想到,o3 还在画饼阶段,中国一夜之间就冒出来两个能和 o1 打对台的模型。
1 月 20 日,月之暗面正式推出多模态思考模型 Kimi k1.5,并首次公开该模型的训练技术报告。
Kimi k1.5 在 short-CoT(短链思考)方面达到领先水平,在其他多个测试中也大幅超越 GPT-4 和 Claude Sonnet 3.5。在 Long-CoT(长链思考)方面,该模型在多个领域的表现也与 o1 持平。
同一天,DeepSeek 也正式开源 R1 推理模型,并发布技术报告。R1 在多个基准测试中也与 o1 持平,并且成本只有 o1 的三十分之一。
随着 R1 模型的开源,英伟达科学家 Jim Fan 称:"我们生活在这样一个时代:由非美国公司保持 OpenAI 最初的使命——做真正开放的前沿研究、为所有人赋能。" Perplexity CEO Aravind Srinivas 表更是直言:" DeepSeek 才配叫做 OpenAI。"
不过,R1 依然面临着开源模型 V3 一样的毛病。有网友向他提问"谁训练你的"时,它回答道:"我是被 OpenAI 开发的"。
DeepSeek、Kimi 新模型发布"撞车",硬刚 OpenAI
北京时间 1 月 20 日,月之暗面发布了多模态思考模型 Kimi k1.5。
在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力大幅超越了 GPT-4o 和 Claude 3.5 Sonnet,领先幅度高达 550%。在 Long-CoT 模式下,Kimi k1.5 的数学、代码、多模态推理能力达到了 OpenAI o1 正式版的水平。
月之暗面表示,这应该是全球范围内,有 OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能。


图片来源:X
同一天,DeepSeek 也正式开源 R1 推理模型,允许所有人在遵循 MIT License(注:被广泛使用的一种软件许可条款)的情况下,蒸馏 R1 训练其他模型。
在数学、代码和自然语言推理等任务上,R1 的性能比肩 o1 正式版。同时根据 DeepSeek 公布的测试数据,R1 在美国 AIME 2024、MATH-500 和 SWE-bench Verified 测试中的比分均高于 o1。AIME 2024 和 MATH-500 测试专注于数学能力,SWE-bench Verified 则用于评估 AI 模型解决现实世界软件问题的能力。

图片来源:X
更重要的是,R1 的价格只有 o1 的约三十分之一,百万 token 输出只需 16 元人民币,相较而言,o1 的百万 token 输出需要 60 美元(约合人民币 436 元)。

图片来源:DeepSeek 官网
另外,R1 的参数量较低,开发人员可以用相对较低的成本在本地运行模型。Exo Lab 创始人 Alex Cheema 在家使用 7 个 MacMini 串联一个 MacBook 成功运行起了 R1 模型。他感叹道:" AGI(通用人工智能)到家了。"

图片来源:X
英伟达科学家等大佬:DeepSeek 才配叫 OpenAI
R1 的技术文档发布后,英伟达高级研究科学家 Jim Fan 第一时间对论文进行研究,之后发出了这样的感慨:"我们生活在这样一个时代:由非美国公司保持 OpenAI 最初的使命——做真正开放的前沿研究、为所有人赋能。"
他补充道:" DeepSeek-R1 不仅开源了大量模型,还泄露了所有训练秘密。他们可能是第一个显示 RL(强化学习)飞轮发挥主要作用、持续增长的 OSS 项目。(对 AI 研究的)影响不仅可以通过‘内部实现了 ASI ’或‘草莓计划’等神话名称来实现,也可以通过简单地转储原始算法和 matplotlib 学习曲线来产生影响。"
Jim Fan 的每一句话都在戳喜欢搞神秘,卖期货的 OpenAI 的肺管子。

图片来源:X
实际上,业界有这种看法的人还不少。Abacus ai 的 CEO Bindu Reddy 评价道:"这是开源 AGI 的胜利,一家来自中国的小型初创公司击败了所有人"。
UC Berkeley 教授 Alex Dimakis 也认为,DeepSeek 现在已经处于领先位置,美国公司可能需要迎头赶上了。
Perplexity CEO Aravind Srinivas 表更是直言:" DeepSeek 才配叫做 OpenAI。"

图片来源:X
除了对 OpenAI 的讽刺之外,Jim Fan 还深入解读了 R1 模型的创新之处。
他表示,R1 模型纯粹由 RL 驱动,完全没有 SFT("冷启动")。这让人想起 AlphaZero ——从头开始掌握围棋、将棋和国际象棋,而无需先模仿人类大师级的动作。
而且,R1 使用由硬编码规则计算的真值奖励,避免使用任何 RL 容易攻击的学习奖励模型。随着训练的进行,模型的思考时间稳步增加。Jim Fan 强调,这不是预先编程好的,而是一种模型自主的突发特性,并且模型也出现了自我反省和探索行为。
DeepSeek 还使用了一种名为 GRPO(组相对策略优化)的新优化方法,有效减少了内存使用。GRPO 由 DeepSeek 于 2024 年 2 月发明。这也是为什么家用设备也能完整运行 R1 的原因。
基于此,有网友指出,鉴于 Deepseek 仍在使用 GRPO 等 GPU 性能较差的方法,可以推断出,该公司可能没有很多功能强大的 Hopper GPU。这意味着,算力训练成本也是极低的。
有网友评价,这是 AI 的"顿悟时刻":" R1-Zero(注:R1 是 R1-Zero 调整后的模型)证明模型可以自我开发推理策略。举个例子:当遇到问题时,它学会了回溯并质疑其最初的假设——这是一种从未明确编程的行为。"这代表着 DeepSeek 的新模型已经能够具有像人类一样的自主学习能力了。
知名 AI 评测员 Matthew Berman 表示,R1 拥有他所见过的最像人类的内心独白。

图片来源:X
然而,R1 依然面临着开源模型 V3 一样的毛病。有网友向他提问谁训练你的时,它回答道:"我是被 OpenAI 开发的"。

图片来源:X
- 上一篇:没有了
- 下一篇:没有了