Navigation menu
作者 |创建者:陈陈 |专门在假期制造大新闻的 Deepseek 又来了。当大洋彼岸的工程师准备切火鸡庆祝节日时,Deepseek 保持了极客传统,悄然推出了 Deepseekmath-V2。开源权重,金牌金牌级别,超过GPT-5。这组熟悉的“三击”再次巩固了 Deepseek “开源灯塔”的地位。在算力有限的背景下,Deepseek再次证明了自己:不需要大型GPU集群,就能用算法奇迹教闭源巨头在最硬核的数学赛道上“行动”。它“万无一失”,直接拿下了除2025年国际数学奥林匹克(IMO 2025)和普特南数学竞赛(Putnam)之外的世界数学竞赛的“终极试金石”。在严格的基准测试中,它的测试结果与 GPT-5 和 Gemini 相当。 2.5 Pro 符合甚至优于完美答案。 1、性能强劲:“碾压”人形Deepseekmath-V2的AI有多强?数据不会说谎——IMO 2025 年金牌获得者,可与 Google Openai 相媲美。在2025年的基准测试中,DeepseekMath-V2成功解决了6个问题中的5个,达到了“金牌”水平。这一结果直接对标了 Google DeepMind 和 OpenAi 之前吹嘘的闭源模型。在此之前,这一级别的推理是硅谷巨头——普特南竞赛的严密保守的商业秘密:118分VS人类最高分90分。威廉·洛厄尔·普特南数学竞赛(PUTNAM)可以说是北美本科生的一场“噩梦”。它以其极高的难度而闻名,中位数分数仍然接近0。团队宣布,DeepseekMath-V2 在 2024 年普特南测试中,12 题中答对了 11 题,仅最后一题存在轻微缺陷,最终结果我的分数是118分(满分120分)。相比之下,人类玩家的最高分也只有90分左右。这表明人工智能。它不仅仅是记住问题,而是具有超越人类顶尖玩家的逻辑解题能力。此外,DeepSeekMath-V2 在代数、几何等五个关键数学领域的表现优于 GPT-5 和 Gemini 2.5 Pro。 2.揭示:为什么它是智能的?数学推理一直是人工智能的弱点,因为大型模型是“严重废话”(幻觉问题)的转瞬即逝的队长。如何解决这个问题呢?答案是“meta-verificat”(离子)技术。传统AI训练“送糖果”:答对的奖励。但在高级数学证明中,答案对并不代表过程对。人工智能很容易完成一个过程并得到正确的答案。但 Deepseek 引入了一套“左右”机制:生成器就像一个学生,负责编写解决问题的步骤。验证器是 teacher,负责检查逻辑漏洞,不仅检查答案,还要检查推导过程是否严谨。更神奇的是,他们还训练了一个“二阶验证者”来监督“老师”是否做出了正确的修正,避免模型利用漏洞得分。这种递归验证结构迫使模型学习真正的逻辑推理而不是机会。在理解阶段,模型不只是说话。它为一个问题生成 64 条候选证明路径,然后使用验证器对每一条进行评分,并选择逻辑最严格的一条。 “三思而后行”是迈向通用人工智能(AGI)的重要一步。此外,DeepSeekMath-V2还打造了数字闭环生态系统,利用验证反馈直接优化生成质量,利用免费生成的高难度训练样本促进系统差异化。 3.大的st优势:开源!这就是技术世界中的嗡嗡声的真正作用。过去,OpenAi 和 Google 都选择了闭源。您想使用一流的数学推理能力吗?您只能付费调用 API。数据不仅要转移到云端,而且其使用也仅限于人。但 Deepseek 直接扭转了局面:模型权重可以在 Apache 2.0 协议下公开下载。 Hugging Face 首席执行官 Clément Delangue 兴奋地发推文:“据我所知,还没有任何聊天机器人或 API 可以为你提供黄金级的黄金模型。但今天这种情况发生了变化。你可以直接将 Deepseek Math-V2 权重下载到 Hugging Face 上。”这意味着大学研究人员和商业开发人员可以在本地部署“数学天才”。每个人都可以体验修剪“奥数金牌”AI的乐趣,而无需担心数据隐私或看到硅谷大公司的面孔。一夜之间,曾经被视为主要竞争的“理性护城河”变成了所有人都可以使用的基础设施。当它推出时,世界各地的技术播客和专家开始对其进行测试。科技博主、英国程序员Simon Willison很快对Deepseek Math-V2的发布做出了技术解读,强调它是一个开放的权重模型。他还特别指出,等效的OpenAI和Google模型约为700G,而Deepseek Math-V2相比之下更小。 Binaryverse 发布的播客也称为 Deepseekmath-V2,它在几个基准数学推理上超越了现有的大型闭源模型,但也指出该模型“不能全面得出一般问题和答案或一般情况”。 Hacker News 等社区也表达了他们对该模型指标和功能的个人看法。许多人对该模型的强大功能感到惊讶,但也有人质疑是否大量算力带来的良好指标可以转移到常规使用场景中。许多评论强调了“令人惊讶但令人不安”的速度,并讨论了该模型对更广泛的推理和安全性的影响。 4、逆风翻盘:有限算力下的极致优化。 Deepseek成功的背景其实是相当悲惨的。由于芯片供应问题,Deepseek在计算硬件上尚无优势,旗舰R2型号也因硬件兼容性问题被迫推迟。但在这种巨大的压力下,DeepseekMath-V2证明了一件事:改变算法可以弥补计算能力的不足。它不仅仅依靠NVIDIA GPU集群的积极堆叠,而是采用“冷启动”训练——允许AI生成自己的训练数据,自我训练,并使用自动标注系统摆脱对昂贵的手动标注数据的依赖。 5. 结论 发布DeepseekMath-V2证明,在通向AGI的道路上,开源模式并没有倒下,甚至迎头赶上。当硅谷仍在试图将顶级模型锁在“安全”院子里的黑匣子里时,Deepseek这家中国公司却选择了慷慨,将钥匙交给了世界。对于所有实用人工智能来说,现在是最好的时代。