DeepSeekMath-V2横空出世：在“算力逆风”中打出数学最强音

当欧美工程师们正准备切火鸡迎接节日的时候，大洋彼岸的 DeepSeek 选择继续“卷科研”——几乎没有预告地推出了全新的 DeepSeekMath-V2。
开源、顶尖数学推理能力、硬刚闭源巨头，这套熟悉的组合拳，让 DeepSeek 的“开源灯塔”形象再次亮到刺眼。

在算力受限的情况下，他们又一次证明：不靠庞大 GPU 集群，也能在全球最硬核的数学赛道上打出世界级成绩，让闭源对手不得不重新审视“底层算法”的力量。

这一次，DeepSeek 没有任何客套，直接用 IMO 2025 与 普特南竞赛 的真题当作“期末考试”，硬碰硬测试模型推理能力。结果也很“DeepSeek”——不是追上，而是并肩甚至超越 GPT-5、Gemini 2.5 Pro 等旗舰闭源模型。

1. 战绩冲击天花板：AI 在数学竞赛中“反杀人类顶尖选手”

这代模型到底强到什么程度？数据足以说明一切。

在 2025 IMO 基准测试中，DeepSeekMath-V2 做对 6 题中的 5 题，达到了“金牌段位”。
以往，这种水平几乎是 OpenAI、Google DeepMind 等巨头的“商业禁区”。
如今，一个开源模型完成了突破。

普特南竞赛以“难到让本科生怀疑人生”著称，许多年中位数是 0 分。

但 DeepSeekMath-V2 在 2024 年试题评测中：

与之对比，人类历史最高分约 90 分。

这说明模型并非“记题库”，而是真正掌握了复杂数学推理结构，具备超越顶尖选手的理解和解决能力。

不仅如此，在代数、数论、几何等多项子领域中，它也集体压过 GPT-5 和 Gemini 2.5 Pro。

数学一直是大模型的灾难区，“一本正经胡说八道”几乎成了行业痛点。
DeepSeek 给出的解法是——将模型从“答题者”升级为“推理者”。

核心技术叫做 Meta-Verification（元验证）。

与其奖励“答对答案”，DeepSeek 强化了对推导过程的校验：

这套“学生—老师—校长”的递归结构，使模型不能再依赖蒙答案，而必须真正学会数学推理。

模型在解题时不是“一条路走到黑”，而是展开 64 种推导路径，交给验证系统评分，最后选择逻辑最完整的一条。
这种“三思而后答”的机制，也被视为通向 AGI 的关键步骤。

另外，DeepSeekMath-V2 构建了一个自我增强的“数学闭环生态”：
验证器反哺生成器质量，模型自产高难训练样本，加速推理能力迭代。

如果 DeepSeekMath-V2 只是性能强，这件事还不至于惊动全球。
关键是——它完全开源，权重直接放出，采用 Apache 2.0 协议。

相比之下，OpenAI、Google 的顶尖模型全部闭源，只能通过 API 使用，且数据需要上传云端。

DeepSeek 的做法相当于把“数学天才的脑子”拷贝给全世界：

正如 Hugging Face CEO Clément Delangue 激动表示：

“以前没有任何模型能在开放平台上直接提供 IMO 金牌级别的能力。今天，DeepSeek 做到了。”

此举让“数学推理护城河”在一夜之间变成“公共设施”。

全球播客、技术媒体、独立研究者纷纷上手，
Hacker News 上更是爆发了长帖讨论：从模型大小、推理成本，到安全性与常识能力，争论不断。
有人赞叹这是“技术奇迹”，也有人对模型能力的外溢影响表示担忧。

DeepSeek 的这次突破，其实出现在并不宽裕的算力背景下。

由于芯片供应问题，DeepSeek 一直面临硬件紧张，旗舰模型 R2 甚至因此延期。
正是在这种条件下，团队选择了与硅谷完全不同的路线：

他们采用“冷启动式”训练——
让模型自己生成高质量训练样本、自我校验、自我迭代，大幅降低对昂贵人工标注和算力资源的依赖。

这也是 DeepSeekMath-V2 在硬件劣势中完成“反杀”的根本原因。

DeepSeekMath-V2 的发布释放了一个信号：

AGI 的未来并不只属于闭源巨头。

当硅谷仍在用“安全”“风险”作为理由，把最强能力关在黑盒里，
来自中国的 DeepSeek 却选择将最锋利的工具共享给全球开发者。

这不仅是一种技术路线的差异，
更是 AI 生态和知识生产方式的一次结构性转折。

开放的力量，也许正在加速 AGI 的到来。

文章来源：网络　文章作者：小编