# AI 数学推理三强争霸:OpenAI / Anthropic / DeepMind 同解 Erdős 1946 难题

【一句话摘要】同一周内,OpenAI、Anthropic、DeepMind 三家各自攻克了数学难题 Erdős 单位距离猜想,但方法截然不同——PoE 分布式推理、纯 LLM 搜索、Lean 形式验证,成本从几百到几万美元。
【实战价值分析】
– 🔬 读懂三巨头的 AI 数学推理架构差异
– 💰 算清不同推理方案的实际成本(对比表格)
– 🎯 学会设计”多实例协作”复杂推理 Prompt 结构
– ⚡ Claude Code + Mythos 的 PoE 分布式方案可复用到编码任务
【三巨头推理方案对决】
| 维度 | OpenAI GPT-5.5 Pro | Anthropic Claude Mythos | DeepMind AlphaProof Nexus |
|---|---|---|---|
| 核心方法 | 内部推理模型 + 自主搜索 | Claude Code 多实例 PoE | Lean 形式验证 + 搜索 |
| 解决的问题 | 单位距离猜想(1946) | 同一问题+”简洁证明” | 9 个 Erdős 问题 |
| 推理架构 | 单模型深度推理 | 多实例独立搜索+汇总 | Lean 编译器自动验证 |
| 推理成本 | 约 $2,000-5,000 | 约 $1,000-3,000 | 每个问题仅 $200-500 |
| 验证方式 | 人类数学家审查 | 人类数学家对比 | Lean 机械验证 |
| 时间消耗 | 约 80 分钟发现 + 30 分钟成文 | “一个周末” | 数百美元推理成本内 |
| 技术独创性 | ★★★★★ 发现数论→几何新路径 | ★★★★☆ “可爱简洁证明” | ★★★☆☆ 搜索+验证闭环 |
## 一、OpenAI GPT-5.5 Pro:80 分钟破解 80 年难题
1946 年,数学家 Erdős 悬赏 $500 提出单位距离猜想:在一张纸上摆放 N 个点,能形成单位距离(距离=1)的点对数量最多有多少?Erdős 认为某种斜方格排列已经接近最优,无法再大幅提高。
OpenAI 的内部推理模型不仅推翻了这一猜想,还用到了数论工具——这不是组合几何的常规武器。
【关键发现】
– 模型发现新点排列方式,使单位距离对数量增加约 1%/每翻倍点数
– 使用的工具来自代数数论(class field theory),而非传统几何方法
– 数学家 Thomas Bloom 指出:人类需要同时满足 4 个条件才能找到这个解法——投入大量时间、敢于挑战 Erdős 权威、想将构造翻译到数域、熟悉类域论
Fields 奖得主 Tim Gowers 评价:”如果一个人类提交这篇论文到《数学年刊》,我会毫不犹豫建议接收。” 他将其称为 “AI 数学的里程碑”。
## 二、Anthropic Claude Mythos:PoE 分布式推理 + “可爱简洁证明”
就在 OpenAI 公布结果数天后,Anthropic 的工程师 Sholto Douglas 宣布 Claude Mythos 也解出了同一个问题,而且用了”可爱简洁的证明”。
【核心架构:PoE(Product of Experts)】
Anthropic 采用了一套巧妙的分布式方案——它不是让单个模型硬算,而是模仿专家委员会的协作模式:
Phase 1: 分发阶段
对于 i in [1..N]:
实例_i = 独立的 Claude Code 会话
输入: Erdős 单位距离猜想 + 已知解法背景
目标: 寻找反例或新证明路径
Phase 2: 汇集阶段
汇总实例 = 读取所有 N 个实例的输出
去重合并相似路径
Phase 3: 深化阶段
对于每个独特路径 p:
启动 3-5 个子实例深入验证 p
最佳路径择优输出
Phase 4: 终结
最终实例: 整理完整证明 + 对比 OpenAI 方案
关键细节:Mythos常常走和 OpenAI 模型不同的路线,而且在并行实例中发展出了”自主发现并分发有希望的解法路径到更多实例”的能力。
【成本分析】
按 Claude Code 当前定价,假设运行 20-50 个 MCP 实例,每个实例推理 5-10 分钟,总成本估算:
| 组件 | 估算消耗 | 费用 |
|:—|:—:|:—:|
| 输入 Token | 500K-2M | $7.5-30 |
| 输出 Token | 200K-1M | $30-150 |
| 工具调用 | 1,000-5,000 次 | 含在输出内 |
| 总估算 | — | $1,000-3,000 |
## 三、DeepMind AlphaProof Nexus:最便宜的方案
DeepMind 的 AlphaProof Nexus 走了另一条路——不依赖 LLM 推理质量,而是用 Lean 编译器自动验证每一步。
– 解决的问题:9 个开放的 Erdős 问题
– 其中 2 个已搁置 56 年无人解答
– 每个问题推理成本仅 $200-500
AlphaProof 的思路和前两家的最大区别:它不追求模型”理解”数学,而是在 Lean 定理证明器的约束空间内搜索,保证了 100% 正确性。
【与我们的关联】
这套思路和我们之前报道的 AutoTTS 异曲同工——通过”搜索+验证”的闭环,让 AI 在受限空间内自主发现新知识。AlphaProof 用的是 Lean 编译器保证正确性,AutoTTS 用宽度-深度控制空间保证搜索质量,OpenAI 和 Anthropic 则依靠 LLM 本身的推理能力。
## 四、这对 AI Prompt 设计意味着什么
从三家的方案中,我们可以提炼出复杂推理任务 Prompt 的黄金结构:
【复杂推理 Prompt 模板】 系统指令层: 角色: 你是 X 领域的独立研究者 环境: 你有无限时间和算力资源 约束: 每一步推理必须可追溯、可验证 任务指令层: 问题: [明确的问题陈述] 背景: [已知方法和它们的局限性] 成功标准: [如何判断方案是否有效] 探索策略层: 1. 列出至少 3 条完全不同的探索路径 2. 对每条路径: 先推理可行性,再选择最优方向深入 3. 如果遇到死胡同,退回到分支点换条路 4. 记录所有失败路径——它们排除了什么 输出格式层: 最终结论: [一步到位的答案] 关键洞察: [前人忽略的核心突破点] 验证方法: [如何确认结论正确]
【PoE 多实例协作的适用场景】
| 场景 | 推荐 | 理由 |
|:—|:—:|:—|
| 单一明确问题 | 单实例深度推理 | 多实例开销过大 |
| 开放式搜索问题 | PoE 多实例 | 探索不同路径,避免局部最优 |
| 需要严格验证的问题 | AlphaProof 路线 | Lean 形式验证保证正确性 |
| 混合场景 | PoE + 验证 | 先探索后验证 |
## 五、Tim Gowers 的”柯尔莫哥洛夫复杂度”评判标准
Fields 奖得主 Gowers 在这场辩论中提出了一个有趣的评判指标——”Kolmogorov complexity modulo experts”:一个专家需要多短的提示序列就能独立重建证明。
– 如果提示很短:说明这个证明本质上”藏在已知知识里”
– 如果提示很长:说明 AI 确实做了原创性贡献
Gowers 的 tentative 结论:AI 在特定类型的问题上有优势——百科全书式的知识 + 不在乎时间管理 + 愿意尝试看似不可能的路径。
但他的警告也值得注意:”我们很可能已经进入了一个时代——人类在解决数学问题上越来越难与 AI 竞争。”
【避坑】
– 不要迷信单一方案:三家的方法各有优劣,没有银弹
– 成本 ≠ 效果:DeepMind 最便宜但问题最简单,OpenAI 最贵但问题难度最高
– PoE 不是银弹:多实例并行只在搜索空间大、路径分叉多时才有优势
– 看不懂 AI 的证明是正常的——数学家 Bloom 说 “以事后诸葛的角度看,这是一个自然的推广,但非常不平凡”
【SOP 操作】
1. 遇到复杂推理问题时,先用 PoE 模板设计多路径探索 Prompt
2. 设置 3-5 个独立实例并行搜索,每个实例记录探索路径
3. 汇总阶段:去重、合并相似路径、排除死胡同
4. 对最有希望的 2-3 条路径做深化验证
5. 输出阶段:包含关键洞察 + 失败路径记录 + 验证方法
6. 如果结果涉及代码实现,用 Lean/形式化方法做二次验证
来源:The Decoder、Anthropic Blog;360 视界整理编译