AI 数学推理三强争霸:OpenAI / Anthropic / DeepMind 同解 Erdős 1946 难题

# AI 数学推理三强争霸:OpenAI / Anthropic / DeepMind 同解 Erdős 1946 难题

AI 数学推理三强争霸 英雄图

【一句话摘要】同一周内,OpenAI、Anthropic、DeepMind 三家各自攻克了数学难题 Erdős 单位距离猜想,但方法截然不同——PoE 分布式推理、纯 LLM 搜索、Lean 形式验证,成本从几百到几万美元。

【实战价值分析】
– 🔬 读懂三巨头的 AI 数学推理架构差异
– 💰 算清不同推理方案的实际成本(对比表格)
– 🎯 学会设计”多实例协作”复杂推理 Prompt 结构
– ⚡ Claude Code + Mythos 的 PoE 分布式方案可复用到编码任务

【三巨头推理方案对决】

维度 OpenAI GPT-5.5 Pro Anthropic Claude Mythos DeepMind AlphaProof Nexus
核心方法 内部推理模型 + 自主搜索 Claude Code 多实例 PoE Lean 形式验证 + 搜索
解决的问题 单位距离猜想(1946) 同一问题+”简洁证明” 9 个 Erdős 问题
推理架构 单模型深度推理 多实例独立搜索+汇总 Lean 编译器自动验证
推理成本 约 $2,000-5,000 约 $1,000-3,000 每个问题仅 $200-500
验证方式 人类数学家审查 人类数学家对比 Lean 机械验证
时间消耗 约 80 分钟发现 + 30 分钟成文 “一个周末” 数百美元推理成本内
技术独创性 ★★★★★ 发现数论→几何新路径 ★★★★☆ “可爱简洁证明” ★★★☆☆ 搜索+验证闭环

## 一、OpenAI GPT-5.5 Pro:80 分钟破解 80 年难题

1946 年,数学家 Erdős 悬赏 $500 提出单位距离猜想:在一张纸上摆放 N 个点,能形成单位距离(距离=1)的点对数量最多有多少?Erdős 认为某种斜方格排列已经接近最优,无法再大幅提高。

OpenAI 的内部推理模型不仅推翻了这一猜想,还用到了数论工具——这不是组合几何的常规武器。

【关键发现】
– 模型发现新点排列方式,使单位距离对数量增加约 1%/每翻倍点数
– 使用的工具来自代数数论(class field theory),而非传统几何方法
– 数学家 Thomas Bloom 指出:人类需要同时满足 4 个条件才能找到这个解法——投入大量时间、敢于挑战 Erdős 权威、想将构造翻译到数域、熟悉类域论

Fields 奖得主 Tim Gowers 评价:”如果一个人类提交这篇论文到《数学年刊》,我会毫不犹豫建议接收。” 他将其称为 “AI 数学的里程碑”。

## 二、Anthropic Claude Mythos:PoE 分布式推理 + “可爱简洁证明”

就在 OpenAI 公布结果数天后,Anthropic 的工程师 Sholto Douglas 宣布 Claude Mythos 也解出了同一个问题,而且用了”可爱简洁的证明”。

【核心架构:PoE(Product of Experts)】

Anthropic 采用了一套巧妙的分布式方案——它不是让单个模型硬算,而是模仿专家委员会的协作模式:

Phase 1: 分发阶段
对于 i in [1..N]:
    实例_i = 独立的 Claude Code 会话
    输入: Erdős 单位距离猜想 + 已知解法背景
    目标: 寻找反例或新证明路径

Phase 2: 汇集阶段
    汇总实例 = 读取所有 N 个实例的输出
    去重合并相似路径

Phase 3: 深化阶段
    对于每个独特路径 p:
        启动 3-5 个子实例深入验证 p
    最佳路径择优输出

Phase 4: 终结
    最终实例: 整理完整证明 + 对比 OpenAI 方案

关键细节:Mythos常常走和 OpenAI 模型不同的路线,而且在并行实例中发展出了”自主发现并分发有希望的解法路径到更多实例”的能力。

【成本分析】
按 Claude Code 当前定价,假设运行 20-50 个 MCP 实例,每个实例推理 5-10 分钟,总成本估算:

| 组件 | 估算消耗 | 费用 |
|:—|:—:|:—:|
| 输入 Token | 500K-2M | $7.5-30 |
| 输出 Token | 200K-1M | $30-150 |
| 工具调用 | 1,000-5,000 次 | 含在输出内 |
| 总估算 | — | $1,000-3,000 |

## 三、DeepMind AlphaProof Nexus:最便宜的方案

DeepMind 的 AlphaProof Nexus 走了另一条路——不依赖 LLM 推理质量,而是用 Lean 编译器自动验证每一步。

– 解决的问题:9 个开放的 Erdős 问题
– 其中 2 个已搁置 56 年无人解答
– 每个问题推理成本仅 $200-500

AlphaProof 的思路和前两家的最大区别:它不追求模型”理解”数学,而是在 Lean 定理证明器的约束空间内搜索,保证了 100% 正确性。

【与我们的关联】
这套思路和我们之前报道的 AutoTTS 异曲同工——通过”搜索+验证”的闭环,让 AI 在受限空间内自主发现新知识。AlphaProof 用的是 Lean 编译器保证正确性,AutoTTS 用宽度-深度控制空间保证搜索质量,OpenAI 和 Anthropic 则依靠 LLM 本身的推理能力。

## 四、这对 AI Prompt 设计意味着什么

从三家的方案中,我们可以提炼出复杂推理任务 Prompt 的黄金结构:

【复杂推理 Prompt 模板】

系统指令层:
  角色: 你是 X 领域的独立研究者
  环境: 你有无限时间和算力资源
  约束: 每一步推理必须可追溯、可验证

任务指令层:
  问题: [明确的问题陈述]
  背景: [已知方法和它们的局限性]
  成功标准: [如何判断方案是否有效]

探索策略层:
  1. 列出至少 3 条完全不同的探索路径
  2. 对每条路径: 先推理可行性,再选择最优方向深入
  3. 如果遇到死胡同,退回到分支点换条路
  4. 记录所有失败路径——它们排除了什么

输出格式层:
  最终结论: [一步到位的答案]
  关键洞察: [前人忽略的核心突破点]
  验证方法: [如何确认结论正确]

【PoE 多实例协作的适用场景】

| 场景 | 推荐 | 理由 |
|:—|:—:|:—|
| 单一明确问题 | 单实例深度推理 | 多实例开销过大 |
| 开放式搜索问题 | PoE 多实例 | 探索不同路径,避免局部最优 |
| 需要严格验证的问题 | AlphaProof 路线 | Lean 形式验证保证正确性 |
| 混合场景 | PoE + 验证 | 先探索后验证 |

## 五、Tim Gowers 的”柯尔莫哥洛夫复杂度”评判标准

Fields 奖得主 Gowers 在这场辩论中提出了一个有趣的评判指标——”Kolmogorov complexity modulo experts”:一个专家需要多短的提示序列就能独立重建证明。

– 如果提示很短:说明这个证明本质上”藏在已知知识里”
– 如果提示很长:说明 AI 确实做了原创性贡献

Gowers 的 tentative 结论:AI 在特定类型的问题上有优势——百科全书式的知识 + 不在乎时间管理 + 愿意尝试看似不可能的路径。

但他的警告也值得注意:”我们很可能已经进入了一个时代——人类在解决数学问题上越来越难与 AI 竞争。”

【避坑】
– 不要迷信单一方案:三家的方法各有优劣,没有银弹
– 成本 ≠ 效果:DeepMind 最便宜但问题最简单,OpenAI 最贵但问题难度最高
– PoE 不是银弹:多实例并行只在搜索空间大、路径分叉多时才有优势
– 看不懂 AI 的证明是正常的——数学家 Bloom 说 “以事后诸葛的角度看,这是一个自然的推广,但非常不平凡”

【SOP 操作】

1. 遇到复杂推理问题时,先用 PoE 模板设计多路径探索 Prompt
2. 设置 3-5 个独立实例并行搜索,每个实例记录探索路径
3. 汇总阶段:去重、合并相似路径、排除死胡同
4. 对最有希望的 2-3 条路径做深化验证
5. 输出阶段:包含关键洞察 + 失败路径记录 + 验证方法
6. 如果结果涉及代码实现,用 Lean/形式化方法做二次验证

来源:The Decoder、Anthropic Blog;360 视界整理编译

发表评论