AutoTTS:Claude Code 自我进化发现 AI 缩放算法

【AutoTTS:Claude Code 自我进化发现 AI 缩放算法】

【一句话摘要】
$40 成本 + 160 分钟,Claude Code 自己写出来的推理算法比人类设计的更强。

【实战价值分析】
– 省了多少钱?单次算法发现只需 $39.9,零 API 调用(离线回放)
– 快了多少倍?160 分钟跑完全流程,传统方法需要数周人工迭代
– 解决了什么问题?把人工设计 TTS(测试时缩放)策略,变成搭一个模拟环境让 AI 自己搜

核心数字速览:

指标 AutoTTS 传统 SC@64
发现成本 $39.9 数周人工
发现耗时 160 分钟 数天~数周
Token 节省 ≈69.5% 基准线
推理精度 持平或更优 基准线
搜索期间 LLM 调用 0 次 N/A
跨模型迁移 已验证 需人工重调

【核心概念:测试时缩放(TTS)是什么】

大语言模型推理时,可以通过「多跑几条路径」「延长思考链」来提升答案质量。这就是测试时缩放(Test-Time Scaling, TTS)。传统做法是人工写规则决定:什么时候开启新路径、什么时候终止、什么时候投票选出答案。

AutoTTS 颠覆了这个流程——人不再写规则,而是搭一个「模拟器」,让 AI Agent 自己在里面搜出最优策略。

整个流程分三步:
1. 研究人员定义状态空间(当前开了几条路径?每条走到哪了?置信度如何?)
2. 离线预生成所有可能的推理轨迹,存成回放缓存
3. Claude Code 作为搜索 Agent,在这个回放环境里迭代提出和优化控制算法

【核心技术:AutoTTS 如何工作】

AutoTTS 的核心是一个离线回放环境(Offline Replay Environment)。对每个测试任务,预先从语言模型生成多条推理路径并存储。新的控制算法直接基于已有数据决定如何分配算力:

– 状态 s_t = (问题, 路径数, 活跃路径集合, 深度向量, 探针结果)
– 可执行动作:开启新路径、继续某路径、探针检查、剪枝、终止并投票
– 成本函数:按路径深度和探针次数计费

关键创新:成千上万的算法变体在离线数据上模拟运行,不需要每次调用大模型。搜索成本几乎为零。

Claude Code 担任搜索 Agent 的角色:回顾之前的尝试 → 发现弱点 → 写出新的控制算法源码。每轮只暴露一个高层控制器参数 β,β 单调映射到所有内部阈值,防止搜索陷入海量参数组合。

【核心指令区:Confidence Momentum Controller(CMC)】

Claude Code 最终发现的算法叫「置信动量控制器」(CMC),它追踪模型置信度随时间的变化趋势。与人类设计的策略最大区别在于:

策略 工作方式 Token 消耗
SC@64 并行生成 64 条答案,多数投票 100%(基准)
ASC 自适应停顿时长 ≈70%
ESC 早期终止策略 ≈55%
AutoTTS (β=0.5) 置信动量控制 ≈31%

AutoTTS 的 β=0.5 档位,Token 消耗仅为 SC@64 的约 31%(节省 69.5%),精度持平。

CMC 的工作逻辑:


论文作者评价:「这种协调逻辑人类几乎不可能手工设计出来。」

【实验结果速览】

基准测试 模型规模 AutoTTS vs SC@64 精度 Token 节省
AIME 2025 Qwen3-1.7B 持平 69.5%
AIME 2025 Qwen3-8B 持平 ≈65%
HMMT 2025 Qwen3-1.7B 略优 ≈70%
GPQA-Diamond DeepSeek-R1-8B 持平 已验证迁移

【SOP 复现步骤】

1. 克隆仓库

bash

2. 安装依赖

bash

3. 离线构建回放环境(指定 backbone 模型和基准测试)

bash

4. 启动 Claude Code 搜索 Agent

bash

5. 查看搜索结果——β 扫描曲线和发现的控制算法

bash

【避坑指南】

– 离线回放环境只覆盖 width-depth 二维控制空间,不支持树搜索等更复杂结构
– 当前版本仅验证了 Claude Code 作为搜索 Agent。论文作者未测试开源替代方案的效果
– β 参数的单控制器约束至关重要——移除它后 agent 会走极端捷径,在测试集上精度暴跌
– 没有完整执行日志反馈时,发现的算法会消耗更多算力但精度更差
– 回放缓存构建是一次性成本(每个模型+基准组合各跑一次),但构建时仍需多次调用 backbone 模型生成推理轨迹

【延伸思考】

AutoTTS 传达的信号很清晰:从写算法到搭搜索空间。人类角色从「算法发明者」变成「环境设计者」。这个思路和 FunSearch、AlphaEvolve、ADAS 一脉相承——用语言模型作为程序搜索器。区别在于,这是首次将该方法应用于测试时缩放这个长期由人工主导的领域。

对站长来说,这意味着:未来几个月内,你能看到更高效(同精度算力消耗砍半)的推理服务上线。当 AI Agent 自己能发现更优的推理策略,LLM 服务的 token 成本将继续下探。

来源:the-decoder.com;360 视界整理编译

发表评论