AutoTTS：Claude Code 自我进化发现 AI 缩放算法

【AutoTTS：Claude Code 自我进化发现 AI 缩放算法】

【一句话摘要】
$40 成本 + 160 分钟，Claude Code 自己写出来的推理算法比人类设计的更强。

【实战价值分析】
– 省了多少钱？单次算法发现只需 $39.9，零 API 调用（离线回放）
– 快了多少倍？160 分钟跑完全流程，传统方法需要数周人工迭代
– 解决了什么问题？把人工设计 TTS（测试时缩放）策略，变成搭一个模拟环境让 AI 自己搜

核心数字速览：

指标	AutoTTS	传统 SC@64
发现成本	$39.9	数周人工
发现耗时	160 分钟	数天～数周
Token 节省	≈69.5%	基准线
推理精度	持平或更优	基准线
搜索期间 LLM 调用	0 次	N/A
跨模型迁移	已验证	需人工重调

【核心概念：测试时缩放（TTS）是什么】

大语言模型推理时，可以通过「多跑几条路径」「延长思考链」来提升答案质量。这就是测试时缩放（Test-Time Scaling, TTS）。传统做法是人工写规则决定：什么时候开启新路径、什么时候终止、什么时候投票选出答案。

AutoTTS 颠覆了这个流程——人不再写规则，而是搭一个「模拟器」，让 AI Agent 自己在里面搜出最优策略。

整个流程分三步：
1. 研究人员定义状态空间（当前开了几条路径？每条走到哪了？置信度如何？）
2. 离线预生成所有可能的推理轨迹，存成回放缓存
3. Claude Code 作为搜索 Agent，在这个回放环境里迭代提出和优化控制算法

【核心技术：AutoTTS 如何工作】

AutoTTS 的核心是一个离线回放环境（Offline Replay Environment）。对每个测试任务，预先从语言模型生成多条推理路径并存储。新的控制算法直接基于已有数据决定如何分配算力：

– 状态 s_t = (问题, 路径数, 活跃路径集合, 深度向量, 探针结果)
– 可执行动作：开启新路径、继续某路径、探针检查、剪枝、终止并投票
– 成本函数：按路径深度和探针次数计费

关键创新：成千上万的算法变体在离线数据上模拟运行，不需要每次调用大模型。搜索成本几乎为零。

Claude Code 担任搜索 Agent 的角色：回顾之前的尝试 → 发现弱点 → 写出新的控制算法源码。每轮只暴露一个高层控制器参数 β，β 单调映射到所有内部阈值，防止搜索陷入海量参数组合。

【核心指令区：Confidence Momentum Controller（CMC）】

Claude Code 最终发现的算法叫「置信动量控制器」（CMC），它追踪模型置信度随时间的变化趋势。与人类设计的策略最大区别在于：

策略	工作方式	Token 消耗
SC@64	并行生成 64 条答案，多数投票	100%（基准）
ASC	自适应停顿时长	≈70%
ESC	早期终止策略	≈55%
AutoTTS (β=0.5)	置信动量控制	≈31%

AutoTTS 的 β=0.5 档位，Token 消耗仅为 SC@64 的约 31%（节省 69.5%），精度持平。

CMC 的工作逻辑：

论文作者评价：「这种协调逻辑人类几乎不可能手工设计出来。」

【实验结果速览】

基准测试	模型规模	AutoTTS vs SC@64 精度	Token 节省
AIME 2025	Qwen3-1.7B	持平	69.5%
AIME 2025	Qwen3-8B	持平	≈65%
HMMT 2025	Qwen3-1.7B	略优	≈70%
GPQA-Diamond	DeepSeek-R1-8B	持平	已验证迁移

【SOP 复现步骤】

1. 克隆仓库

bash

2. 安装依赖

bash

3. 离线构建回放环境（指定 backbone 模型和基准测试）

bash

4. 启动 Claude Code 搜索 Agent

bash

5. 查看搜索结果——β 扫描曲线和发现的控制算法

bash

【避坑指南】

– 离线回放环境只覆盖 width-depth 二维控制空间，不支持树搜索等更复杂结构
– 当前版本仅验证了 Claude Code 作为搜索 Agent。论文作者未测试开源替代方案的效果
– β 参数的单控制器约束至关重要——移除它后 agent 会走极端捷径，在测试集上精度暴跌
– 没有完整执行日志反馈时，发现的算法会消耗更多算力但精度更差
– 回放缓存构建是一次性成本（每个模型+基准组合各跑一次），但构建时仍需多次调用 backbone 模型生成推理轨迹

【延伸思考】

AutoTTS 传达的信号很清晰：从写算法到搭搜索空间。人类角色从「算法发明者」变成「环境设计者」。这个思路和 FunSearch、AlphaEvolve、ADAS 一脉相承——用语言模型作为程序搜索器。区别在于，这是首次将该方法应用于测试时缩放这个长期由人工主导的领域。

对站长来说，这意味着：未来几个月内，你能看到更高效（同精度算力消耗砍半）的推理服务上线。当 AI Agent 自己能发现更优的推理策略，LLM 服务的 token 成本将继续下探。

来源：the-decoder.com；360 视界整理编译

发表评论 取消回复

发表评论取消回复