Meta-Harness让AI自动优化执行框架 Agent性能迎来新拐点
近日,一项来自斯坦福大学、麻省理工学院(MIT)以及韩国游戏公司 KRAFTON 的联合研究引发了AI领域的广泛关注。研究团队提出了一种名为 Meta-Harness 的新方法,用于让人工智能系统自动优化自身的执行框架,从而提升Agent在复杂任务中的表现能力。
所谓“harness”,可以理解为包裹AI模型运行的执行脚手架,它不仅包含提示词设计,还包括工具调用逻辑、上下文管理以及任务拆解方式等关键组成部分。在传统做法中,这些执行框架通常依赖人工经验进行设计与优化,但Meta-Harness则尝试让AI自己完成这一过程。
具体而言,Meta-Harness引入了一个编码型Agent,该Agent会读取历次候选框架的代码结构、执行日志以及评分结果,并基于这些反馈进行迭代优化。这意味着执行框架不再是静态设计,而是一个可以持续进化的系统结构。
在实验测试中,研究团队选取了终端操作基准 TerminalBench-2 作为评估环境。结果显示,基于 Anthropic 的 Claude Haiku 4.5 模型,在使用Meta-Harness优化框架后,通过率达到了37.6%,超过了传统框架 Goose(35.5%)以及 Claude Code(27.5%),在所有已公开的Haiku 4.5执行框架中排名第一。
在更强模型 Claude Opus 4.6 上,系统通过率进一步提升至76.4%,整体排名第二。这一结果说明,执行框架本身的设计质量,在一定程度上可以显著影响模型最终表现,甚至在某些任务中带来超过10个百分点的性能差距。
这一研究也引发了行业对“模型能力边界”的重新思考。过去AI能力的提升主要依赖更大参数量或更强训练数据,而Meta-Harness则表明,在模型不变的情况下,仅通过优化运行环境与执行逻辑,也可能显著提升实际效果。
前 林俊旸 在转发相关论文时评论称,“模型+执行框架”的组合正在逐渐超越“单纯看模型能力”的时代。他认为,Agent系统的表现很大程度上取决于框架设计质量,这一方向是正确且具有长期价值的。
值得注意的是,林俊旸在3月27日曾发布一篇长文(现已删除),其中预判“环境设计”将从辅助性工作逐渐演变为独立创业赛道。而Meta-Harness的实验结果在一定程度上验证了这一观点,即执行环境本身正在成为影响AI能力的重要变量。
从产业角度来看,这一变化意味着AI竞争正在从“模型竞争”逐步扩展到“系统竞争”。未来不仅是模型参数或能力的比拼,更是围绕执行框架、工具链设计以及自动优化能力的综合竞争。
业内人士指出,这类自动优化框架可能会改变AI开发方式,使得Agent系统具备更强的自我迭代能力,从而减少人工调参成本,并加速复杂任务自动化进程。
总体来看,Meta-Harness不仅是一项技术实验,更像是一个信号:AI的发展正在从“训练模型”走向“构建会自我进化的系统”。