🔥 毒舌 GitHub
← 返回论文榜
SkillOpt: Executive Strategy for Self-Evolving Agent Skills
Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang et al.
64.80/100
🫥 平庸
增量有限 · 存在感薄弱
内容分 64.8 · 引用加成 +0.0 · 暂无引用数据

💡 SkillOpt是首个针对智能体技能的系统化可控文本空间优化器,通过类权重优化的稳定机制迭代优化技能文档,在52个评测单元中全面优于基线,最高提升24.8分且具备跨模型/环境迁移能力

#智能体技能炼丹#文本空间梯度下降#可控迭代不翻车#agent skill alchemy#text-space gradient desc#controllable iteration n

维度评分

创新性7.0 / 10
严谨性8.0 / 10
意义9.0 / 10
清晰度9.0 / 10
可复现性8.0 / 10

一句话定性

这篇是把通用文本优化逻辑垂直缝到智能体技能场景的实用型标杆工作,算不上范式突破,但绝对是当前技能优化方向最扎实的落地成果。

创新点/贡献

首次提出将冻结智能体的技能作为外部可优化状态,套用权重优化的 disciplined 训练流程:用独立优化器模型对带分 rollout 做 bounded 文本编辑,仅当编辑严格提升 hold-out 验证分时才准入,搭配文本学习率预算、拒绝编辑缓冲、epoch 级慢更新机制保证训练稳定,且部署阶段零额外推理开销。实验覆盖6个基准、7个模型、3种执行环境,52个评测单元格全面碾压人类手搓、单次LLM生成、Trace2Skill、TextGrad、GEPA、EvoSkill等所有基线,GPT-5.5上最高提升24.8分,还验证了跨模型、跨执行环境、跨近邻基准的迁移能力。

问题与水分

别被abstract里“首个系统化可控文本空间优化器”的大标题唬住,novelty 本质是把TextGrad那套通用文本梯度优化的逻辑精准裁剪到智能体技能垂直场景,缝上了权重优化的稳定训练机制,算不上从0到1的范式突破,顶多是场景定制的“缝合怪”——但缝得确实扎实,比之前零散的技能进化工作靠谱多了。abstract 没提半句消融实验,那堆文本学习率预算、拒绝编辑缓冲的组件是不是凑数的完全没证据,说不定去掉一两个性能掉得不多,纯属凑工作量?还有skill初始来源、验证集划分方式全没披露,别是初始技能偷偷喂了测试集信息,最后优化了个寂寞?迁移实验只敢在“附近数学基准”测,泛化能力的水分一眼看穿,真跨到代码生成、工具调用领域行不行根本不敢说,纯属“近邻迁移凑数”。

维度简评

创新性7分:场景定制的系统性工作,但非范式级突破;严谨性8分:实验覆盖广、对照充分,但缺消融和关键实现细节,结论支撑略有漏洞;意义9分:直击智能体技能“无稳定优化机制”的核心痛点,落地价值拉满;清晰度9分:表述逻辑清晰,问题-方法-结果链条完整无歧义;可复现性8分:公开代码+完整实验设置,但缺部分实现细节,复现成本略高。

一句总评

虽然novelty有包装、水分不少,但性能提升实打实、解决的问题是领域里真真切切的痛点,足够成为智能体技能优化方向的强力baseline,顶会录用毫无压力,补全消融和细节说不定能冲best paper候选。