arXiv 预印本 · 2026 · 综述论文

SoK: Agentic Skills - Beyond Tool Use in LLM Agents

这篇综述系统梳理了 LLM 智能体中“技能模块(agentic skills)”的定义、获取方式、执行机制、安全风险与评测方法。

Yanna Jiang, Delong Li, Haiyu Deng, Baihe Ma, Xu Wang, Qin Wang, Guangsheng Yu

悉尼科技大学 · CSIRO Data61

覆盖范围 65 篇论文,24 个系统
分类结果 7 类模式,5 种表示形态
核心结论 人工整理技能 +16.2pp;自生成技能 -1.3pp
agentic skills 的七类典型设计模式
论文给出的核心系统视图:技能模块如何被封装、加载、组合并在运行时执行。

概览

这篇综述的三点核心贡献

01

统一的技能抽象

作者将“skill”形式化为具有适用条件、执行策略、终止条件与接口的可复用过程模块。

02

完整的生命周期模型

把发现、练习、蒸馏、存储、调用与更新放进同一条系统链路中讨论。

03

面向真实部署的视角

论文不只讨论能力提升,也把信任分层、供应链风险、评测与治理纳入系统视角。

摘要

把技能模块层当作独立系统层来理解

随着智能体系统承担更长、更复杂的任务,单次工具调用已经不足以解释其稳定性来源。论文提出,真正值得研究的是可复用的过程能力,也就是技能模块(agentic skills):它们如何被发现、沉淀、调用,并在长期运行中持续维护。

作者据此提出两套互补视角。第一套是七类模式的分类框架,用来描述现实系统中技能模块如何被封装与部署,包括元数据披露、代码式技能、自演化技能库以及市场化分发。第二套则从“技能以什么形式存在、它作用于哪里”来划分表示方式与执行范围。

更重要的是,论文没有把 skill 只当作提示工程技巧,而是把它视为需要安全边界、版本治理和确定性验证的系统资产。这也是整篇综述最有价值的地方。

框架

什么样的过程才算一个 agentic skill

作者把技能模块视为有边界、可复用、可调度的过程模块,从而将其与一次性计划、孤立工具调用和普通记忆记录区分开来。

agentic skill 的内部结构示意图
论文反复使用的 anatomy 视图:适用条件、执行策略、终止条件与接口。
形式定义 S = (C, pi, T, R)

由适用条件、执行策略、终止条件与可复用接口共同组成。

C

何时调用

适用条件决定某个技能是否匹配当前任务上下文。

pi

如何执行

执行策略可以是自然语言、代码、工作流,或它们的混合封装。

T

何时终止

终止规则让技能具备可审计性,而不是无限延展的提示词。

R

如何复用

接口把技能暴露为可路由、可组合的调用工件。

生命周期

技能模块不是一次性提示,而是持续演化的系统资产

这一生命周期视图把综述从分类梳理推进到系统层面:技能模块需要被获取、存储、执行、评测,并在证据驱动下持续修订。

agentic skill 生命周期示意图
生命周期模型把发现、练习、蒸馏、存储、调用、执行与更新连成一条完整链路。
01

发现

识别值得沉淀为技能的重复任务、失败模式或高价值人工操作。

02

练习与精炼

通过执行反馈、反思或外部监督,持续改进候选过程。

03

蒸馏

把成功轨迹压缩为边界清晰、可复用的技能工件。

04

存储与检索

对技能进行索引、版本管理,并在合适的上下文中检索与路由。

05

执行与更新

在权限边界内运行,再根据评测和回归结果进行精炼、替换或退役。

模式

七类典型模式展示了技能模块如何被封装、调度与分发

这些模式并非互斥;一个成熟系统往往会同时采用多种表示与调度机制。

agentic skills 的七类典型设计模式
按自治程度从低到高排列:从元数据驱动披露,一直到能够生成更多技能的元技能。
P1

披露与选择

通过先披露元数据、再按需展开,把技能选择过程显式化,同时控制上下文开销。

P2-P3

可执行约束

代码式技能和工作流封装把复用过程转化为可测试、可回归的运行时行为。

P4-P6

自我改进的技能库

自演化库、混合封装与元技能,让技能管理本身进入智能体闭环。

P7

分发与治理

市场化分发提升了复用效率,也把技能生态带入供应链安全问题。

skill 的组合与编排
技能组合本身也是系统问题:需要检索、路由、拆解、恢复与重试。
MCP 与 skills 的关系
论文还把技能模块放回 MCP 等新兴基础设施中,讨论它在更大的智能体技术栈中的位置。

安全

技能生态会继承典型的软件供应链风险

论文重点关注的威胁

  • 通过对抗性元数据干扰技能检索
  • 在代码或自然语言技能主体中植入恶意载荷
  • 跨租户信息泄露与 confused deputy 问题
  • 适用条件被投毒,以及技能随时间漂移
ClawHavoc 事件

作者用真实市场事件说明治理并非假想问题:一次审计中共发现 1,184 个恶意技能条目,36.8% 的列表存在缺陷,涉及 API key、钱包、浏览器与 SSH key 等凭据窃取。

skill 治理中的信任分层威胁模型
论文提出的信任分层:从仅暴露元数据,到受监督执行,再到更高自治度的运行模式。

评测

最明确的实证结论是:人工整理的技能有效,自生成技能未必

+16.2pp

人工整理技能

在 SkillsBench 上,平均通过率由 24.3% 提升至 40.6%。

-1.3pp

自生成技能

在开放任务场景下,相比无技能基线平均下降 1.3 个百分点。

7,308

轨迹规模

这是论文在 SkillsBench 个案分析中引用的轨迹数量。

5

评测维度

正确性、鲁棒性、效率、泛化与安全。

面向工业环境的 skill 评测流水线
工业视角会把技能模块纳入类似 CI 的验证流程:回归测试、比较器智能体与版本化更新。

论文在评测上的立场很务实。关键不在于某个技能模块看起来是否巧妙,而在于它是否能在可重复、可比较的验证条件下稳定改善下游任务。

因此,作者强调 benchmark harness、结果导向验证和工业级回归基础设施。在这个视角里,技能模块更接近生产逻辑,而不只是某个提示词技巧。

引用

引用本文

当前建议引用 arXiv 版本。

@article{jiang2026agenticskills,
  title   = {SoK: Agentic Skills - Beyond Tool Use in LLM Agents},
  author  = {Jiang, Yanna and Li, Delong and Deng, Haiyu and Ma, Baihe and
             Wang, Xu and Wang, Qin and Yu, Guangsheng},
  journal = {arXiv preprint arXiv:2602.20867},
  year    = {2026}
}