arXiv 预印本 · 2026 · 综述论文

SoK: Agentic Skills - Beyond Tool Use in LLM Agents

这篇综述系统梳理了 LLM 智能体中“技能模块（agentic skills）”的定义、获取方式、执行机制、安全风险与评测方法。

Yanna Jiang, Delong Li, Haiyu Deng, Baihe Ma, Xu Wang, Qin Wang, Guangsheng Yu

悉尼科技大学 · CSIRO Data61

论文 PDF arXiv BibTeX

覆盖范围 65 篇论文，24 个系统

分类结果 7 类模式，5 种表示形态

核心结论 人工整理技能 +16.2pp；自生成技能 -1.3pp

agentic skills 的七类典型设计模式 — 论文给出的核心系统视图：技能模块如何被封装、加载、组合并在运行时执行。

概览

这篇综述的三点核心贡献

统一的技能抽象

作者将“skill”形式化为具有适用条件、执行策略、终止条件与接口的可复用过程模块。

完整的生命周期模型

把发现、练习、蒸馏、存储、调用与更新放进同一条系统链路中讨论。

面向真实部署的视角

论文不只讨论能力提升，也把信任分层、供应链风险、评测与治理纳入系统视角。

摘要

把技能模块层当作独立系统层来理解

随着智能体系统承担更长、更复杂的任务，单次工具调用已经不足以解释其稳定性来源。论文提出，真正值得研究的是可复用的过程能力，也就是技能模块（agentic skills）：它们如何被发现、沉淀、调用，并在长期运行中持续维护。

作者据此提出两套互补视角。第一套是七类模式的分类框架，用来描述现实系统中技能模块如何被封装与部署，包括元数据披露、代码式技能、自演化技能库以及市场化分发。第二套则从“技能以什么形式存在、它作用于哪里”来划分表示方式与执行范围。

更重要的是，论文没有把 skill 只当作提示工程技巧，而是把它视为需要安全边界、版本治理和确定性验证的系统资产。这也是整篇综述最有价值的地方。

框架

什么样的过程才算一个 agentic skill

作者把技能模块视为有边界、可复用、可调度的过程模块，从而将其与一次性计划、孤立工具调用和普通记忆记录区分开来。

agentic skill 的内部结构示意图 — 论文反复使用的 anatomy 视图：适用条件、执行策略、终止条件与接口。

形式定义 S = (C, pi, T, R)

由适用条件、执行策略、终止条件与可复用接口共同组成。

何时调用

适用条件决定某个技能是否匹配当前任务上下文。

如何执行

执行策略可以是自然语言、代码、工作流，或它们的混合封装。

何时终止

终止规则让技能具备可审计性，而不是无限延展的提示词。

如何复用

接口把技能暴露为可路由、可组合的调用工件。

生命周期

技能模块不是一次性提示，而是持续演化的系统资产

这一生命周期视图把综述从分类梳理推进到系统层面：技能模块需要被获取、存储、执行、评测，并在证据驱动下持续修订。

agentic skill 生命周期示意图 — 生命周期模型把发现、练习、蒸馏、存储、调用、执行与更新连成一条完整链路。

发现

识别值得沉淀为技能的重复任务、失败模式或高价值人工操作。

练习与精炼

通过执行反馈、反思或外部监督，持续改进候选过程。

蒸馏

把成功轨迹压缩为边界清晰、可复用的技能工件。

存储与检索

对技能进行索引、版本管理，并在合适的上下文中检索与路由。

执行与更新

在权限边界内运行，再根据评测和回归结果进行精炼、替换或退役。

模式

七类典型模式展示了技能模块如何被封装、调度与分发

这些模式并非互斥；一个成熟系统往往会同时采用多种表示与调度机制。

披露与选择

通过先披露元数据、再按需展开，把技能选择过程显式化，同时控制上下文开销。

P2-P3

可执行约束

代码式技能和工作流封装把复用过程转化为可测试、可回归的运行时行为。

P4-P6

自我改进的技能库

自演化库、混合封装与元技能，让技能管理本身进入智能体闭环。

分发与治理

市场化分发提升了复用效率，也把技能生态带入供应链安全问题。

skill 的组合与编排 — 技能组合本身也是系统问题：需要检索、路由、拆解、恢复与重试。

MCP 与 skills 的关系 — 论文还把技能模块放回 MCP 等新兴基础设施中，讨论它在更大的智能体技术栈中的位置。

安全

技能生态会继承典型的软件供应链风险

论文重点关注的威胁

通过对抗性元数据干扰技能检索
在代码或自然语言技能主体中植入恶意载荷
跨租户信息泄露与 confused deputy 问题
适用条件被投毒，以及技能随时间漂移

ClawHavoc 事件

作者用真实市场事件说明治理并非假想问题：一次审计中共发现 1,184 个恶意技能条目，36.8% 的列表存在缺陷，涉及 API key、钱包、浏览器与 SSH key 等凭据窃取。

skill 治理中的信任分层威胁模型 — 论文提出的信任分层：从仅暴露元数据，到受监督执行，再到更高自治度的运行模式。

评测

最明确的实证结论是：人工整理的技能有效，自生成技能未必

+16.2pp

人工整理技能

在 SkillsBench 上，平均通过率由 24.3% 提升至 40.6%。

-1.3pp

自生成技能

在开放任务场景下，相比无技能基线平均下降 1.3 个百分点。

7,308

轨迹规模

这是论文在 SkillsBench 个案分析中引用的轨迹数量。

评测维度

正确性、鲁棒性、效率、泛化与安全。

面向工业环境的 skill 评测流水线 — 工业视角会把技能模块纳入类似 CI 的验证流程：回归测试、比较器智能体与版本化更新。

论文在评测上的立场很务实。关键不在于某个技能模块看起来是否巧妙，而在于它是否能在可重复、可比较的验证条件下稳定改善下游任务。

因此，作者强调 benchmark harness、结果导向验证和工业级回归基础设施。在这个视角里，技能模块更接近生产逻辑，而不只是某个提示词技巧。

引用

引用本文

@article{jiang2026agenticskills,
  title   = {SoK: Agentic Skills - Beyond Tool Use in LLM Agents},
  author  = {Jiang, Yanna and Li, Delong and Deng, Haiyu and Ma, Baihe and
             Wang, Xu and Wang, Qin and Yu, Guangsheng},
  journal = {arXiv preprint arXiv:2602.20867},
  year    = {2026}
}