加餐 / Agent 扫盲

几个高频术语，先别被黑话劝退

很多人第一次看 Agent 讨论，会被 Token、Prompt、MCP、CDP、命中率这类词绕住。其实它们都可以放回“Agent 怎么推进任务”这条主线里理解。

Prompt

Prompt 不只是你输入的一句话。 在真实 Agent 里，它往往包含用户需求、系统规则、当前目标、工具说明、上下文摘要，甚至执行阶段的中间状态。工作流 Agent 比普通聊天工具更强，很多时候就是因为它背后拼接的是一整套结构化 Prompt。

Token

Token 可以粗略理解成模型处理文本时的最小计量单位。 你的输入、系统提示、代码、日志、工具返回结果，都会占用 Token。上下文越长、任务越复杂，消耗就越大；这会直接影响成本、速度，以及 Agent 一次性能带多少信息进场。

上下文

上下文不只是你贴给它的代码片段。 它还包括项目结构、依赖关系、历史实现、当前文件、报错位置、运行结果。普通 Agent 往往依赖你手喂上下文，IDE Agent 和工作流 Agent 则更擅长自己去拿上下文。

缓存命中

可以把它理解成“之前看过、处理过的上下文，这次还能不能直接复用”。 命中高，通常意味着更快、更省成本，也更少重复读取同样的信息。对 Agent 来说，这会影响它反复读代码、重复整理上下文的次数，间接影响响应速度和连续协作体验。

MCP

MCP 可以理解成让模型接上外部工具和外部世界的一种标准接口。 通过它，Agent 才能去读文件、查文档、调浏览器、连数据库、调用设计或工程工具。没有工具接入，很多 Agent 只能“猜”；有了 MCP，它才更像“会动手”。

Chrome DevTools Protocol（CDP）

CDP 可以理解成让 Agent 和浏览器开发者工具打交道的一套协议。 有了它，AI 才能更系统地查看页面结构、网络请求、控制台报错、性能信息，甚至驱动浏览器做自动化操作。对前端场景来说，这会极大增强“看页面、查问题、再修代码”的能力。

Tool Use / 工具调用

这是 Agent 从“会说”变成“会做”的关键。 比如搜代码、改文件、跑测试、读网页、看报错，这些都属于工具调用。很多产品表面都在聊天，但真正拉开差距的是：它能不能在合适的时机选对工具。

规划与验证

这是很多“像 Agent”和“真 Agent”的分水岭。 前者可能直接给答案，后者会先想步骤、再执行、再验证、再修正。像 Superpower 一类增强，本质就是把这些容易被跳过的环节强制加回来。

命中率

更准确地说，常常是在讲首轮命中率或任务完成率。 比如一个 bug，AI 第一次给出的方案是不是就改对了，或者它能不能在几轮内把任务真正做完。Agent 强不强，不只看“第一下写得像不像”，更看它后面会不会自己验证、自己修正。

扫盲版总结：如果把 AI Coding 看成一条任务链路，那 Prompt / Token 更像输入和容量基础，上下文 / 缓存命中 决定信息复用效率，MCP / CDP / Tool Use 更像行动能力，规划与验证 / 命中率 则决定任务最后到底有没有真的做成。

图 1 / 主流程图

Agent 帮你 Coding 的完整链路

这一张图先回答最重要的问题：Agent 到底做了什么。重点不是“生成代码”本身，而是从自然语言任务一路推进到验证和交付。

1

接收对话

需求、报错、截图，甚至一句模糊描述，都会成为任务入口。

先把自然语言转成可执行任务，而不是立刻开写。

2

理解需求

识别目标、约束、缺失信息和成功标准，判断问题到底要解决什么。

好的 Agent 会意识到“信息还不够”。

3

拆解任务

决定先看哪里、先改什么、先验证什么，避免盲改和乱试。

这里体现的是计划能力，而不只是生成能力。

4

获取上下文

读代码、搜文件、看调用链、查文档，补齐工程里的真实信息。

从“会写代码”到“能在代码库里工作”的分水岭。

5

执行修改

改文件、补实现、加测试、调配置，真正进入动手阶段。

这一层已经不是建议层，而是行动层。

6

运行验证

跑测试、lint、build、检查命令输出，确认结果是否真的成立。

AI Coding 真正的门槛，往往就在验证闭环。

7

迭代交付

根据结果继续修正，最后输出代码、说明、风险和后续建议。

交付不是贴一段代码，而是给出一个能落地的结果。

结论：Agent != 吐一段代码；更接近真实的 Agent，是沿着“理解需求 -> 修改实现 -> 验证结果”的整条链路持续推进任务。

图 2 / 三栏对比图

普通 Agent、工作流 Agent、IDE Agent，差别到底在哪？

同样都是 AI Coding，体验差异不只在模型。更关键的问题是：它能补齐多少开发链路，以及它是以什么方式补齐的。

普通 Agent

更像会写代码的问答助手

工作流 Agent

更像能推进任务的执行者

IDE Agent

更像长在开发现场里的搭档

接到任务后

先回答问题通常先给建议、思路或代码片段。

先分析，再拆解，再执行更强调步骤、计划和推进顺序。

结合当前工程，直接进入任务能更快贴近当前文件、报错位置和编辑器上下文。

上下文从哪里来

主要靠你手动提供上下文常常有限，也容易遗漏关键信息。

会主动搜索和读取主动搜文件、读代码、看调用链、补真实上下文。

天然连接项目、文件、光标和报错离开发现场更近，拿上下文的链路更短。

执行方式

给建议，你自己改更像编程顾问，而不是实际操作者。

自己动手改，再继续推进会在终端、代码和验证结果之间形成闭环。

边看边改，结合 IDE 能力操作常常叠加重构、跳转、诊断等 IDE 原生能力。

验证能力

通常停在建议层很多时候不会真正去跑测试或检查工程结果。

会跑测试、构建、命令把验证纳入任务链路，不只是“生成完成”。

更容易在本地工程里快速验证上下文和执行环境更近，验证反馈更快。

最适合的任务

问语法、要示例、写局部函数轻量、快速、低门槛的问题最合适。

修 bug、加功能、改真实项目尤其适合多步骤、需要推进的开发任务。

高频工程开发、边导航边修改适合日常工程内连续工作的场景。

核心短板

上下文弱，容易纸上谈兵回答可能对，但不一定真能落地。

学习成本更高，依赖流程设计好不好用，和背后的工作流强相关。

不一定更聪明，强在环境接入更顺手不一定等于底层认知一定更强。

普通 Agent：解决“给我答案”

工作流 Agent：解决“帮我推进任务”

IDE Agent：解决“在现场里更顺地推进任务”

实例 / 两种任务

同样是“让 AI 帮忙”，它到底是怎么一步步做事的？

抽象流程如果不落到任务里，读者还是会觉得悬。下面用两个例子，把 Agent 的动作拆开看：一个是修 bug，一个是把设计稿真正实现成页面。

CASE 01

修复一个按钮点击后无响应的 bug

这类任务最能看出 Agent 是不是只会“猜代码”。真正靠谱的流程，通常不会从写代码开始，而会先从定位问题开始。

1

先理解问题 AI 会先把任务转成更具体的问题：是按钮没绑定事件、事件没触发、状态没更新，还是接口调用没成功？

2

去找相关代码 它会搜索按钮组件、事件处理函数、相关状态管理和接口逻辑，而不是直接猜一段 onClick。

3

形成假设 比如判断是事件冒泡被拦截、disabled 状态异常、或者某个条件分支让逻辑提前 return。

4

修改实现 找到问题后再改代码，必要时连同测试、日志或状态判断一起补上。

5

运行验证 跑测试、重现交互、看控制台或构建结果，确认按钮现在真的能点了。

6

给出交付说明 最后不只是贴修改代码，还会说明问题根因、改动点，以及有没有潜在影响面。

CASE 02

上传一张产品图或 Figma 截图，让 AI 用 React / Vue 还原页面

这是现在非常典型的一类 AI Coding 任务。它不是“凭空写个页面”，而是让 AI 先看图、理解布局和组件关系，再按指定框架把界面真正实现出来。

1

先识别视觉目标 AI 先看截图里有哪些区块：导航、Banner、卡片、按钮、表单、列表、弹窗，以及它们之间的层级关系。

2

收实现约束 确认你要的是 React 还是 Vue，用什么 UI 库，是否要响应式，是否要拆组件，甚至要不要尽量贴近设计稿像素级还原。

3

把图片理解成结构 它会把截图从“视觉结果”翻译成代码结构：哪些该做成父容器，哪些适合做复用组件，哪些地方需要数据驱动或占位内容。

4

按框架生成代码 如果你指定 React，它会输出 JSX、组件拆分、样式文件和可能的 props 结构；如果你指定 Vue，它就会按 template、script、style 或组合式 API 的方式来组织代码。

5

运行预览，再对照截图修细节 真正靠谱的 Agent 不会停在“代码已经给你了”，而是会把页面跑起来，对照截图继续调间距、字体、颜色、圆角、阴影和响应式表现。

6

继续处理“像不像”和“能不能用”两类问题 前者是视觉还原度，后者是组件结构、可维护性、交互和适配性。厉害的 Agent 不只是把图抄出来，而是把页面实现成一个真的前端工程片段。

实例版总结：无论是修 bug，还是实现页面，真正有用的 Agent 都不是“一次命中”，而是 理解 -> 查找 -> 修改 -> 验证 -> 继续迭代 这套动作能不能持续跑下去。

图 3 / 分层模型图

为什么不同 AI Coding 产品体验差这么多？

看起来像模型差距，往下拆更像系统分层差距。产品体验的高低，往往取决于模型、Agent、工作流、工具接入和验证闭环是否被真正串起来。

1. 模型层决定基础推理、理解和代码生成能力，是系统上限的起点，但不是全部。
基础能力上限
2. Agent 层决定它能不能把聊天变成行动，包括任务分解、状态管理、工具选择和多步推进。
从回答到行动
3. 工作流层决定它会不会规划、调试、验证，而不是一路跳步。很多稳定性差距，真正拉开就在这里。
方法论放大器
Superpower 类增强的价值，往往就在这一层：它不是把提示词写得更长，而是把 brainstorming、planning、debugging、verification 强制加入流程。
4. IDE / 工具层决定它能不能真正接入工程上下文和开发环境，比如项目结构、文件位置、终端能力和编辑器状态。
贴近开发现场
5. 执行与验证层决定它能不能形成“修改 -> 运行 -> 检查 -> 再修”的闭环，这往往是从“看起来会”走向“真的能用”的关键。
闭环决定落地

结论：AI Coding 的竞争，拼的不只是更强模型，而是谁能把 模型、流程、工具和验证 串成一个系统。

结尾补充 / 工作流工具

为什么像 Superpower 这样的工作流工具会让 Agent 更强？

很多人第一次用 Agent，会觉得它“有时候很聪明，有时候又很跳”。工作流工具的价值，往往就在于把这些不稳定的地方收住，让 Agent 从会回答，变得更会稳定地做事。

没有工作流增强

更容易停在“想到什么就做什么”

有 Superpower 类工作流增强

更像一套可重复执行的开发方法

它主要解决什么问题

容易跳步直接开改、缺少计划、没验证就宣布完成，或者上下文还没补齐就开始猜。

把关键步骤强制补回来先 brainstorm、再 planning、遇到 bug 先 debugging、结束前要 verification，减少“拍脑袋完成”。

它改变了什么

执行更像即时反应适合快问快答，但面对多步骤任务时容易不稳。

执行更像标准化流程把任务拆成可重复的方法，尤其适合真实项目、复杂修改和多人协作场景。

带来的提升

速度可能快，但波动大顺利时很快，失误时会反复返工，质量高度依赖当次 Prompt 和上下文运气。

稳定性、可解释性和完成率更高你更容易看到它为什么这么做、下一步做什么，以及它是否真的验证过结果。

最适合什么任务

轻量问答、局部修改例如解释一段代码、写一个小函数、快速给思路。

真实开发任务例如修复杂 bug、做功能迭代、跨文件改动、需要测试和回归验证的任务。

一句话理解：Superpower 这类工具提升的，不只是“模型输出质量”，而是把 Agent 的工作方式从“随机发挥”拉成“有流程、有检查、有闭环”的稳定执行流。

工具推荐 / Agent 增强器

如果想让 Agent 更像资深开发搭档，可以关注这三类增强工具

模型本身很重要，但很多时候真正拉开体验差距的，是你有没有给 Agent 配上更强的“代码理解器”和“方法论外挂”。下面这三类增强就很典型。

TOOL 01

CodeGraph：把“读代码”这件事大幅增强

很多 Agent 最大的问题不是不会写，而是看代码库时像在黑夜里摸索。CodeGraph 这类工具的价值，就是把项目结构、符号关系、调用链、入口点这些信息提前组织好，让 Agent 不用每次都从零开始扫文件。

1

它解决什么问题 解决“代码库太大，Agent 很难快速看懂哪里和哪里有关”的问题，尤其适合大型项目、多层调用链、复杂模块依赖。

2

它为什么强 因为它不是简单全文检索，而是更接近“给代码建图谱”：函数、类、文件、调用关系、入口路径都能被结构化理解。

3

它给 Agent 带来的提升 Agent 更容易快速找到关键文件、理解调用路径、定位影响范围，也更不容易出现“改到了表面，没改到真正逻辑入口”的情况。

4

最适合什么场景 修复杂 bug、理解遗留项目、跨模块改功能、做架构级排查，或者任何“不是找字符串，而是要看关系”的任务。

TOOL 02

andrej-karpathy-skills：把“做事方式”这件事拉到更高水位

如果说 CodeGraph 强在“让 Agent 更会看代码”，那 skills 类工具强在“让 Agent 更会做任务”。andrej-karpathy-skills 这类工具的核心价值，不是教模型更多知识，而是把优秀工程师常用的思考和执行方式沉淀成可复用套路。

1

它解决什么问题 解决 Agent 容易直接开干、跳步骤、没计划、没复盘的问题，让它少一点“灵机一动”，多一点“按套路办事”。

2

它为什么强 因为它把一些高质量工作流固化了下来。比如先怎么理解问题、怎么拆任务、怎么做调试、什么时候验证、什么时候回头检查。

3

它给 Agent 带来的提升 提升稳定性、可解释性和复现性。你更容易知道它为什么这么做，也更容易把一次成功经验复用到下一次任务里。

4

最适合什么场景 真实项目开发、复杂任务协作、长链路问题处理，或者任何你不希望 Agent “看起来会、实际翻车”的场景。

TOOL 03

ECC：给 Claude Code 补上一整个可复用技能库

ECC 是一个 Claude Code 的插件 / 技能库，里面包含 63 个代理、249 个技能和 79 个命令。它的价值不在于单点能力，而在于把很多高频任务都预先封装成现成套路，让 Agent 不用每次都从零摸索“该怎么做”。

1

它解决什么问题 解决“Agent 虽然有能力，但不知道该用什么方法做、顺序怎么排、哪些任务有成熟套路可复用”的问题，尤其适合复杂开发流程和高频重复性任务。

2

它为什么强 因为它不是只给一个 Prompt，而是直接给 Agent 一整套可选技能。两百多个技能的意义在于，很多 brainstorming、planning、debugging、frontend、文档、验证类任务，都有现成方法可以直接套用。

3

它给 Agent 带来的提升 Agent 会更像一个“带工具箱和操作手册上岗的人”。它能更快进入正确流程，少一点随机发挥，提升任务完成率、稳定性和可复用性。

4

最适合什么场景 想让 Claude Code 更像成熟工程搭档的时候最适合，比如复杂任务拆解、真实项目开发、代码审查处理、前端页面实现、文档编写和需要固定流程的长链路任务。

一句话对比：CodeGraph 更像给 Agent 补“代码地图”，andrej-karpathy-skills 更像给 Agent 补“做事方法”，ECC 更像给 Claude Code 补“一整个现成技能库”。

产品映射 / 认知地图

把抽象概念映射到具体产品，一眼看懂它们分别更像哪一类

这不是严格分类，更不是产品排名，而是一张帮助读者快速建立认知的地图。重点不是产品名本身，而是它补齐了哪几段能力链路。

更接近普通 Agent

更像问答助手

更接近工作流 Agent

更像任务执行者

更接近 IDE Agent

更像开发现场搭档

代表产品

ChatGPT、基础聊天式 Copilot更常见于网页对话或轻量问答场景。

Claude Code、Codex、Cline更强调读代码、改文件、跑命令、做验证。

Cursor、JetBrains AI Assistant、Junie更强调 IDE 内上下文、导航和工程内操作体验。

最显著特征

回答快、门槛低适合随手问、随手改、快速拿思路。

流程强、闭环强适合多步骤任务和真实项目开发。

上下文深、环境近适合长期泡在工程里的高频协作开发。

更适合谁

临时问问题的人比如快速查语法、问思路、生成片段代码。

需要 AI 一起推进任务的人比如修 bug、改功能、跨文件修改和验证。

每天都在 IDE 里编码的人比如前后端工程师、长期维护项目的团队成员。

容易被误解的点

不是它不聪明，而是它更轻它的短板主要在上下文和执行链路，不一定是模型绝对弱。

不是模型突然更强，而是流程更完整它强在方法论和执行闭环，不只是“回答质量更高”。

不是天然最强，而是更贴近现场它的优势更多来自工程上下文和工具接入深度。

产品映射总结：ChatGPT 更像“问答型入口”，Claude Code / Codex / Cline 更像“执行型中枢”，Cursor / JetBrains 更像“现场型工作台”。

怎么选 / 实战判断

什么时候该用哪类 Agent？

很多读者看到这里，真正想问的其实只有一句话：那我到底该怎么选？最简单的判断方法，不是看谁最火，而是看你当前任务在哪条链路上。

用普通 Agent 的时候

当你只是需要一个快、轻、即时的编程助手。 比如问语法、要示例、解释报错、快速生成局部函数、确认某个 API 用法。这类场景不一定需要深上下文和完整闭环，重点是快。

用工作流 Agent 的时候

当你面对的是一个真实任务，而不是一个单点问题。 比如修 bug、加功能、做跨文件改动、跑测试、验证结果、反复迭代。这时候你真正需要的不是“答案”，而是一个能把任务持续往前推的执行者。

用 IDE Agent 的时候

当你已经在工程现场里高频工作。 比如你一整天都在 IDE 里看代码、跳文件、追报错、改实现、反复运行。此时 IDE Agent 的价值，不一定是更聪明，而是让上下文、操作和验证都离你更近。

如果你是新手开发者

先从普通 Agent 建立基础认知，再逐步过渡到工作流 Agent。 先学会怎么问、怎么描述问题、怎么验证答案，再慢慢理解为什么流程和验证这么重要。

如果你是资深工程师

工作流 Agent 和 IDE Agent 往往更有价值。 因为你最缺的通常不是“会不会写代码”，而是如何更快理解代码库、推进复杂任务、减少重复劳动和验证成本。

最实用的选择标准

别先问“哪个产品最强”，先问“我现在缺的是答案、推进，还是现场协作”。 这个问题一旦想清楚，产品选择通常会比看排行榜更靠谱。

选择建议总结：临时问问题，用普通 Agent；处理真实任务，用工作流 Agent；长期在工程里协作开发，用 IDE Agent。

AI CODING METHOD MAP

Agent 的价值不只是“写出来”，而是“跑通闭环”