给 Agent 配齐 6 类 API 工具(图片/音乐/语音/视觉/搜索/浏览器)
📍 Agent 通用知识 2/X · 上一篇:← AI agent 是怎么思考的:ReAct 模式

一个让人困惑的现象
Section titled “一个让人困惑的现象”你看了 Subagents(子智能体),装好了 Claude Code,以为 agent 就能干所有事。真用起来你会发现:
- 你说「帮我画个海报」—— 它回:「我不能直接生成图片」
- 你说「给我这段文案配个背景音乐」—— 它说:「我没法生成音频」
- 你发一段录音问内容 —— 它说:「我不能处理音频」
- 你丢一张截图让它读上面的字 —— 用 DeepSeek 的话,它说:「我看不到图」
- 你让它「查一下今天的新闻」—— 它给你的链接全是 2024 年的
- 你说「帮我打开网页,登录,然后截个图」—— 它说:「我没办法操作浏览器」
怎么回事?这不是号称 AI agent 吗?

大模型只是大脑,agent 还要手脚眼耳。
你看到的 Claude / DeepSeek / 豆包 —— 都是「纯语言模型」,它们的原生能力只是文字进、文字出。
要让它真的能画图 / 配乐 / 听声音 / 看图片 / 查最新信息 / 操作网页,得给它配 6 类 API 工具:
| 工具 | 比喻 | 例子 |
|---|---|---|
| 1. 图片生成 API | 给 agent 装画笔(手) | Midjourney / DALL-E / Grok Imagine |
| 2. 音乐 / 音效生成 API | 给 agent 装作曲台(创意输出) | Suno / Udio / ElevenLabs SFX |
| 3. TTS / STT API | 给 agent 装喇叭和耳朵(嘴+耳) | MiniMax TTS / OpenAI Whisper |
| 4. 视觉 / OCR API | 给 agent 装眼睛 | GPT-4V / Gemini Vision |
| 5. 搜索 API | 给 agent 装外脑(查最新信息) | Tavily / Brave Search |
| 6. 浏览器自动化 | 给 agent 装手指(操作网页) | Playwright / Puppeteer / Browserbase |
配齐这 6 类,agent 就从「会聊天」升级到「能干活」。
6 类必备 API 详解
Section titled “6 类必备 API 详解”
1. 图片生成 API —— 让 agent 能画图
Section titled “1. 图片生成 API —— 让 agent 能画图”为啥需要:大模型只会出文字。要出图必须调专门的图片生成模型。
主流选择:
| 服务商 | 模型 | 国内可达 | 价格 |
|---|---|---|---|
| OpenAI | DALL-E 3 / gpt-image-2 | ⚠️ 要翻墙 | $0.04/图 起 |
| Stability AI | SDXL / SD 3.5 | ⚠️ 要翻墙 | $0.005/图 起 |
| xAI | Grok Imagine | ⚠️ 要翻墙 | $0.07/图 |
| 字节火山 | Doubao Image | ✅ 直连 | 国内付费 |
| API 聚合平台 | 多家模型(海外 OpenRouter / 国内硅基流动等) | ✅/⚠️ 看选哪家 | OpenAI 兼容定价 |
调用方式(以 OpenAI 官方接口为例,几乎所有图片生成 API 都用同一套协议):
curl -X POST https://api.openai.com/v1/images/generations \ -H "Authorization: Bearer YOUR_KEY" \ -d '{ "model": "dall-e-3", "prompt": "扁平风格插画,一只猫坐在键盘上", "size": "1024x1024" }'返回一张 PNG 链接 / base64 字符串,agent 拿到后可以发给用户 / 保存到本地 / 嵌入网页。
💡 咱家 niuxue.org 所有文章配图,都是 agent 调这类 API 出的。
2. 音乐 / 音效生成 API —— 让 agent 能配乐
Section titled “2. 音乐 / 音效生成 API —— 让 agent 能配乐”为啥独立成一类:跟 TTS 不一样。
- TTS 是「人说话」(旁白 / 朗读)
- 音乐生成 是「旋律 / 伴奏」(可能含人声,可能不含)
- 音效生成 是「环境音 / 短促音效」(开门声、爆炸声、鸟叫)
这三个是完全不同的模型架构,API 也分开。

主流选择:
| 类型 | 服务 | 特点 | 价格 |
|---|---|---|---|
| 音乐生成 | Suno | 业界最强,2 分钟完整歌曲(含人声) | $10/月起 |
| 音乐生成 | Udio | Suno 主要竞品 | $10/月起 |
| 音乐生成 | Stable Audio | 开源可自部署 | 按算力 |
| 音乐生成 | 天工 SkyMusic | 昆仑万维国内版 | 免费/付费混合 |
| 音效生成 | ElevenLabs SFX | 短音效之王 | $0.4/秒 |
| 音效生成 | Stable Audio | 也能做短音效 | 按算力 |
典型场景:
- 做短视频 → LLM 写脚本 → 图片 API 出画面 → 音乐 API 出 BGM → TTS 出旁白 → 视频合成
- 做有声小说 → TTS 朗读 + 音乐 API 出背景音 + 音效 API 出环境音
- 游戏开发 → 音效 API 量产敌人音效 / UI 提示音
💡 国内开发者注意:Suno / Udio / ElevenLabs 都需要翻墙。国内目前天工 SkyMusic 是最现成的国产替代。
3. TTS / STT API —— 让 agent 能听能说
Section titled “3. TTS / STT API —— 让 agent 能听能说”TTS(Text-to-Speech)= 文字转语音。给 agent 装喇叭。 STT(Speech-to-Text)= 语音转文字。给 agent 装耳朵(也叫 ASR)。
主流选择:
| 类型 | 服务 | 国内可达 | 特点 |
|---|---|---|---|
| TTS | OpenAI TTS / ElevenLabs | ⚠️ 翻墙 | 海外最强,音色多 |
| TTS | MiniMax TTS | ✅ 直连 | 国内最强,中文音色丰富 |
| TTS | 字节火山 TTS | ✅ 直连 | 跟豆包一家 |
| STT | OpenAI Whisper | ⚠️ 翻墙 | 多语言准 |
| STT | Groq Whisper | ⚠️ 翻墙但快 | 用 Groq 推理速度极快(秒级) |
| STT | 阿里通义听悟 | ✅ 直连 | 国内中文最强 |
典型场景:
- 做语音助手 → 用户说话 → STT 转文字 → LLM 处理 → TTS 转语音回应
- 做有声内容 → LLM 写文案 → TTS 出音频
- 转录会议 → STT 把录音转文字 → LLM 总结
4. 视觉 / OCR API —— 让 agent 能看图
Section titled “4. 视觉 / OCR API —— 让 agent 能看图”最容易被忽略的一类。
原因:很多大模型(包括 DeepSeek、早期开源 Llama、千问的部分版本)只会处理文字,不能直接读图。你要让 agent 「看一下这张截图说了啥」就得配 Vision API。

部署架构:
用户 → 主模型(DeepSeek) ↓ 「这有张图,你帮我看一下」 Vision API(Gemini / GPT-4V / 豆包视觉) ↓ 「这张图是一只橘猫在键盘上,文字是 README」 主模型 ← 继续基于文字描述回答用户主流选择:
| 服务 | 模型 | 国内可达 | 特点 |
|---|---|---|---|
| Gemini 2.5 Flash | ⚠️ 翻墙 | 便宜量大,$0.075/百万 token | |
| OpenAI | GPT-4V | ⚠️ 翻墙 | 准但贵 |
| Anthropic | Claude Vision | ⚠️ 翻墙 | 跟 Claude 一家 |
| 字节 | Doubao Vision | ✅ 直连 | 国内最便宜 |
| 阿里 | 通义 VL | ✅ 直连 | 中文识图最强 |
典型场景:
- 用户发截图问问题 → Vision API 读图 + 文字 → LLM 回答
- 文档 OCR → Vision API 提取扫描件文字 → LLM 处理
- 自动化测试 → Vision API 识别 UI 元素 → 操作
5. 搜索 API —— 让 agent 能查最新信息
Section titled “5. 搜索 API —— 让 agent 能查最新信息”为啥需要:
- 大多数大模型有知识截止日期(Claude 4.7 是 2026 年 1 月,DeepSeek 是 2024 年中)
- 截止后的事件 → 它不知道
- 你问「昨天北京股市怎么样」 → 它要么瞎编,要么承认不知道
两种部署方式:
(a) 模型没有原生搜索 → 必须配搜索 API
Section titled “(a) 模型没有原生搜索 → 必须配搜索 API”DeepSeek、Llama、开源小模型 —— 全部需要外挂搜索。
(b) 模型有原生搜索但质量差 → 也要配第三方搜索
Section titled “(b) 模型有原生搜索但质量差 → 也要配第三方搜索”- Claude 原生 WebSearch:抓取能力一般,经常拿不到关键页面内容
- GPT 原生联网:速度慢,有时漏关键结果
所以咱家 niuxue.org 专门换成 Tavily,理由参见 niu 的 memory:Tavily 抓取质量比 Claude 原生搜索好很多。
主流选择:
| 服务 | 国内可达 | 特点 |
|---|---|---|
| Tavily | ⚠️ 翻墙(但 API 速度快) | 专为 AI 设计,返回 markdown 结构化结果 |
| Brave Search API | ⚠️ 翻墙 | 隐私友好 |
| SerpAPI | ⚠️ 翻墙 | 拿 Google 实时结果 |
| 博查 AI | ✅ 直连 | 国内 Tavily 平替 |
| 百度千帆搜索 API | ✅ 直连 | 百度系生态 |
6. 浏览器自动化 —— 让 agent 能操作网页
Section titled “6. 浏览器自动化 —— 让 agent 能操作网页”最常被遗忘的一类。
为啥需要:
- 搜索 API 拿到的是「文本摘要」,但很多页面是 JavaScript 动态加载的(SPA、React、Vue 应用),普通搜索 API 抓不到正文
- 视觉 API 需要「先有图」—— agent 自己截网页图就需要浏览器自动化
- 自动化场景:登录某个网站 → 填表 → 点按钮 → 截图 → 提交 —— 没浏览器自动化全干不了

主流选择:
| 类型 | 工具 | 部署方式 | 特点 |
|---|---|---|---|
| 本地库 | Playwright | 装本地包,不要 key | 最主流,Microsoft 出,跨 Chrome/Firefox/Safari |
| 本地库 | Puppeteer | 装本地包,不要 key | Google 出,Playwright 前身 |
| 本地库 | Selenium | 装本地包,不要 key | 老牌,生态最全 |
| 云端 | Browserbase | 远程 API,需要 key | 用云端浏览器,不占本地资源,适合 SaaS 部署 |
| 云端 | Browserless | 远程 API,需要 key | Browserbase 平替 |
| 国内 | MCP-Playwright | 通过 MCP 接入 | Claude Code / Cursor 一键装 |
典型场景:
- 自动化下单 / 抢票 / 签到 —— 写好流程,定时跑
- 抓动态网页内容 —— 比如 React 单页应用的产品列表
- 跑端到端测试 —— 模拟用户点击 / 输入 / 验证
- 网页截图喂给视觉 API —— 形成「截图→看图→决策→操作」闭环
装一个 Playwright:
# Node.js 环境npm install playwrightnpx playwright install # 装浏览器引擎
# Python 环境pip install playwrightplaywright install10 行代码就能让 agent 打开网页、截图、抓数据。
💡 Claude Code / Cursor / Trae 都可以通过 MCP 接 Playwright,然后用自然语言操控浏览器。
实战架构:agent + 6 类工具长啥样
Section titled “实战架构:agent + 6 类工具长啥样”
部署一个真正能干活的 agent,长这样:
┌───────────────────────┐ 用户 ───→│ 主 LLM(决策中心) │←──── 系统提示词(怎么用工具) └──┬────┬────┬────┬────┘ │ │ │ │ │ │ ▼ ▼ ▼ ▼ ▼ ▼ ┌─────┬─────┬─────┬─────┬─────┬─────┐ │图片 │音乐 │TTS/ │视觉 │搜索 │浏览 │ │生成 │音效 │STT │API │API │器自 │ │API │API │API │ │ │动化 │ └─────┴─────┴─────┴─────┴─────┴─────┘主 LLM 通过 ReAct 循环 决定:
- 「用户要画图」→ 调图片生成 API
- 「用户要配乐」→ 调音乐生成 API
- 「用户发语音」→ 先调 STT 转文字 → 再处理 → 可能 TTS 回声
- 「用户发图」→ 调视觉 API 转描述 → 处理
- 「用户问最新新闻」→ 调搜索 API 拿结果 → 总结
- 「用户要登录某网站操作」→ 调浏览器自动化 → 截图 → 看图 → 决定下一步

怎么让 agent 知道要调哪个工具?
Section titled “怎么让 agent 知道要调哪个工具?”两种主流方式:
方式 1:Tool Use API(官方接口)
Section titled “方式 1:Tool Use API(官方接口)”OpenAI / Anthropic / 国产大模型都提供。在请求里声明你有哪些工具,模型自动决定调哪个:
{ "model": "claude-opus-4-7", "messages": [{"role": "user", "content": "帮我画只猫"}], "tools": [ { "name": "generate_image", "description": "生成一张图片", "input_schema": { "type": "object", "properties": { "prompt": {"type": "string"} } } } ]}模型回复:「我要调 generate_image,参数是 prompt=‘a cute cat’」,你的程序拿到这个调用,真的去跑图片生成 API,把结果传回给模型。
方式 2:MCP 协议(标准化)
Section titled “方式 2:MCP 协议(标准化)”更通用的方式。把每个工具做成一个 MCP 服务,Claude Code / Cursor / Trae 这些 IDE 统一发现 + 接入。
比如:
- mcp-image:封装图片生成 API
- mcp-tts:封装 TTS API
- mcp-vision:封装视觉 API
- mcp-search:封装 Tavily
- mcp-playwright:封装浏览器自动化
- mcp-music:封装音乐生成
装好之后,Claude Code 自动知道这些工具,不用每次告诉它。
💡 推荐看 MCP(外部服务连接器) 那篇详细玩法。
谁应该配齐这 6 类?
Section titled “谁应该配齐这 6 类?”- 做 agent 产品 / 自动化工作流:必须配齐。否则 agent 90% 场景干不了
- 做对话机器人 / Telegram bot / Slack bot:至少配搜索 + 视觉 + 浏览器。用户经常发图发链接,常让 agent 「去某个网站查一下」
- 做短视频 / 内容创作:图片 + 音乐 + TTS 是核心三件套
- 只做内部代码编写(像 Claude Code 在 IDE 里 ):可选。但加 Playwright + 视觉之后,Claude 能截 UI 测试图 → 自己找 bug
一个反常识结论
Section titled “一个反常识结论”很多人以为「用最好的模型就够了」—— 错。
配齐工具的 GPT-4o-mini,比纯裸的 GPT-4,在实际任务中更有用。
理由:
- 模型再聪明,不能直接画图就是不能
- 模型再准确,不能查最新就过时
- 模型再多模态,不接 TTS 就发不了语音
agent 的能力 = 模型 × 工具集。
工具集 = 1 时,agent = 模型。 工具集 = 0 时,agent = 0(就是个会聊天的 chatbot)。
部署 agent 三件套:
三个缺一不可。
牛学板块导航
Section titled “牛学板块导航”- 上一篇:← AI agent 是怎么思考的:ReAct 模式
- 本板块:Agent 通用知识
- 1/X AI agent 是怎么思考的:ReAct 模式
- 2/X 给 Agent 配齐 6 类 API 工具(就是这一篇)
- 3/X(规划中)MCP 详解:agent 接外部世界的标准协议
- 4/X(规划中)Memory:让 agent 记住你
- 5/X(规划中)多 agent 编排
- 下一板块:Trae 完整教程 →
评论
不记名、不需要注册——不要邮箱,不要手机号,不要任何身份信息,填个昵称就能留言。放心说。