给 Agent 配齐 6 类 API 工具(图片/音乐/语音/视觉/搜索/浏览器)

📍 Agent 通用知识 2/X · 上一篇:← AI agent 是怎么思考的:ReAct 模式

中心一个机器人腰间挂着工具带,带子上挂着画笔/麦克风/眼睛/放大镜四个工具图标

一个让人困惑的现象

你看了 Subagents(子智能体),装好了 Claude Code,以为 agent 就能干所有事。真用起来你会发现:

你说「帮我画个海报」—— 它回:「我不能直接生成图片」
你说「给我这段文案配个背景音乐」—— 它说:「我没法生成音频」
你发一段录音问内容 —— 它说:「我不能处理音频」
你丢一张截图让它读上面的字 —— 用 DeepSeek 的话,它说:「我看不到图」
你让它「查一下今天的新闻」—— 它给你的链接全是 2024 年的
你说「帮我打开网页,登录,然后截个图」—— 它说:「我没办法操作浏览器」

怎么回事?这不是号称 AI agent 吗?

一个表情有点沮丧的简单聊天机器人,周围漂浮着它做不到的事情(画框/麦克风/猫的图片/地球都打X)

一句话先答

大模型只是大脑,agent 还要手脚眼耳。

你看到的 Claude / DeepSeek / 豆包 —— 都是「纯语言模型」,它们的原生能力只是文字进、文字出。

要让它真的能画图 / 配乐 / 听声音 / 看图片 / 查最新信息 / 操作网页,得给它配 6 类 API 工具:

工具	比喻	例子
1. 图片生成 API	给 agent 装画笔(手)	Midjourney / DALL-E / Grok Imagine
2. 音乐 / 音效生成 API	给 agent 装作曲台(创意输出)	Suno / Udio / ElevenLabs SFX
3. TTS / STT API	给 agent 装喇叭和耳朵(嘴+耳)	MiniMax TTS / OpenAI Whisper
4. 视觉 / OCR API	给 agent 装眼睛	GPT-4V / Gemini Vision
5. 搜索 API	给 agent 装外脑(查最新信息)	Tavily / Brave Search
6. 浏览器自动化	给 agent 装手指(操作网页)	Playwright / Puppeteer / Browserbase

配齐这 6 类,agent 就从「会聊天」升级到「能干活」。

6 类必备 API 详解

一个网格里展开 6 张卡片(图片)/音符(音乐)/喇叭麦克风(语音)/眼睛画框(视觉)/放大镜地球(搜索)/浏览器+鼠标(自动化)

1. 图片生成 API —— 让 agent 能画图

为啥需要:大模型只会出文字。要出图必须调专门的图片生成模型。

主流选择:

服务商	模型	国内可达	价格
OpenAI	DALL-E 3 / gpt-image-2	⚠️ 要翻墙	$0.04/图起
Stability AI	SDXL / SD 3.5	⚠️ 要翻墙	$0.005/图起
xAI	Grok Imagine	⚠️ 要翻墙	$0.07/图
字节火山	Doubao Image	✅ 直连	国内付费
API 聚合平台	多家模型(海外 OpenRouter / 国内硅基流动等)	✅/⚠️ 看选哪家	OpenAI 兼容定价

调用方式(以 OpenAI 官方接口为例,几乎所有图片生成 API 都用同一套协议):

curl -X POST https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer YOUR_KEY" \
  -d '{
    "model": "dall-e-3",
    "prompt": "扁平风格插画,一只猫坐在键盘上",
    "size": "1024x1024"
  }'

返回一张 PNG 链接 / base64 字符串,agent 拿到后可以发给用户 / 保存到本地 / 嵌入网页。

💡 咱家 niuxue.org 所有文章配图,都是 agent 调这类 API 出的。

2. 音乐 / 音效生成 API —— 让 agent 能配乐

为啥独立成一类:跟 TTS 不一样。

TTS 是「人说话」(旁白 / 朗读)
音乐生成 是「旋律 / 伴奏」(可能含人声,可能不含)
音效生成 是「环境音 / 短促音效」(开门声、爆炸声、鸟叫)

这三个是完全不同的模型架构,API 也分开。

一个机器人手里举着音符,旁边一把吉他形状,周围漂浮着声波和小八分音符

主流选择:

类型	服务	特点	价格
音乐生成	Suno	业界最强,2 分钟完整歌曲(含人声)	$10/月起
音乐生成	Udio	Suno 主要竞品	$10/月起
音乐生成	Stable Audio	开源可自部署	按算力
音乐生成	天工 SkyMusic	昆仑万维国内版	免费/付费混合
音效生成	ElevenLabs SFX	短音效之王	$0.4/秒
音效生成	Stable Audio	也能做短音效	按算力

典型场景:

做短视频 → LLM 写脚本 → 图片 API 出画面 → 音乐 API 出 BGM → TTS 出旁白 → 视频合成
做有声小说 → TTS 朗读 + 音乐 API 出背景音 + 音效 API 出环境音
游戏开发 → 音效 API 量产敌人音效 / UI 提示音

💡 国内开发者注意:Suno / Udio / ElevenLabs 都需要翻墙。国内目前天工 SkyMusic 是最现成的国产替代。

3. TTS / STT API —— 让 agent 能听能说

TTS(Text-to-Speech)= 文字转语音。给 agent 装喇叭。 STT(Speech-to-Text)= 语音转文字。给 agent 装耳朵(也叫 ASR)。

主流选择:

类型	服务	国内可达	特点
TTS	OpenAI TTS / ElevenLabs	⚠️ 翻墙	海外最强,音色多
TTS	MiniMax TTS	✅ 直连	国内最强,中文音色丰富
TTS	字节火山 TTS	✅ 直连	跟豆包一家
STT	OpenAI Whisper	⚠️ 翻墙	多语言准
STT	Groq Whisper	⚠️ 翻墙但快	用 Groq 推理速度极快(秒级)
STT	阿里通义听悟	✅ 直连	国内中文最强

典型场景:

做语音助手 → 用户说话 → STT 转文字 → LLM 处理 → TTS 转语音回应
做有声内容 → LLM 写文案 → TTS 出音频
转录会议 → STT 把录音转文字 → LLM 总结

4. 视觉 / OCR API —— 让 agent 能看图

最容易被忽略的一类。

原因:很多大模型(包括 DeepSeek、早期开源 Llama、千问的部分版本)只会处理文字,不能直接读图。你要让 agent 「看一下这张截图说了啥」就得配 Vision API。

左边大机器人D(DeepSeek)眼睛上有眼罩,中间小机器人拿放大镜看一张图,箭头表示小机器人把文字描述发回给大机器人

部署架构:

用户 → 主模型(DeepSeek)
         ↓ 「这有张图,你帮我看一下」
       Vision API(Gemini / GPT-4V / 豆包视觉)
         ↓ 「这张图是一只橘猫在键盘上,文字是 README」
       主模型 ← 继续基于文字描述回答用户

主流选择:

服务	模型	国内可达	特点
Google	Gemini 2.5 Flash	⚠️ 翻墙	便宜量大,$0.075/百万 token
OpenAI	GPT-4V	⚠️ 翻墙	准但贵
Anthropic	Claude Vision	⚠️ 翻墙	跟 Claude 一家
字节	Doubao Vision	✅ 直连	国内最便宜
阿里	通义 VL	✅ 直连	中文识图最强

典型场景:

用户发截图问问题 → Vision API 读图 + 文字 → LLM 回答
文档 OCR → Vision API 提取扫描件文字 → LLM 处理
自动化测试 → Vision API 识别 UI 元素 → 操作

5. 搜索 API —— 让 agent 能查最新信息

为啥需要:

大多数大模型有知识截止日期(Claude 4.7 是 2026 年 1 月,DeepSeek 是 2024 年中)
截止后的事件 → 它不知道
你问「昨天北京股市怎么样」 → 它要么瞎编,要么承认不知道

两种部署方式:

(a) 模型没有原生搜索 → 必须配搜索 API

DeepSeek、Llama、开源小模型 —— 全部需要外挂搜索。

(b) 模型有原生搜索但质量差 → 也要配第三方搜索

Claude 原生 WebSearch:抓取能力一般,经常拿不到关键页面内容
GPT 原生联网:速度慢,有时漏关键结果

所以咱家 niuxue.org 专门换成 Tavily,理由参见 niu 的 memory:Tavily 抓取质量比 Claude 原生搜索好很多。

主流选择:

服务	国内可达	特点
Tavily	⚠️ 翻墙(但 API 速度快)	专为 AI 设计,返回 markdown 结构化结果
Brave Search API	⚠️ 翻墙	隐私友好
SerpAPI	⚠️ 翻墙	拿 Google 实时结果
博查 AI	✅ 直连	国内 Tavily 平替
百度千帆搜索 API	✅ 直连	百度系生态

6. 浏览器自动化 —— 让 agent 能操作网页

最常被遗忘的一类。

为啥需要:

搜索 API 拿到的是「文本摘要」,但很多页面是 JavaScript 动态加载的(SPA、React、Vue 应用),普通搜索 API 抓不到正文
视觉 API 需要「先有图」—— agent 自己截网页图就需要浏览器自动化
自动化场景:登录某个网站 → 填表 → 点按钮 → 截图 → 提交 —— 没浏览器自动化全干不了

一个机器人手里拿着小相机或屏幕,旁边漂浮着浏览器窗口,虚线连接表示远程控制

主流选择:

类型	工具	部署方式	特点
本地库	Playwright	装本地包,不要 key	最主流,Microsoft 出,跨 Chrome/Firefox/Safari
本地库	Puppeteer	装本地包,不要 key	Google 出,Playwright 前身
本地库	Selenium	装本地包,不要 key	老牌,生态最全
云端	Browserbase	远程 API,需要 key	用云端浏览器,不占本地资源,适合 SaaS 部署
云端	Browserless	远程 API,需要 key	Browserbase 平替
国内	MCP-Playwright	通过 MCP 接入	Claude Code / Cursor 一键装

典型场景:

自动化下单 / 抢票 / 签到 —— 写好流程,定时跑
抓动态网页内容 —— 比如 React 单页应用的产品列表
跑端到端测试 —— 模拟用户点击 / 输入 / 验证
网页截图喂给视觉 API —— 形成「截图→看图→决策→操作」闭环

装一个 Playwright:

# Node.js 环境
npm install playwright
npx playwright install  # 装浏览器引擎

# Python 环境
pip install playwright
playwright install

10 行代码就能让 agent 打开网页、截图、抓数据。

💡 Claude Code / Cursor / Trae 都可以通过 MCP 接 Playwright,然后用自然语言操控浏览器。

实战架构:agent + 6 类工具长啥样

中心一个 LLM 主机器人,周围用曲线连到 4 个小服务盒子,每个盒子有不同工具图标(画笔/麦克风/眼睛/放大镜),整体像辐条结构

部署一个真正能干活的 agent,长这样:

            ┌───────────────────────┐
   用户 ───→│   主 LLM(决策中心)  │←──── 系统提示词(怎么用工具)
            └──┬────┬────┬────┬────┘
               │    │    │    │    │    │
               ▼    ▼    ▼    ▼    ▼    ▼
            ┌─────┬─────┬─────┬─────┬─────┬─────┐
            │图片 │音乐 │TTS/ │视觉 │搜索 │浏览 │
            │生成 │音效 │STT  │API  │API  │器自 │
            │API  │API  │API  │     │     │动化 │
            └─────┴─────┴─────┴─────┴─────┴─────┘

主 LLM 通过 ReAct 循环决定:

「用户要画图」→ 调图片生成 API
「用户要配乐」→ 调音乐生成 API
「用户发语音」→ 先调 STT 转文字 → 再处理 → 可能 TTS 回声
「用户发图」→ 调视觉 API 转描述 → 处理
「用户问最新新闻」→ 调搜索 API 拿结果 → 总结
「用户要登录某网站操作」→ 调浏览器自动化 → 截图 → 看图 → 决定下一步

中心机器人在读工具目录,周围漂浮 4 个工具图标(画笔/麦克风/眼睛/搜索),箭头表示 ReAct 循环继续

怎么让 agent 知道要调哪个工具?

两种主流方式:

方式 1:Tool Use API(官方接口)

OpenAI / Anthropic / 国产大模型都提供。在请求里声明你有哪些工具,模型自动决定调哪个:

{
  "model": "claude-opus-4-7",
  "messages": [{"role": "user", "content": "帮我画只猫"}],
  "tools": [
    {
      "name": "generate_image",
      "description": "生成一张图片",
      "input_schema": {
        "type": "object",
        "properties": {
          "prompt": {"type": "string"}
        }
      }
    }
  ]
}

模型回复:「我要调 generate_image,参数是 prompt=‘a cute cat’」,你的程序拿到这个调用,真的去跑图片生成 API,把结果传回给模型。

方式 2:MCP 协议(标准化)

更通用的方式。把每个工具做成一个 MCP 服务,Claude Code / Cursor / Trae 这些 IDE 统一发现 + 接入。

比如:

mcp-image:封装图片生成 API
mcp-tts:封装 TTS API
mcp-vision:封装视觉 API
mcp-search:封装 Tavily
mcp-playwright:封装浏览器自动化
mcp-music:封装音乐生成

装好之后,Claude Code 自动知道这些工具,不用每次告诉它。

💡 推荐看 MCP(外部服务连接器) 那篇详细玩法。

谁应该配齐这 6 类?

做 agent 产品 / 自动化工作流:必须配齐。否则 agent 90% 场景干不了
做对话机器人 / Telegram bot / Slack bot:至少配搜索 + 视觉 + 浏览器。用户经常发图发链接,常让 agent 「去某个网站查一下」
做短视频 / 内容创作:图片 + 音乐 + TTS 是核心三件套
只做内部代码编写(像 Claude Code 在 IDE 里 ):可选。但加 Playwright + 视觉之后,Claude 能截 UI 测试图 → 自己找 bug

一个反常识结论

很多人以为「用最好的模型就够了」—— 错。

配齐工具的 GPT-4o-mini,比纯裸的 GPT-4,在实际任务中更有用。

理由:

模型再聪明,不能直接画图就是不能
模型再准确,不能查最新就过时
模型再多模态,不接 TTS 就发不了语音

agent 的能力 = 模型 × 工具集。

工具集 = 1 时,agent = 模型。工具集 = 0 时,agent = 0(就是个会聊天的 chatbot)。

一句话总结

部署 agent 三件套:

决策框架(ReAct 模式)—— 让 agent 知道怎么想
协议(MCP)—— 让 agent 知道有哪些工具
工具集(本篇 6 类 API)—— 让 agent 真的能动手

三个缺一不可。

牛学板块导航

上一篇:← AI agent 是怎么思考的:ReAct 模式
本板块:Agent 通用知识
- 1/X AI agent 是怎么思考的:ReAct 模式
- 2/X 给 Agent 配齐 6 类 API 工具(就是这一篇)
- 3/X(规划中)MCP 详解:agent 接外部世界的标准协议
- 4/X(规划中)Memory:让 agent 记住你
- 5/X(规划中)多 agent 编排
下一板块:Trae 完整教程 →

不记名、不需要注册——不要邮箱，不要手机号，不要任何身份信息，填个昵称就能留言。放心说。

加载中 …

给 Agent 配齐 6 类 API 工具(图片/音乐/语音/视觉/搜索/浏览器)

一个让人困惑的现象

一句话先答

6 类必备 API 详解

1. 图片生成 API —— 让 agent 能画图

2. 音乐 / 音效生成 API —— 让 agent 能配乐

3. TTS / STT API —— 让 agent 能听能说

4. 视觉 / OCR API —— 让 agent 能看图

5. 搜索 API —— 让 agent 能查最新信息

(a) 模型没有原生搜索 → 必须配搜索 API

(b) 模型有原生搜索但质量差 → 也要配第三方搜索

6. 浏览器自动化 —— 让 agent 能操作网页

实战架构:agent + 6 类工具长啥样

怎么让 agent 知道要调哪个工具?

方式 1:Tool Use API(官方接口)

方式 2:MCP 协议(标准化)

谁应该配齐这 6 类?

一个反常识结论

一句话总结

牛学板块导航

🍊 觉得这篇有用？

相关阅读

评论