跳转到内容

给 Agent 配齐 6 类 API 工具(图片/音乐/语音/视觉/搜索/浏览器)

📍 Agent 通用知识 2/X · 上一篇:← AI agent 是怎么思考的:ReAct 模式

中心一个机器人腰间挂着工具带,带子上挂着画笔/麦克风/眼睛/放大镜四个工具图标

你看了 Subagents(子智能体),装好了 Claude Code,以为 agent 就能干所有事。真用起来你会发现:

  • 你说「帮我画个海报」—— 它回:「我不能直接生成图片
  • 你说「给我这段文案配个背景音乐」—— 它说:「我没法生成音频
  • 你发一段录音问内容 —— 它说:「我不能处理音频
  • 你丢一张截图让它读上面的字 —— 用 DeepSeek 的话,它说:「我看不到图
  • 你让它「查一下今天的新闻」—— 它给你的链接全是 2024 年的
  • 你说「帮我打开网页,登录,然后截个图」—— 它说:「我没办法操作浏览器

怎么回事?这不是号称 AI agent 吗?

一个表情有点沮丧的简单聊天机器人,周围漂浮着它做不到的事情(画框/麦克风/猫的图片/地球都打X)


大模型只是大脑,agent 还要手脚眼耳

你看到的 Claude / DeepSeek / 豆包 —— 都是「纯语言模型」,它们的原生能力只是文字进、文字出

要让它真的能画图 / 配乐 / 听声音 / 看图片 / 查最新信息 / 操作网页,得给它配 6 类 API 工具:

工具比喻例子
1. 图片生成 API给 agent 装画笔(手)Midjourney / DALL-E / Grok Imagine
2. 音乐 / 音效生成 API给 agent 装作曲台(创意输出)Suno / Udio / ElevenLabs SFX
3. TTS / STT API给 agent 装喇叭和耳朵(嘴+耳)MiniMax TTS / OpenAI Whisper
4. 视觉 / OCR API给 agent 装眼睛GPT-4V / Gemini Vision
5. 搜索 API给 agent 装外脑(查最新信息)Tavily / Brave Search
6. 浏览器自动化给 agent 装手指(操作网页)Playwright / Puppeteer / Browserbase

配齐这 6 类,agent 就从「会聊天」升级到「能干活」


一个网格里展开 6 张卡片(图片)/音符(音乐)/喇叭麦克风(语音)/眼睛画框(视觉)/放大镜地球(搜索)/浏览器+鼠标(自动化)

1. 图片生成 API —— 让 agent 能画图

Section titled “1. 图片生成 API —— 让 agent 能画图”

为啥需要:大模型只会出文字。要出图必须调专门的图片生成模型。

主流选择:

服务商模型国内可达价格
OpenAIDALL-E 3 / gpt-image-2⚠️ 要翻墙$0.04/图 起
Stability AISDXL / SD 3.5⚠️ 要翻墙$0.005/图 起
xAIGrok Imagine⚠️ 要翻墙$0.07/图
字节火山Doubao Image✅ 直连国内付费
API 聚合平台多家模型(海外 OpenRouter / 国内硅基流动等)✅/⚠️ 看选哪家OpenAI 兼容定价

调用方式(以 OpenAI 官方接口为例,几乎所有图片生成 API 都用同一套协议):

Terminal window
curl -X POST https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer YOUR_KEY" \
-d '{
"model": "dall-e-3",
"prompt": "扁平风格插画,一只猫坐在键盘上",
"size": "1024x1024"
}'

返回一张 PNG 链接 / base64 字符串,agent 拿到后可以发给用户 / 保存到本地 / 嵌入网页。

💡 咱家 niuxue.org 所有文章配图,都是 agent 调这类 API 出的。

2. 音乐 / 音效生成 API —— 让 agent 能配乐

Section titled “2. 音乐 / 音效生成 API —— 让 agent 能配乐”

为啥独立成一类:跟 TTS 不一样。

  • TTS 是「人说话」(旁白 / 朗读)
  • 音乐生成 是「旋律 / 伴奏」(可能含人声,可能不含)
  • 音效生成 是「环境音 / 短促音效」(开门声、爆炸声、鸟叫)

这三个是完全不同的模型架构,API 也分开

一个机器人手里举着音符,旁边一把吉他形状,周围漂浮着声波和小八分音符

主流选择:

类型服务特点价格
音乐生成Suno业界最强,2 分钟完整歌曲(含人声)$10/月起
音乐生成UdioSuno 主要竞品$10/月起
音乐生成Stable Audio开源可自部署按算力
音乐生成天工 SkyMusic昆仑万维国内版免费/付费混合
音效生成ElevenLabs SFX短音效之王$0.4/秒
音效生成Stable Audio也能做短音效按算力

典型场景:

  • 做短视频 → LLM 写脚本 → 图片 API 出画面 → 音乐 API 出 BGM → TTS 出旁白 → 视频合成
  • 做有声小说 → TTS 朗读 + 音乐 API 出背景音 + 音效 API 出环境音
  • 游戏开发 → 音效 API 量产敌人音效 / UI 提示音

💡 国内开发者注意:Suno / Udio / ElevenLabs 都需要翻墙。国内目前天工 SkyMusic 是最现成的国产替代。

3. TTS / STT API —— 让 agent 能听能说

Section titled “3. TTS / STT API —— 让 agent 能听能说”

TTS(Text-to-Speech)= 文字转语音。给 agent 装喇叭STT(Speech-to-Text)= 语音转文字。给 agent 装耳朵(也叫 ASR)。

主流选择:

类型服务国内可达特点
TTSOpenAI TTS / ElevenLabs⚠️ 翻墙海外最强,音色多
TTSMiniMax TTS✅ 直连国内最强,中文音色丰富
TTS字节火山 TTS✅ 直连跟豆包一家
STTOpenAI Whisper⚠️ 翻墙多语言准
STTGroq Whisper⚠️ 翻墙但快用 Groq 推理速度极快(秒级)
STT阿里通义听悟✅ 直连国内中文最强

典型场景:

  • 做语音助手 → 用户说话 → STT 转文字 → LLM 处理 → TTS 转语音回应
  • 做有声内容 → LLM 写文案 → TTS 出音频
  • 转录会议 → STT 把录音转文字 → LLM 总结

4. 视觉 / OCR API —— 让 agent 能看图

Section titled “4. 视觉 / OCR API —— 让 agent 能看图”

最容易被忽略的一类

原因:很多大模型(包括 DeepSeek、早期开源 Llama、千问的部分版本)只会处理文字,不能直接读图。你要让 agent 「看一下这张截图说了啥」就得配 Vision API。

左边大机器人D(DeepSeek)眼睛上有眼罩,中间小机器人拿放大镜看一张图,箭头表示小机器人把文字描述发回给大机器人

部署架构:

用户 → 主模型(DeepSeek)
↓ 「这有张图,你帮我看一下」
Vision API(Gemini / GPT-4V / 豆包视觉)
↓ 「这张图是一只橘猫在键盘上,文字是 README」
主模型 ← 继续基于文字描述回答用户

主流选择:

服务模型国内可达特点
GoogleGemini 2.5 Flash⚠️ 翻墙便宜量大,$0.075/百万 token
OpenAIGPT-4V⚠️ 翻墙准但贵
AnthropicClaude Vision⚠️ 翻墙跟 Claude 一家
字节Doubao Vision✅ 直连国内最便宜
阿里通义 VL✅ 直连中文识图最强

典型场景:

  • 用户发截图问问题 → Vision API 读图 + 文字 → LLM 回答
  • 文档 OCR → Vision API 提取扫描件文字 → LLM 处理
  • 自动化测试 → Vision API 识别 UI 元素 → 操作

5. 搜索 API —— 让 agent 能查最新信息

Section titled “5. 搜索 API —— 让 agent 能查最新信息”

为啥需要:

  • 大多数大模型有知识截止日期(Claude 4.7 是 2026 年 1 月,DeepSeek 是 2024 年中)
  • 截止后的事件 → 它不知道
  • 你问「昨天北京股市怎么样」 → 它要么瞎编,要么承认不知道

两种部署方式:

(a) 模型没有原生搜索 → 必须配搜索 API

Section titled “(a) 模型没有原生搜索 → 必须配搜索 API”

DeepSeek、Llama、开源小模型 —— 全部需要外挂搜索。

(b) 模型有原生搜索但质量差 → 也要配第三方搜索

Section titled “(b) 模型有原生搜索但质量差 → 也要配第三方搜索”
  • Claude 原生 WebSearch:抓取能力一般,经常拿不到关键页面内容
  • GPT 原生联网:速度慢,有时漏关键结果

所以咱家 niuxue.org 专门换成 Tavily,理由参见 niu 的 memory:Tavily 抓取质量比 Claude 原生搜索好很多。

主流选择:

服务国内可达特点
Tavily⚠️ 翻墙(但 API 速度快)专为 AI 设计,返回 markdown 结构化结果
Brave Search API⚠️ 翻墙隐私友好
SerpAPI⚠️ 翻墙拿 Google 实时结果
博查 AI✅ 直连国内 Tavily 平替
百度千帆搜索 API✅ 直连百度系生态

6. 浏览器自动化 —— 让 agent 能操作网页

Section titled “6. 浏览器自动化 —— 让 agent 能操作网页”

最常被遗忘的一类

为啥需要:

  • 搜索 API 拿到的是「文本摘要」,但很多页面是 JavaScript 动态加载的(SPA、React、Vue 应用),普通搜索 API 抓不到正文
  • 视觉 API 需要「先有图」—— agent 自己截网页图就需要浏览器自动化
  • 自动化场景:登录某个网站 → 填表 → 点按钮 → 截图 → 提交 —— 没浏览器自动化全干不了

一个机器人手里拿着小相机或屏幕,旁边漂浮着浏览器窗口,虚线连接表示远程控制

主流选择:

类型工具部署方式特点
本地库Playwright装本地包,不要 key最主流,Microsoft 出,跨 Chrome/Firefox/Safari
本地库Puppeteer装本地包,不要 keyGoogle 出,Playwright 前身
本地库Selenium装本地包,不要 key老牌,生态最全
云端Browserbase远程 API,需要 key用云端浏览器,不占本地资源,适合 SaaS 部署
云端Browserless远程 API,需要 keyBrowserbase 平替
国内MCP-Playwright通过 MCP 接入Claude Code / Cursor 一键装

典型场景:

  • 自动化下单 / 抢票 / 签到 —— 写好流程,定时跑
  • 抓动态网页内容 —— 比如 React 单页应用的产品列表
  • 跑端到端测试 —— 模拟用户点击 / 输入 / 验证
  • 网页截图喂给视觉 API —— 形成「截图→看图→决策→操作」闭环

装一个 Playwright:

Terminal window
# Node.js 环境
npm install playwright
npx playwright install # 装浏览器引擎
# Python 环境
pip install playwright
playwright install

10 行代码就能让 agent 打开网页、截图、抓数据。

💡 Claude Code / Cursor / Trae 都可以通过 MCP 接 Playwright,然后用自然语言操控浏览器。


中心一个 LLM 主机器人,周围用曲线连到 4 个小服务盒子,每个盒子有不同工具图标(画笔/麦克风/眼睛/放大镜),整体像辐条结构

部署一个真正能干活的 agent,长这样:

┌───────────────────────┐
用户 ───→│ 主 LLM(决策中心) │←──── 系统提示词(怎么用工具)
└──┬────┬────┬────┬────┘
│ │ │ │ │ │
▼ ▼ ▼ ▼ ▼ ▼
┌─────┬─────┬─────┬─────┬─────┬─────┐
│图片 │音乐 │TTS/ │视觉 │搜索 │浏览 │
│生成 │音效 │STT │API │API │器自 │
│API │API │API │ │ │动化 │
└─────┴─────┴─────┴─────┴─────┴─────┘

主 LLM 通过 ReAct 循环 决定:

  • 「用户要画图」→ 调图片生成 API
  • 「用户要配乐」→ 调音乐生成 API
  • 「用户发语音」→ 先调 STT 转文字 → 再处理 → 可能 TTS 回声
  • 「用户发图」→ 调视觉 API 转描述 → 处理
  • 「用户问最新新闻」→ 调搜索 API 拿结果 → 总结
  • 「用户要登录某网站操作」→ 调浏览器自动化 → 截图 → 看图 → 决定下一步

中心机器人在读工具目录,周围漂浮 4 个工具图标(画笔/麦克风/眼睛/搜索),箭头表示 ReAct 循环继续


两种主流方式:

OpenAI / Anthropic / 国产大模型都提供。在请求里声明你有哪些工具,模型自动决定调哪个:

{
"model": "claude-opus-4-7",
"messages": [{"role": "user", "content": "帮我画只猫"}],
"tools": [
{
"name": "generate_image",
"description": "生成一张图片",
"input_schema": {
"type": "object",
"properties": {
"prompt": {"type": "string"}
}
}
}
]
}

模型回复:「我要调 generate_image,参数是 prompt=‘a cute cat’」,你的程序拿到这个调用,真的去跑图片生成 API,把结果传回给模型。

更通用的方式。把每个工具做成一个 MCP 服务,Claude Code / Cursor / Trae 这些 IDE 统一发现 + 接入

比如:

  • mcp-image:封装图片生成 API
  • mcp-tts:封装 TTS API
  • mcp-vision:封装视觉 API
  • mcp-search:封装 Tavily
  • mcp-playwright:封装浏览器自动化
  • mcp-music:封装音乐生成

装好之后,Claude Code 自动知道这些工具,不用每次告诉它。

💡 推荐看 MCP(外部服务连接器) 那篇详细玩法。


  • 做 agent 产品 / 自动化工作流:必须配齐。否则 agent 90% 场景干不了
  • 做对话机器人 / Telegram bot / Slack bot:至少配搜索 + 视觉 + 浏览器。用户经常发图发链接,常让 agent 「去某个网站查一下」
  • 做短视频 / 内容创作:图片 + 音乐 + TTS 是核心三件套
  • 只做内部代码编写(像 Claude Code 在 IDE 里 ):可选。但加 Playwright + 视觉之后,Claude 能截 UI 测试图 → 自己找 bug

很多人以为「用最好的模型就够了」—— 错。

配齐工具的 GPT-4o-mini,比纯裸的 GPT-4,在实际任务中更有用

理由:

  • 模型再聪明,不能直接画图就是不能
  • 模型再准确,不能查最新就过时
  • 模型再多模态,不接 TTS 就发不了语音

agent 的能力 = 模型 × 工具集

工具集 = 1 时,agent = 模型。 工具集 = 0 时,agent = 0(就是个会聊天的 chatbot)。


部署 agent 三件套:

  1. 决策框架(ReAct 模式)—— 让 agent 知道怎么想
  2. 协议(MCP)—— 让 agent 知道有哪些工具
  3. 工具集(本篇 6 类 API)—— 让 agent 真的能动手

三个缺一不可。


评论

不记名、不需要注册——不要邮箱,不要手机号,不要任何身份信息,填个昵称就能留言。放心说。

  • 加载中 …