OpenClaw 可生成图像、视频和音乐,理解传入媒体 (图像、音频、视频),并通过文本转语音将回复朗读出来。所有 媒体能力都由工具驱动:代理会根据对话决定何时使用它们, 并且每个工具只有在至少配置了一个后端提供商时才会出现。Documentation Index
Fetch the complete documentation index at: https://openclaw.zhcndoc.com/llms.txt
Use this file to discover all available pages before exploring further.
功能
图像生成
通过
image_generate 从文本提示或参考图像创建和编辑图像。同步——在回复中内联完成。视频生成
通过
video_generate 实现文生视频、图生视频和视频转视频。
异步——在后台运行,并在准备好时发布结果。音乐生成
通过
music_generate 生成音乐或音频轨道。在共享提供商上为异步;
ComfyUI 工作流路径则同步运行。文本转语音
通过
tts 工具加上 messages.tts 配置将外发回复转换为语音音频。同步。媒体理解
使用具备视觉能力的模型提供商和专用媒体理解插件,对传入的图像、音频和视频进行摘要。
语音转文本
通过批量 STT 或 Voice Call 流式 STT 提供商转录传入的语音消息。
提供商能力矩阵
| 提供商 | 图像 | 视频 | 音乐 | TTS | STT | 实时语音 | 媒体理解 |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | |||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | |||
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
媒体理解使用在你的提供商配置中注册的任何具备视觉能力或音频能力的模型。上面的矩阵列出了具备专用媒体理解支持的提供商;大多数多模态 LLM 提供商(Anthropic、Google、OpenAI 等)在配置为当前回复模型时,也可以理解传入媒体。
异步与同步
| 功能 | 模式 | 原因 |
|---|---|---|
| 图像 | 同步 | 提供商响应在几秒内返回;在回复中内联完成。 |
| 文本转语音 | 同步 | 提供商响应在几秒内返回;作为回复音频的一部分附加。 |
| 视频 | 异步 | 提供商处理需要 30 秒到数分钟。 |
| 音乐(共享) | 异步 | 与视频相同的提供商处理特征。 |
| 音乐(ComfyUI) | 同步 | 本地工作流针对已配置的 ComfyUI 服务器内联运行。 |
语音转文本与 Voice Call
当配置后,Deepgram、DeepInfra、ElevenLabs、Mistral、OpenAI、SenseAudio 和 xAI 都可以通过批量tools.media.audio 路径转录
传入音频。
会对语音消息进行 mention gating 或命令
解析的频道插件,会在传入上下文中标记已转录的附件,因此共享
媒体理解流程会复用该转录内容,而不是对同一音频再发起第二次
STT 调用。
Deepgram、ElevenLabs、Mistral、OpenAI 和 xAI 也会注册 Voice Call
流式 STT 提供商,因此实时电话音频可以在无需等待录音完成的情况下
转发给所选
供应商。
提供商映射(供应商如何在各个表面上拆分)
Google
图像、视频、音乐、批量 TTS、后端实时语音,以及
媒体理解相关能力。
OpenAI
OpenAI
图像、视频、批量 TTS、批量 STT、Voice Call 流式 STT、后端
实时语音,以及记忆嵌入相关能力。
DeepInfra
DeepInfra
聊天/模型路由、图像生成/编辑、文生视频、批量 TTS、
批量 STT、图像媒体理解,以及记忆嵌入相关能力。
在 OpenClaw 拥有这些类别的专用提供商合约之前,DeepInfra 原生的 rerank/classification/object-detection 模型不会注册。
xAI
xAI
图像、视频、搜索、代码执行、批量 TTS、批量 STT,以及 Voice
Call 流式 STT。xAI Realtime 语音是上游能力,但在共享实时语音合约能够表示它之前,
不会在 OpenClaw 中注册。