Skip to main content

Documentation Index

Fetch the complete documentation index at: https://openclaw.zhcndoc.com/llms.txt

Use this file to discover all available pages before exploring further.

OpenClaw 可以将出站回复转换为音频,支持 14 个语音提供商,并可在飞书、Matrix、Telegram 和 WhatsApp 上发送原生语音消息,在其他平台发送音频附件,并为电话和 Talk 提供 PCM/Ulaw 流。

快速开始

1

选择提供商

OpenAI 和 ElevenLabs 是最可靠的托管选项。Microsoft 和 Local CLI 无需 API 密钥。请查看 提供商矩阵 获取完整列表。
2

设置 API 密钥

为你的提供商导出环境变量(例如 OPENAI_API_KEYELEVENLABS_API_KEY)。Microsoft 和 Local CLI 不需要密钥。
3

在配置中启用

设置 messages.tts.auto: "always"messages.tts.provider
{
  messages: {
    tts: {
      auto: "always",
      provider: "elevenlabs",
    },
  },
}
4

在聊天中试用

/tts status 会显示当前状态。/tts audio Hello from OpenClaw 会发送一次性的音频回复。
自动 TTS 默认关闭。当 messages.tts.provider 未设置时,OpenClaw 会按注册表自动选择顺序选择第一个已配置的提供商。 内置的 tts 代理工具仅在明确意图时才会触发:普通聊天保持文本输出,除非用户要求音频、使用 /tts,或启用自动 TTS/指令式 语音。

支持的提供商

提供商认证说明
Azure SpeechAZURE_SPEECH_KEY + AZURE_SPEECH_REGION(也支持 AZURE_SPEECH_API_KEYSPEECH_KEYSPEECH_REGION原生 Ogg/Opus 语音便笺输出和电话。
DeepInfraDEEPINFRA_API_KEY兼容 OpenAI 的 TTS。默认使用 hexgrad/Kokoro-82M
ElevenLabsELEVENLABS_API_KEYXI_API_KEY语音克隆、多语言、可通过 seed 实现确定性。
Google GeminiGEMINI_API_KEYGOOGLE_API_KEYGemini API TTS;可通过 promptTemplate: "audio-profile-v1" 感知角色。
GradiumGRADIUM_API_KEY语音便笺和电话输出。
InworldINWORLD_API_KEY流式 TTS API。原生 Opus 语音便笺和 PCM 电话。
Local CLI运行一个已配置的本地 TTS 命令。
Microsoft通过 node-edge-tts 使用公开的 Edge 神经 TTS。尽力而为,无 SLA。
MiniMaxMINIMAX_API_KEY(或 Token 方案:MINIMAX_OAUTH_TOKENMINIMAX_CODE_PLAN_KEYMINIMAX_CODING_API_KEYT2A v2 API。默认使用 speech-2.8-hd
OpenAIOPENAI_API_KEY也用于自动摘要;支持角色 instructions
OpenRouterOPENROUTER_API_KEY(可复用 models.providers.openrouter.apiKey默认模型 hexgrad/kokoro-82m
VolcengineVOLCENGINE_TTS_API_KEYBYTEPLUS_SEED_SPEECH_API_KEY(旧版 AppID/token:VOLCENGINE_TTS_APPID/_TOKENBytePlus Seed Speech HTTP API。
VydraVYDRA_API_KEY图像、视频和语音的共享提供商。
xAIXAI_API_KEYxAI 批量 TTS。不支持原生 Opus 语音便笺。
Xiaomi MiMoXIAOMI_API_KEY通过小米聊天完成接口提供 MiMo TTS。
如果配置了多个提供商,将首先使用当前选中的那个,其余作为回退选项。自动摘要使用 summaryModel(或 agents.defaults.model.primary),因此如果你保持摘要功能开启,该提供商也必须已完成认证。
捆绑的 Microsoft 提供商通过 node-edge-tts 使用 Microsoft Edge 的在线神经 TTS 服务。这是一个公开的 Web 服务,没有公布的 SLA 或配额——请将其视为尽力而为。旧的提供商 id edge 会被 规范化为 microsoft,并且 openclaw doctor --fix 会重写持久化的 配置;新配置应始终使用 microsoft

配置

TTS 配置位于 ~/.openclaw/openclaw.jsonmessages.tts 下。选择一个 预设并调整提供商块:
{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          apiKey: "${AZURE_SPEECH_KEY}",
          region: "eastus",
          voice: "en-US-JennyNeural",
          lang: "en-US",
          outputFormat: "audio-24khz-48kbitrate-mono-mp3",
          voiceNoteOutputFormat: "ogg-24khz-16bit-mono-opus",
        },
      },
    },
  },
}

按代理覆盖语音

当某个代理应使用不同的提供商、语音、模型、角色或自动 TTS 模式时,使用 agents.list[].tts。代理块会在 messages.tts 之上进行深度合并,因此提供商凭据可以保留在全局提供商配置中:
{
  messages: {
    tts: {
      auto: "always",
      provider: "elevenlabs",
      providers: {
        elevenlabs: { apiKey: "${ELEVENLABS_API_KEY}", model: "eleven_multilingual_v2" },
      },
    },
  },
  agents: {
    list: [
      {
        id: "reader",
        tts: {
          providers: {
            elevenlabs: { voiceId: "EXAVITQu4vr4xnSDxMaL" },
          },
        },
      },
    ],
  },
}
若要为某个代理固定角色,请在提供商配置旁设置 agents.list[].tts.persona——它只会覆盖该代理的全局 messages.tts.persona 自动回复、/tts audio/tts status 以及 tts 代理工具的优先级顺序为:
  1. messages.tts
  2. 当前激活的 agents.list[].tts
  3. 频道覆盖,当频道支持 channels.<channel>.tts
  4. 账号覆盖,当频道传入 channels.<channel>.accounts.<id>.tts
  5. 本地机器上的 /tts 本地偏好设置
  6. 启用 模型驱动指令 时的内联 [[tts:...]] 指令
频道和账号覆盖使用与 messages.tts 相同的结构,并在较早层之上进行深度合并,因此共享的提供商凭据可以保留在 messages.tts 中,而频道或机器人账号只更改语音、模型、角色或自动模式:
{
  messages: {
    tts: {
      provider: "openai",
      providers: {
        openai: { apiKey: "${OPENAI_API_KEY}", model: "gpt-4o-mini-tts" },
      },
    },
  },
  channels: {
    feishu: {
      accounts: {
        english: {
          tts: {
            providers: {
              openai: { voice: "shimmer" },
            },
          },
        },
      },
    },
  },
}

人设

persona 是一种稳定的口语身份,可在各个提供商之间以确定性方式应用。它可以偏好某个提供商,定义与提供商无关的提示意图,并携带用于声音、模型、提示模板、seed 和语音设置的提供商特定绑定。

最小 persona

{
  messages: {
    tts: {
      auto: "always",
      persona: "narrator",
      personas: {
        narrator: {
          label: "旁白",
          provider: "elevenlabs",
          providers: {
            elevenlabs: { voiceId: "EXAVITQu4vr4xnSDxMaL", modelId: "eleven_multilingual_v2" },
          },
        },
      },
    },
  },
}

完整 persona(提供商无关提示)

{
  messages: {
    tts: {
      auto: "always",
      persona: "alfred",
      personas: {
        alfred: {
          label: "Alfred",
          description: "一位干练、温暖的英式管家叙述者。",
          provider: "google",
          fallbackPolicy: "preserve-persona",
          prompt: {
            profile: "一位出色的英国管家。干练、机智、温暖、迷人、情感表达丰富,绝不千篇一律。",
            scene: "安静的深夜书房。为一位可信赖的操作员进行近距离麦克风叙述。",
            sampleContext: "说话者正在以简洁的自信和干爽的温暖回应一项私人的技术请求。",
            style: "优雅、克制、略带轻松的幽默感。",
            accent: "英式英语。",
            pacing: "节奏适中,带有短暂的戏剧性停顿。",
            constraints: ["不要大声读出配置值。", "不要解释这个 persona。"],
          },
          providers: {
            google: {
              model: "gemini-3.1-flash-tts-preview",
              voiceName: "Algieba",
              promptTemplate: "audio-profile-v1",
            },
            openai: { model: "gpt-4o-mini-tts", voice: "cedar" },
            elevenlabs: {
              voiceId: "voice_id",
              modelId: "eleven_multilingual_v2",
              seed: 42,
              voiceSettings: {
                stability: 0.65,
                similarityBoost: 0.8,
                style: 0.25,
                useSpeakerBoost: true,
                speed: 0.95,
              },
            },
          },
        },
      },
    },
  },
}

Persona 解析

活动 persona 按如下方式确定:
  1. /tts persona <id> 本地偏好(如果已设置)。
  2. messages.tts.persona(如果已设置)。
  3. 不使用 persona。
提供商选择按显式优先运行:
  1. 直接覆盖(CLI、gateway、Talk、允许的 TTS 指令)。
  2. /tts provider <id> 本地偏好。
  3. 活动 persona 的 provider
  4. messages.tts.provider
  5. 注册表自动选择。
对于每次提供商尝试,OpenClaw 按以下顺序合并配置:
  1. messages.tts.providers.<id>
  2. messages.tts.personas.<persona>.providers.<id>
  3. 可信请求覆盖
  4. 允许的模型生成的 TTS 指令覆盖

提供商如何使用 persona 提示

Persona 提示字段(profilescenesampleContextstyleaccentpacingconstraints)是提供商无关的。每个提供商决定如何使用它们:
仅当有效的 Google 提供商配置设置了 promptTemplate: "audio-profile-v1"personaPrompt 时,才会将 persona 提示字段包装进 Gemini TTS 提示结构。 较旧的 audioProfilespeakerName 字段仍会作为 Google 特定的提示文本前置。 位于 [[tts:text]] 块中的内联音频标签,例如 [whispers][laughs], 会保留在 Gemini transcript 中;OpenClaw 不会生成这些标签。
仅当未配置显式的 OpenAI instructions 时,才会将 persona 提示字段映射到请求的 instructions 字段。显式的 instructions 永远优先。
仅使用 personas.<id>.providers.<provider> 下的提供商特定 persona 绑定。 除非提供商实现了自己的 persona 提示映射,否则会忽略 persona 提示字段。

回退策略

fallbackPolicy 控制当某个 persona 对尝试的提供商没有绑定时的行为:
策略行为
preserve-persona默认。 保留提供商无关提示字段;提供商可以使用它们,也可以忽略它们。
provider-defaults在该次尝试中,persona 不会参与提示准备;提供商使用其中性默认值,同时继续回退到其他提供商。
fail跳过该提供商尝试,并返回 reasonCode: "not_configured"personaBinding: "missing"。仍会继续尝试回退提供商。
只有当每个被尝试的提供商都被跳过或失败时,整个 TTS 请求才会失败。

模型驱动的指令

默认情况下,助手可以发出 [[tts:...]] 指令来为单条回复覆盖声音、模型或语速,并可选地使用 [[tts:text]]...[[/tts:text]] 块来加入仅应出现在音频中的表现性提示:
给你。

[[tts:voiceId=pMsXgVXv3BLzUgSXRplE model=eleven_v3 speed=1.1]]
[[tts:text]](笑)把这首歌再读一遍。[[/tts:text]]
messages.tts.auto"tagged" 时,必须使用指令 才会触发音频。 流式块传递会在通道看到它们之前,从可见文本中剥离指令,即使它们被拆分到相邻块中也是如此。 除非 modelOverrides.allowProvider: true,否则 provider=... 会被忽略。 当回复声明 provider=... 时,该指令中的其他键只会由该提供商解析;不支持的键会被剥离并作为 TTS 指令警告报告。 可用的指令键:
  • provider(已注册的提供商 id;需要 allowProvider: true
  • voice / voiceName / voice_name / google_voice / voiceId
  • model / google_model
  • stabilitysimilarityBooststylespeeduseSpeakerBoost
  • vol / volume(MiniMax 音量,0–10)
  • pitch(MiniMax 整数音高,−12 到 12;小数值会被截断)
  • emotion(Volcengine 情感标签)
  • applyTextNormalizationauto|on|off
  • languageCode(ISO 639-1)
  • seed
完全禁用模型覆盖:
{ messages: { tts: { modelOverrides: { enabled: false } } } }
允许切换提供商,同时保持其他参数可配置:
{ messages: { tts: { modelOverrides: { enabled: true, allowProvider: true, allowSeed: false } } } }

Slash 命令

单个命令 /tts。在 Discord 上,OpenClaw 还会注册 /voice,因为 /tts 是内置的 Discord 命令——文本 /tts ... 仍然可用。
/tts off | on | status
/tts chat on | off | default
/tts latest
/tts provider <id>
/tts persona <id> | off
/tts limit <chars>
/tts summary off
/tts audio <text>
命令需要授权发送者(适用 allowlist/owner 规则),并且必须启用 commands.text 或原生命令注册。
行为说明:
  • /tts on 会将本地 TTS 偏好写为 always/tts off 会将其写为 off
  • /tts chat on|off|default 会为当前聊天写入一个会话范围的自动 TTS 覆盖。
  • /tts persona <id> 会写入本地 persona 偏好;/tts persona off 会清除它。
  • /tts latest 会读取当前会话 transcript 中最新的助手回复,并将其一次性作为音频发送。它只会在会话条目上保存该回复的哈希,以抑制重复的语音发送。
  • /tts audio 会生成一次性的音频回复(不会切换 TTS 为开启)。
  • limitsummary 存储在本地偏好中,而不是主配置里。
  • /tts status 会包含最近一次尝试的回退诊断信息——Fallback: <primary> -> <used>Attempts: ...,以及每次尝试的细节(provider:outcome(reasonCode) latency)。
  • 当 TTS 启用时,/status 会显示活动 TTS 模式,以及已配置的提供商、模型、语音和已清理的自定义端点元数据。

每用户偏好

Slash 命令会将本地覆盖写入 prefsPath。默认值为 ~/.openclaw/settings/tts.json;可通过 OPENCLAW_TTS_PREFS 环境变量或 messages.tts.prefsPath 覆盖。
存储字段作用
auto本地自动 TTS 覆盖(alwaysoff 等)
provider本地主提供商覆盖
persona本地 persona 覆盖
maxLength摘要阈值(默认 1500 字符)
summarize摘要开关(默认 true
这些设置会覆盖来自 messages.tts 以及该主机上活动 agents.list[].tts 块的有效配置。

输出格式(固定)

TTS 语音投递由通道能力驱动。通道插件会声明语音风格 TTS 应该向提供商请求原生 voice-note 目标,还是保留普通 audio-file 合成,并仅将兼容输出标记为语音投递。
  • 支持 voice-note 的通道:voice-note 回复优先使用 Opus(ElevenLabs 使用 opus_48000_64,OpenAI 使用 opus)。
    • 48kHz / 64kbps 是语音消息的一个良好折中。
  • 飞书 / WhatsApp:当 voice-note 回复以 MP3/WebM/WAV/M4A 或其他可能的音频文件形式生成时,通道插件会在发送原生语音消息前使用 ffmpeg 将其转码为 48kHz Ogg/Opus。WhatsApp 会通过 Baileys 的 audio 载荷发送结果,并设置 ptt: trueaudio/ogg; codecs=opus。如果转换失败,飞书会收到原始文件作为附件;WhatsApp 则发送失败,而不是发布不兼容的 PTT 载荷。
  • BlueBubbles:保持提供商合成走普通音频文件路径;MP3 和 CAF 输出会被标记为 iMessage 语音备忘录投递。
  • 其他通道:MP3(ElevenLabs 使用 mp3_44100_128,OpenAI 使用 mp3)。
    • 44.1kHz / 128kbps 是语音清晰度的默认平衡。
  • MiniMax:普通音频附件使用 MP3(speech-2.8-hd 模型,32kHz 采样率)。对于通道声明的 voice-note 目标,如果通道支持转码,OpenClaw 会在投递前使用 ffmpeg 将 MiniMax 的 MP3 转码为 48kHz Opus。
  • Xiaomi MiMo:默认使用 MP3,或在配置时使用 WAV。对于通道声明的 voice-note 目标,如果通道支持转码,OpenClaw 会在投递前使用 ffmpeg 将 Xiaomi 的输出转码为 48kHz Opus。
  • 本地 CLI:使用所配置的 outputFormat。voice-note 目标会转换为 Ogg/Opus,电话输出会使用 ffmpeg 转换为原始 16 kHz 单声道 PCM。
  • Google Gemini:Gemini API TTS 返回原始 24kHz PCM。OpenClaw 会将其封装为 WAV 用于音频附件,将其转码为 48kHz Opus 用于 voice-note 目标,并为 Talk/电话直接返回 PCM。
  • Gradium:音频附件使用 WAV,voice-note 目标使用 Opus,电话使用 8 kHz 的 ulaw_8000
  • Inworld:普通音频附件使用 MP3,voice-note 目标使用原生 OGG_OPUS,而 Talk/电话使用 22050 Hz 的原始 PCM
  • xAI:默认使用 MP3;responseFormat 可以是 mp3wavpcmmulawalaw。OpenClaw 使用 xAI 的批量 REST TTS 端点并返回完整的音频附件;此提供商路径不使用 xAI 的流式 TTS WebSocket。此路径不支持原生 Opus voice-note 格式。
  • Microsoft:使用 microsoft.outputFormat(默认 audio-24khz-48kbitrate-mono-mp3)。
    • 捆绑的传输接受 outputFormat,但服务端并非所有格式都可用。
    • 输出格式值遵循 Microsoft Speech 输出格式(包括 Ogg/WebM Opus)。
    • Telegram sendVoice 接受 OGG/MP3/M4A;如果你需要保证 Opus 语音消息,请使用 OpenAI/ElevenLabs。
    • 如果配置的 Microsoft 输出格式失败,OpenClaw 会回退重试 MP3。
OpenAI/ElevenLabs 的输出格式按通道固定(见上文)。

Auto-TTS 行为

当启用 messages.tts.auto 时,OpenClaw 会:
  • 如果回复已经包含媒体或 MEDIA: 指令,则跳过 TTS。
  • 跳过非常短的回复(少于 10 个字符)。
  • 当启用摘要时,使用 summaryModel(或 agents.defaults.model.primary)对长回复进行摘要。
  • 将生成的音频附加到回复中。
  • mode: "final" 下,仍然会在文本流完成后,为流式最终回复发送仅音频的 TTS;生成的媒体会像普通回复附件一样经过相同的 channel media 规范化处理。
如果回复超过 maxLength 且摘要关闭(或摘要模型没有 API key),则会跳过音频并发送普通文本回复。
Reply -> TTS enabled?
  no  -> send text
  yes -> has media / MEDIA: / short?
          yes -> send text
          no -> length > limit?
                   no  -> TTS -> attach audio
                   yes -> summary enabled?
                            no  -> send text
                            yes -> summarize -> TTS -> attach audio

各 channel 的输出格式

目标格式
Feishu / Matrix / Telegram / WhatsApp语音笔记回复优先使用 Opus(ElevenLabs 的 opus_48000_64,OpenAI 的 opus)。48 kHz / 64 kbps 在清晰度和体积之间取得平衡。
其他 channelsMP3(ElevenLabs 的 mp3_44100_128,OpenAI 的 mp3)。44.1 kHz / 128 kbps 是语音的默认值。
Talk / telephony提供方原生 PCM(Inworld 22050 Hz,Google 24 kHz),或 Gradium 的 ulaw_8000 用于 telephony。
各提供方说明:
  • Feishu / WhatsApp 转码: 当语音笔记回复以 MP3/WebM/WAV/M4A 形式落地时,channel 插件会使用 ffmpeg 转码为 48 kHz Ogg/Opus。WhatsApp 通过 Baileys 发送,使用 ptt: trueaudio/ogg; codecs=opus。如果转换失败:Feishu 会回退为附加原始文件;WhatsApp 则发送失败,而不是发布不兼容的 PTT payload。
  • MiniMax / Xiaomi MiMo: 默认输出 MP3(MiniMax 的 speech-2.8-hd 为 32 kHz);针对语音笔记目标会通过 ffmpeg 转码为 48 kHz Opus。
  • 本地 CLI: 使用配置的 outputFormat。语音笔记目标会转换为 Ogg/Opus,telephony 输出会转换为原始 16 kHz 单声道 PCM。
  • Google Gemini: 返回原始 24 kHz PCM。OpenClaw 会将其包装为 WAV 用于附件,对语音笔记目标转码为 48 kHz Opus,对 Talk/telephony 则直接返回 PCM。
  • Inworld: MP3 附件,原生 OGG_OPUS 语音笔记,Talk/telephony 使用原始 PCM 22050 Hz。
  • xAI: 默认 MP3;responseFormat 可为 mp3|wav|pcm|mulaw|alaw。使用 xAI 的批量 REST 端点——使用 streaming WebSocket TTS。支持原生 Opus 语音笔记格式。
  • Microsoft: 使用 microsoft.outputFormat(默认 audio-24khz-48kbitrate-mono-mp3)。Telegram 的 sendVoice 接受 OGG/MP3/M4A;如果你需要保证获得 Opus 语音消息,请使用 OpenAI/ElevenLabs。如果配置的 Microsoft 格式失败,OpenClaw 会重试 MP3。
OpenAI 和 ElevenLabs 的输出格式按上表针对各 channel 固定。

字段参考

auto
"off" | "always" | "inbound" | "tagged"
自动 TTS 模式。inbound 仅在收到传入语音消息后发送音频;tagged 仅在回复包含 [[tts:...]] 指令或 [[tts:text]] 区块时发送音频。
enabled
boolean
deprecated
旧版开关。openclaw doctor --fix 会将其迁移为 auto
mode
"final" | "all"
default:"final"
"all" 除最终回复外,还包括 tool/block 回复。
provider
string
语音提供方 id。未设置时,OpenClaw 会使用注册表自动选择顺序中的第一个已配置提供方。旧的 provider: "edge" 会被 openclaw doctor --fix 重写为 "microsoft"
persona
string
来自 personas 的当前角色 id。会规范化为小写。
personas.<id>
object
稳定的口语身份。字段:labeldescriptionproviderfallbackPolicypromptproviders.<provider>。见 Personas
summaryModel
string
用于自动摘要的便宜模型;默认值为 agents.defaults.model.primary。接受 provider/model 或已配置的模型别名。
modelOverrides
object
允许模型发出 TTS 指令。enabled 默认值为 trueallowProvider 默认值为 false
providers.<id>
object
由语音提供方 id 作为键的、提供方拥有的设置。旧的直接块(messages.tts.openai.elevenlabs.microsoft.edge)会被 openclaw doctor --fix 重写;只提交 messages.tts.providers.<id>
maxTextLength
number
TTS 输入字符的硬上限。超出时 /tts audio 会失败。
timeoutMs
number
请求超时时间(毫秒)。
prefsPath
string
覆盖本地 prefs JSON 路径(provider/limit/summary)。默认 ~/.openclaw/settings/tts.json
apiKey
string
环境变量:AZURE_SPEECH_KEYAZURE_SPEECH_API_KEYSPEECH_KEY
region
string
Azure Speech 区域(例如 eastus)。环境变量:AZURE_SPEECH_REGIONSPEECH_REGION
endpoint
string
可选的 Azure Speech 端点覆盖(别名 baseUrl)。
voice
string
Azure voice ShortName。默认 en-US-JennyNeural
lang
string
SSML 语言代码。默认 en-US
outputFormat
string
标准音频使用的 Azure X-Microsoft-OutputFormat。默认 audio-24khz-48kbitrate-mono-mp3
voiceNoteOutputFormat
string
语音笔记输出使用的 Azure X-Microsoft-OutputFormat。默认 ogg-24khz-16bit-mono-opus
apiKey
string
回退到 ELEVENLABS_API_KEYXI_API_KEY
model
string
模型 id(例如 eleven_multilingual_v2eleven_v3)。
voiceId
string
ElevenLabs voice id。
voiceSettings
object
stabilitysimilarityBooststyle(均为 0..1)、useSpeakerBoosttrue|false)、speed0.5..2.01.0 = 正常)。
applyTextNormalization
"auto" | "on" | "off"
文本规范化模式。
languageCode
string
2 位 ISO 639-1 代码(例如 ende)。
seed
number
整数 0..4294967295,用于尽力而为的确定性。
baseUrl
string
覆盖 ElevenLabs API 基础 URL。
apiKey
string
回退到 GEMINI_API_KEY / GOOGLE_API_KEY。如果省略,在环境变量回退前,TTS 可以复用 models.providers.google.apiKey
model
string
Gemini TTS 模型。默认 gemini-3.1-flash-tts-preview
voiceName
string
Gemini 预置 voice 名称。默认 Kore。别名:voice
audioProfile
string
在发声文本之前预置的自然语言风格提示词。
speakerName
string
当你的提示词使用命名说话人时,可选地在发声文本之前预置说话人标签。
promptTemplate
"audio-profile-v1"
设置为 audio-profile-v1,以将当前 persona 提示字段封装到确定性的 Gemini TTS 提示结构中。
personaPrompt
string
Google 特定的额外 persona 提示文本,会附加到模板的 Director’s Notes 中。
baseUrl
string
仅接受 https://generativelanguage.googleapis.com
apiKey
string
环境变量:GRADIUM_API_KEY
baseUrl
string
默认 https://api.gradium.ai
voiceId
string
默认 Emma(YTpq7expH9539ERJ)。

Inworld 主配置

apiKey
string
环境变量:INWORLD_API_KEY
baseUrl
string
默认 https://api.inworld.ai
modelId
string
默认 inworld-tts-1.5-max。此外还有:inworld-tts-1.5-miniinworld-tts-1-maxinworld-tts-1
voiceId
string
默认 Sarah
temperature
number
采样温度 0..2
command
string
用于 CLI TTS 的本地可执行文件或命令字符串。
args
string[]
命令参数。支持 {{Text}}{{OutputPath}}{{OutputDir}}{{OutputBase}} 占位符。
outputFormat
"mp3" | "opus" | "wav"
预期的 CLI 输出格式。音频附件默认使用 mp3
timeoutMs
number
命令超时时间(毫秒)。默认 120000
cwd
string
可选的命令工作目录。
env
Record<string, string>
命令的可选环境变量覆盖。
enabled
boolean
default:"true"
允许使用 Microsoft 语音。
voice
string
Microsoft 神经 voice 名称(例如 en-US-MichelleNeural)。
lang
string
语言代码(例如 en-US)。
outputFormat
string
Microsoft 输出格式。默认 audio-24khz-48kbitrate-mono-mp3。并非所有格式都受内置 Edge 后端传输支持。
rate / pitch / volume
string
百分比字符串(例如 +10%-5%)。
saveSubtitles
boolean
将 JSON 字幕写入音频文件旁边。
proxy
string
Microsoft 语音请求的代理 URL。
timeoutMs
number
请求超时覆盖(毫秒)。
edge.*
object
deprecated
旧别名。运行 openclaw doctor --fix 将持久化配置重写为 providers.microsoft
apiKey
string
回退到 MINIMAX_API_KEY。Token Plan 认证可通过 MINIMAX_OAUTH_TOKENMINIMAX_CODE_PLAN_KEYMINIMAX_CODING_API_KEY
baseUrl
string
默认 https://api.minimax.io。环境变量:MINIMAX_API_HOST
model
string
默认 speech-2.8-hd。环境变量:MINIMAX_TTS_MODEL
voiceId
string
默认 English_expressive_narrator。环境变量:MINIMAX_TTS_VOICE_ID
speed
number
0.5..2.0。默认 1.0
vol
number
(0, 10]。默认 1.0
pitch
number
整数 -12..12。默认 0。小数值会在请求前被截断。
apiKey
string
回退到 OPENAI_API_KEY
model
string
OpenAI TTS 模型 id(例如 gpt-4o-mini-tts)。
voice
string
Voice 名称(例如 alloycedar)。
instructions
string
显式的 OpenAI instructions 字段。设置后,persona 提示字段不会自动映射。
extraBody / extra_body
Record<string, unknown>
额外的 JSON 字段,会在生成 OpenAI TTS 字段后合并到 /audio/speech 请求体中。可用于 OpenAI 兼容端点(如 Kokoro)需要的提供方特定键,例如 lang;不安全的 prototype 键会被忽略。
baseUrl
string
覆盖 OpenAI TTS 端点。解析顺序:config → OPENAI_TTS_BASE_URLhttps://api.openai.com/v1。非默认值会被视为 OpenAI 兼容的 TTS 端点,因此会接受自定义模型和 voice 名称。
apiKey
string
环境变量:OPENROUTER_API_KEY。可复用 models.providers.openrouter.apiKey
baseUrl
string
默认 https://openrouter.ai/api/v1。旧的 https://openrouter.ai/v1 会被规范化。
model
string
默认 hexgrad/kokoro-82m。别名:modelId
voice
string
默认 af_alloy。别名:voiceId
responseFormat
"mp3" | "pcm"
默认 mp3
speed
number
提供方原生速度覆盖。
apiKey
string
环境变量:VOLCENGINE_TTS_API_KEYBYTEPLUS_SEED_SPEECH_API_KEY
resourceId
string
默认 seed-tts-1.0。环境变量:VOLCENGINE_TTS_RESOURCE_ID。如果你的项目拥有 TTS 2.0 许可,请使用 seed-tts-2.0
appKey
string
应用 key header。默认 aGjiRDfUWi。环境变量:VOLCENGINE_TTS_APP_KEY
baseUrl
string
覆盖 Seed Speech TTS HTTP 端点。环境变量:VOLCENGINE_TTS_BASE_URL
voice
string
voice 类型。默认 en_female_anna_mars_bigtts。环境变量:VOLCENGINE_TTS_VOICE
speedRatio
number
提供方原生速度比率。
emotion
string
提供方原生情感标签。
appId / token / cluster
string
deprecated
旧的 Volcengine Speech Console 字段。环境变量:VOLCENGINE_TTS_APPIDVOLCENGINE_TTS_TOKENVOLCENGINE_TTS_CLUSTER(默认 volcano_tts)。
apiKey
string
环境变量:XAI_API_KEY
baseUrl
string
默认 https://api.x.ai/v1。环境变量:XAI_BASE_URL
voiceId
string
默认 eve。可用 voice:araeveleorexsaluna
language
string
BCP-47 语言代码或 auto。默认 en
responseFormat
"mp3" | "wav" | "pcm" | "mulaw" | "alaw"
默认 mp3
speed
number
提供方原生速度覆盖。
apiKey
string
环境变量:XIAOMI_API_KEY
baseUrl
string
默认 https://api.xiaomimimo.com/v1。环境变量:XIAOMI_BASE_URL
model
string
默认 mimo-v2.5-tts。环境变量:XIAOMI_TTS_MODEL。也支持 mimo-v2-tts
voice
string
默认 mimo_default。环境变量:XIAOMI_TTS_VOICE
format
"mp3" | "wav"
默认 mp3。环境变量:XIAOMI_TTS_FORMAT
style
string
可选的自然语言风格指令,会作为用户消息发送;不会被朗读出来。

Agent 工具

tts 工具将文本转换为语音,并返回一个音频附件用于 回复传递。在飞书、Matrix、Telegram 和 WhatsApp 上,音频会 以语音消息而不是文件附件的形式发送。飞书和 WhatsApp 可以在 ffmpeg 可用时,将非 Opus 的 TTS 输出在此路径上转码。 WhatsApp 通过 Baileys 将音频作为 PTT 语音备注发送(audioptt: true),并且会单独发送可见文本,而不是与 PTT 音频一起发送, 因为客户端对语音备注上的字幕渲染并不稳定。 该工具接受可选的 channeltimeoutMs 字段;timeoutMs 是 单次调用的提供方请求超时时间,单位为毫秒。

Gateway RPC

方法作用
tts.status读取当前 TTS 状态和上次尝试。
tts.enable将本地自动偏好设置为 always
tts.disable将本地自动偏好设置为 off
tts.convert一次性文本 → 音频。
tts.setProvider设置本地提供方偏好。
tts.setPersona设置本地人格偏好。
tts.providers列出已配置的提供方及其状态。

服务链接

相关内容