Azure Speech - OpenClaw 中文文档

Azure Speech 是一个 Azure AI Speech 文本转语音提供程序。在 OpenClaw 中，它默认将外发回复音频合成为 MP3，语音笔记使用原生 Ogg/Opus，并为电话通道（例如 Voice Call）提供 8 kHz mulaw 音频。 OpenClaw 直接使用带有 SSML 的 Azure Speech REST API，并通过 X-Microsoft-OutputFormat 发送提供程序拥有的输出格式。

详情	值
网站	Azure AI Speech
文档	Speech REST 文本转语音
认证	`AZURE_SPEECH_KEY` 加上 `AZURE_SPEECH_REGION`
默认语音	`en-US-JennyNeural`
默认文件输出	`audio-24khz-48kbitrate-mono-mp3`
默认语音笔记文件	`ogg-24khz-16bit-mono-opus`

开始使用

创建 Azure Speech 资源

在 Azure 门户中，创建一个 Speech 资源。从 Resource Management > Keys and Endpoint 中复制 KEY 1，并复制资源位置例如 eastus。

AZURE_SPEECH_KEY=<speech-resource-key>
AZURE_SPEECH_REGION=eastus

在 messages.tts 中选择 Azure Speech

{
  messages: {
    tts: {
      auto: "always",
      provider: "azure-speech",
      providers: {
        "azure-speech": {
          speakerVoice: "en-US-JennyNeural",
          lang: "en-US",
        },
      },
    },
  },
}

发送消息

通过任意已连接的通道发送回复。OpenClaw 使用 Azure Speech 合成音频，标准音频发送 MP3，而当通道期望语音笔记时则发送 Ogg/Opus。

配置选项

选项	路径	描述
`apiKey`	`messages.tts.providers.azure-speech.apiKey`	Azure Speech 资源密钥。回退到 `AZURE_SPEECH_KEY`、`AZURE_SPEECH_API_KEY` 或 `SPEECH_KEY`。
`region`	`messages.tts.providers.azure-speech.region`	Azure Speech 资源区域。回退到 `AZURE_SPEECH_REGION` 或 `SPEECH_REGION`。
`endpoint`	`messages.tts.providers.azure-speech.endpoint`	可选的 Azure Speech 端点/基础 URL 覆盖。
`baseUrl`	`messages.tts.providers.azure-speech.baseUrl`	可选的 Azure Speech 基础 URL 覆盖。
`speakerVoice`	`messages.tts.providers.azure-speech.speakerVoice`	Azure 语音 ShortName（默认 `en-US-JennyNeural`）。旧别名：`voice`。
`lang`	`messages.tts.providers.azure-speech.lang`	SSML 语言代码（默认 `en-US`）。
`outputFormat`	`messages.tts.providers.azure-speech.outputFormat`	音频文件输出格式（默认 `audio-24khz-48kbitrate-mono-mp3`）。
`voiceNoteOutputFormat`	`messages.tts.providers.azure-speech.voiceNoteOutputFormat`	语音笔记输出格式（默认 `ogg-24khz-16bit-mono-opus`）。

说明

身份验证

Azure Speech 使用 Speech 资源密钥，而不是 Azure OpenAI 密钥。该密钥会作为 Ocp-Apim-Subscription-Key 发送；OpenClaw 会根据 region 推导出 https://<region>.tts.speech.microsoft.com，除非你提供 endpoint 或 baseUrl。

语音名称

使用 Azure Speech 语音的 ShortName 值，例如 en-US-JennyNeural。内置提供程序可以通过同一个 Speech 资源列出语音，并过滤标记为已弃用或已退役的语音。

音频输出

Azure 接受诸如 audio-24khz-48kbitrate-mono-mp3、 ogg-24khz-16bit-mono-opus 和 riff-24khz-16bit-mono-pcm 的输出格式。OpenClaw 会为 voice-note 目标请求 Ogg/Opus，因此通道可以直接发送原生语音气泡，而无需额外的 MP3 转换。

别名

azure 可作为现有 PR 和用户配置的提供程序别名被接受，但新配置应使用 azure-speech，以避免与 Azure OpenAI 模型提供程序混淆。

文本转语音

TTS 概览、提供程序以及 messages.tts 配置。

配置

完整的配置参考，包括 messages.tts 设置。

提供程序

所有捆绑的 OpenClaw 提供程序。

故障排除

常见问题和调试步骤。

​开始使用

​配置选项

​说明

​相关内容

文本转语音

配置

提供程序

故障排除

开始使用

配置选项

说明

相关内容