Skip to main content

Documentation Index

Fetch the complete documentation index at: https://openclaw.zhcndoc.com/llms.txt

Use this file to discover all available pages before exploring further.

Deepgram 是一个语音转文字 API。在 OpenClaw 中,它通过 tools.media.audio 用于入站 音频/语音笔记转录,并通过 plugins.entries.voice-call.config.streaming 用于 Voice Call 流式 STT。 对于批量转录,OpenClaw 会将完整音频文件上传到 Deepgram, 并将转录文本注入回复流水线({{Transcript}} + [Audio] 块)。对于 Voice Call 流式传输,OpenClaw 会通过 Deepgram 的 WebSocket listen 端点转发实时 G.711 u-law 帧,并在 Deepgram 返回部分或 完整转录时进行输出。
详情
网站deepgram.com
文档developers.deepgram.com
认证DEEPGRAM_API_KEY
默认模型nova-3

入门

1

设置你的 API key

将你的 Deepgram API key 添加到环境变量中:
DEEPGRAM_API_KEY=dg_...
2

启用音频提供方

{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3" }],
      },
    },
  },
}
3

发送语音笔记

通过任意已连接的渠道发送音频消息。OpenClaw 会通过 Deepgram 转录它,并将转录文本注入回复流水线。

配置选项

选项路径描述
modeltools.media.audio.models[].modelDeepgram 模型 id(默认:nova-3
languagetools.media.audio.models[].language语言提示(可选)
detect_languagetools.media.audio.providerOptions.deepgram.detect_language启用语言检测(可选)
punctuatetools.media.audio.providerOptions.deepgram.punctuate启用标点(可选)
smart_formattools.media.audio.providerOptions.deepgram.smart_format启用智能格式化(可选)
{
  tools: {
    media: {
      audio: {
        enabled: true,
        models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
      },
    },
  },
}

Voice Call 流式 STT

内置的 deepgram 插件还会为 Voice Call 插件注册一个实时转录提供方。
设置配置路径默认值
API keyplugins.entries.voice-call.config.streaming.providers.deepgram.apiKey回退到 DEEPGRAM_API_KEY
模型...deepgram.modelnova-3
语言...deepgram.language(未设置)
编码...deepgram.encodingmulaw
采样率...deepgram.sampleRate8000
端点检测...deepgram.endpointingMs800
中间结果...deepgram.interimResultstrue
{
  plugins: {
    entries: {
      "voice-call": {
        config: {
          streaming: {
            enabled: true,
            provider: "deepgram",
            providers: {
              deepgram: {
                apiKey: "${DEEPGRAM_API_KEY}",
                model: "nova-3",
                endpointingMs: 800,
                language: "en-US",
              },
            },
          },
        },
      },
    },
  },
}
Voice Call 接收的是 8 kHz G.711 u-law 电话音频。Deepgram 流式提供方默认使用 encoding: "mulaw"sampleRate: 8000,因此 Twilio 媒体帧可以直接转发。

说明

认证遵循标准的提供方认证顺序。DEEPGRAM_API_KEY 是 最简单的方式。
在使用代理时,可使用 tools.media.audio.baseUrltools.media.audio.headers 覆盖端点或请求头。
输出遵循与其他提供方相同的音频规则(大小限制、超时、 转录注入)。

相关内容

媒体工具

音频、图像和视频处理流水线概览。

配置

包括媒体工具设置在内的完整配置参考。

故障排查

常见问题和调试步骤。

FAQ

关于 OpenClaw 设置的常见问题。