Deepgram 是一个语音转文字 API。在 OpenClaw 中,它通过Documentation Index
Fetch the complete documentation index at: https://openclaw.zhcndoc.com/llms.txt
Use this file to discover all available pages before exploring further.
tools.media.audio 用于入站
音频/语音笔记转录,并通过 plugins.entries.voice-call.config.streaming
用于 Voice Call 流式 STT。
对于批量转录,OpenClaw 会将完整音频文件上传到 Deepgram,
并将转录文本注入回复流水线({{Transcript}} +
[Audio] 块)。对于 Voice Call 流式传输,OpenClaw 会通过 Deepgram 的 WebSocket listen
端点转发实时 G.711
u-law 帧,并在 Deepgram 返回部分或
完整转录时进行输出。
| 详情 | 值 |
|---|---|
| 网站 | deepgram.com |
| 文档 | developers.deepgram.com |
| 认证 | DEEPGRAM_API_KEY |
| 默认模型 | nova-3 |
入门
配置选项
| 选项 | 路径 | 描述 |
|---|---|---|
model | tools.media.audio.models[].model | Deepgram 模型 id(默认:nova-3) |
language | tools.media.audio.models[].language | 语言提示(可选) |
detect_language | tools.media.audio.providerOptions.deepgram.detect_language | 启用语言检测(可选) |
punctuate | tools.media.audio.providerOptions.deepgram.punctuate | 启用标点(可选) |
smart_format | tools.media.audio.providerOptions.deepgram.smart_format | 启用智能格式化(可选) |
- 使用语言提示
- 使用 Deepgram 选项
Voice Call 流式 STT
内置的deepgram 插件还会为 Voice Call 插件注册一个实时转录提供方。
| 设置 | 配置路径 | 默认值 |
|---|---|---|
| API key | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey | 回退到 DEEPGRAM_API_KEY |
| 模型 | ...deepgram.model | nova-3 |
| 语言 | ...deepgram.language | (未设置) |
| 编码 | ...deepgram.encoding | mulaw |
| 采样率 | ...deepgram.sampleRate | 8000 |
| 端点检测 | ...deepgram.endpointingMs | 800 |
| 中间结果 | ...deepgram.interimResults | true |
Voice Call 接收的是 8 kHz G.711 u-law 电话音频。Deepgram
流式提供方默认使用
encoding: "mulaw" 和 sampleRate: 8000,因此
Twilio 媒体帧可以直接转发。说明
认证
认证
认证遵循标准的提供方认证顺序。
DEEPGRAM_API_KEY 是
最简单的方式。代理和自定义端点
代理和自定义端点
在使用代理时,可使用
tools.media.audio.baseUrl 和 tools.media.audio.headers
覆盖端点或请求头。输出行为
输出行为
输出遵循与其他提供方相同的音频规则(大小限制、超时、
转录注入)。
相关内容
媒体工具
音频、图像和视频处理流水线概览。
配置
包括媒体工具设置在内的完整配置参考。
故障排查
常见问题和调试步骤。
FAQ
关于 OpenClaw 设置的常见问题。