Deepgram
Deepgram 是一个语音转文本 API。在 OpenClaw 中,它用于通过 tools.media.audio 进行入站音频/语音笔记转录,以及通过 plugins.entries.voice-call.config.streaming 进行语音通话流式 STT。
对于批量转录,OpenClaw 会将完整的音频文件上传到 Deepgram,并将转录文本注入到回复管道中({{Transcript}} +
[Audio] 块)。对于语音通话流式传输,OpenClaw 通过 Deepgram 的 WebSocket listen 端点转发实时 G.711 u-law 帧,并在 Deepgram 返回时发出部分或最终转录文本。
| 详情 | 值 |
|---|---|
| 网站 | deepgram.com |
| 文档 | developers.deepgram.com |
| 认证 | DEEPGRAM_API_KEY |
| 默认模型 | nova-3 |
设置您的 API 密钥
将您的 Deepgram API 密钥添加到环境中:
DEEPGRAM_API_KEY=dg_...启用音频提供商
{tools: {media: {audio: {enabled: true,models: [{ provider: "deepgram", model: "nova-3" }],},},},}发送语音笔记
通过任何连接的渠道发送音频消息。OpenClaw 会通过 Deepgram 将其转录,并将转录文本注入到回复管道中。
| 选项 | 路径 | 描述 |
|---|---|---|
model | tools.media.audio.models[].model | Deepgram 模型 ID(默认:nova-3) |
language | tools.media.audio.models[].language | 语言提示(可选) |
detect_language | tools.media.audio.providerOptions.deepgram.detect_language | 启用语言检测(可选) |
punctuate | tools.media.audio.providerOptions.deepgram.punctuate | 启用标点符号(可选) |
smart_format | tools.media.audio.providerOptions.deepgram.smart_format | 启用智能格式(可选) |
{ tools: { media: { audio: { enabled: true, models: [{ provider: "deepgram", model: "nova-3", language: "en" }], }, }, },}{ tools: { media: { audio: { enabled: true, providerOptions: { deepgram: { detect_language: true, punctuate: true, smart_format: true, }, }, models: [{ provider: "deepgram", model: "nova-3" }], }, }, },}语音通话流式 STT
Section titled “语音通话流式 STT”捆绑的 deepgram 插件还为语音通话插件注册了一个实时转录提供商。
| 设置 | 配置路径 | 默认值 |
|---|---|---|
| API 密钥 | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey | 回退到 DEEPGRAM_API_KEY |
| 模型 | ...deepgram.model | nova-3 |
| 语言 | ...deepgram.language | (未设置) |
| 编码 | ...deepgram.encoding | mulaw |
| 采样率 | ...deepgram.sampleRate | 8000 |
| 端点检测 | ...deepgram.endpointingMs | 800 |
| 临时结果 | ...deepgram.interimResults | true |
{ plugins: { entries: { "voice-call": { config: { streaming: { enabled: true, provider: "deepgram", providers: { deepgram: { apiKey: "${DEEPGRAM_API_KEY}", model: "nova-3", endpointingMs: 800, language: "en-US", }, }, }, }, }, }, },}身份验证
身份验证遵循标准提供商身份验证顺序。DEEPGRAM_API_KEY 是 最简单的路径。
代理和自定义端点
使用代理时,可以通过 tools.media.audio.baseUrl 和 tools.media.audio.headers 覆盖端点或标头。
输出行为
输出遵循与其他提供商相同的音频规则(大小上限、超时、 转录注入)。
媒体工具
音频、图像和视频处理管道概述。
配置
包括媒体工具设置的完整配置参考。
故障排除
常见问题和调试步骤。
常见问题
关于 OpenClaw 设置的常见问题。