跳转到内容

Deepgram

Deepgram 是一个语音转文本 API。在 OpenClaw 中,它用于通过 tools.media.audio 进行入站音频/语音笔记转录,以及通过 plugins.entries.voice-call.config.streaming 进行语音通话流式 STT。

对于批量转录,OpenClaw 会将完整的音频文件上传到 Deepgram,并将转录文本注入到回复管道中({{Transcript}} + [Audio] 块)。对于语音通话流式传输,OpenClaw 通过 Deepgram 的 WebSocket listen 端点转发实时 G.711 u-law 帧,并在 Deepgram 返回时发出部分或最终转录文本。

详情
网站deepgram.com
文档developers.deepgram.com
认证DEEPGRAM_API_KEY
默认模型nova-3
  1. 设置您的 API 密钥

    将您的 Deepgram API 密钥添加到环境中:

    DEEPGRAM_API_KEY=dg_...
  2. 启用音频提供商

    {
    tools: {
    media: {
    audio: {
    enabled: true,
    models: [{ provider: "deepgram", model: "nova-3" }],
    },
    },
    },
    }
  3. 发送语音笔记

    通过任何连接的渠道发送音频消息。OpenClaw 会通过 Deepgram 将其转录,并将转录文本注入到回复管道中。

选项路径描述
modeltools.media.audio.models[].modelDeepgram 模型 ID(默认:nova-3
languagetools.media.audio.models[].language语言提示(可选)
detect_languagetools.media.audio.providerOptions.deepgram.detect_language启用语言检测(可选)
punctuatetools.media.audio.providerOptions.deepgram.punctuate启用标点符号(可选)
smart_formattools.media.audio.providerOptions.deepgram.smart_format启用智能格式(可选)
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
},
},
},
}

捆绑的 deepgram 插件还为语音通话插件注册了一个实时转录提供商。

设置配置路径默认值
API 密钥plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey回退到 DEEPGRAM_API_KEY
模型...deepgram.modelnova-3
语言...deepgram.language(未设置)
编码...deepgram.encodingmulaw
采样率...deepgram.sampleRate8000
端点检测...deepgram.endpointingMs800
临时结果...deepgram.interimResultstrue
{
plugins: {
entries: {
"voice-call": {
config: {
streaming: {
enabled: true,
provider: "deepgram",
providers: {
deepgram: {
apiKey: "${DEEPGRAM_API_KEY}",
model: "nova-3",
endpointingMs: 800,
language: "en-US",
},
},
},
},
},
},
},
}

身份验证

身份验证遵循标准提供商身份验证顺序。DEEPGRAM_API_KEY 是 最简单的路径。

代理和自定义端点

使用代理时,可以通过 tools.media.audio.baseUrltools.media.audio.headers 覆盖端点或标头。

输出行为

输出遵循与其他提供商相同的音频规则(大小上限、超时、 转录注入)。

媒体工具

音频、图像和视频处理管道概述。

配置

包括媒体工具设置的完整配置参考。

故障排除

常见问题和调试步骤。

常见问题

关于 OpenClaw 设置的常见问题。