Ir al contenido

Deepgram

Deepgram es una API de voz a texto. En OpenClaw se utiliza para la transcripción de audio/notas de voz entrantes a través de tools.media.audio y para STT de streaming de llamadas de voz a través de plugins.entries.voice-call.config.streaming.

Para la transcripción por lotes, OpenClaw carga el archivo de audio completo en Deepgram e inyecta la transcripción en la canalización de respuesta (bloque {{Transcript}} + [Audio]). Para el streaming de llamadas de voz, OpenClaw reenvía tramas u-law G.711 en vivo a través del endpoint WebSocket listen de Deepgram y emite transcripciones parciales o finales a medida que Deepgram las devuelve.

DetalleValor
Sitio webdeepgram.com
Documentacióndevelopers.deepgram.com
AutenticaciónDEEPGRAM_API_KEY
Modelo predeterminadonova-3
  1. Establezca su clave de API

    Añada su clave de API de Deepgram al entorno:

    DEEPGRAM_API_KEY=dg_...
  2. Habilite el proveedor de audio

    {
    tools: {
    media: {
    audio: {
    enabled: true,
    models: [{ provider: "deepgram", model: "nova-3" }],
    },
    },
    },
    }
  3. Envíe una nota de voz

    Envíe un mensaje de audio a través de cualquier canal conectado. OpenClaw lo transcribe a través de Deepgram e inyecta la transcripción en la canalización de respuesta.

OpciónRutaDescripción
modeltools.media.audio.models[].modelID del modelo de Deepgram (predeterminado: nova-3)
languagetools.media.audio.models[].languageSugerencia de idioma (opcional)
detect_languagetools.media.audio.providerOptions.deepgram.detect_languageHabilitar detección de idioma (opcional)
punctuatetools.media.audio.providerOptions.deepgram.punctuateHabilitar puntuación (opcional)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatHabilitar formato inteligente (opcional)
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
},
},
},
}

El complemento deepgram incluido también registra un proveedor de transcripción en tiempo real para el complemento Voice Call.

ConfiguraciónRuta de configuraciónPredeterminado
API keyplugins.entries.voice-call.config.streaming.providers.deepgram.apiKeyRecae en DEEPGRAM_API_KEY
Modelo...deepgram.modelnova-3
Idioma...deepgram.language(sin establecer)
Codificación...deepgram.encodingmulaw
Tasa de muestreo...deepgram.sampleRate8000
Endpointing...deepgram.endpointingMs800
Resultados provisionales...deepgram.interimResultstrue
{
plugins: {
entries: {
"voice-call": {
config: {
streaming: {
enabled: true,
provider: "deepgram",
providers: {
deepgram: {
apiKey: "${DEEPGRAM_API_KEY}",
model: "nova-3",
endpointingMs: 800,
language: "en-US",
},
},
},
},
},
},
},
}

Autenticación

La autenticación sigue el orden de autenticación de proveedores estándar. DEEPGRAM_API_KEY es la ruta más sencilla.

Proxy y endpoints personalizados

Anule los endpoints o los encabezados con tools.media.audio.baseUrl y tools.media.audio.headers al usar un proxy.

Comportamiento de salida

La salida sigue las mismas reglas de audio que otros proveedores (límites de tamaño, tiempos de espera, inyección de transcripciones).

Herramientas multimedia

Resumen de la canalización de procesamiento de audio, imagen y video.

Configuración

Referencia completa de configuración, incluida la configuración de herramientas multimedia.

Solución de problemas

Problemas comunes y pasos de depuración.

Preguntas frecuentes

Preguntas frecuentes sobre la configuración de OpenClaw.