Deepgram
Deepgram es una API de voz a texto. En OpenClaw se utiliza para la transcripción
de audio/notas de voz entrantes a través de tools.media.audio y para STT de
streaming de llamadas de voz a través de plugins.entries.voice-call.config.streaming.
Para la transcripción por lotes, OpenClaw carga el archivo de audio completo en
Deepgram e inyecta la transcripción en la canalización de respuesta (bloque {{Transcript}} +
[Audio]). Para el streaming de llamadas de voz, OpenClaw reenvía tramas
u-law G.711 en vivo a través del endpoint WebSocket listen de Deepgram y emite transcripciones
parciales o finales a medida que Deepgram las devuelve.
| Detalle | Valor |
|---|---|
| Sitio web | deepgram.com |
| Documentación | developers.deepgram.com |
| Autenticación | DEEPGRAM_API_KEY |
| Modelo predeterminado | nova-3 |
Primeros pasos
Sección titulada «Primeros pasos»Establezca su clave de API
Añada su clave de API de Deepgram al entorno:
DEEPGRAM_API_KEY=dg_...Habilite el proveedor de audio
{tools: {media: {audio: {enabled: true,models: [{ provider: "deepgram", model: "nova-3" }],},},},}Envíe una nota de voz
Envíe un mensaje de audio a través de cualquier canal conectado. OpenClaw lo transcribe a través de Deepgram e inyecta la transcripción en la canalización de respuesta.
Opciones de configuración
Sección titulada «Opciones de configuración»| Opción | Ruta | Descripción |
|---|---|---|
model | tools.media.audio.models[].model | ID del modelo de Deepgram (predeterminado: nova-3) |
language | tools.media.audio.models[].language | Sugerencia de idioma (opcional) |
detect_language | tools.media.audio.providerOptions.deepgram.detect_language | Habilitar detección de idioma (opcional) |
punctuate | tools.media.audio.providerOptions.deepgram.punctuate | Habilitar puntuación (opcional) |
smart_format | tools.media.audio.providerOptions.deepgram.smart_format | Habilitar formato inteligente (opcional) |
{ tools: { media: { audio: { enabled: true, models: [{ provider: "deepgram", model: "nova-3", language: "en" }], }, }, },}{ tools: { media: { audio: { enabled: true, providerOptions: { deepgram: { detect_language: true, punctuate: true, smart_format: true, }, }, models: [{ provider: "deepgram", model: "nova-3" }], }, }, },}STT de transmisión de llamada de voz
Sección titulada «STT de transmisión de llamada de voz»El complemento deepgram incluido también registra un proveedor de transcripción en tiempo real
para el complemento Voice Call.
| Configuración | Ruta de configuración | Predeterminado |
|---|---|---|
| API key | plugins.entries.voice-call.config.streaming.providers.deepgram.apiKey | Recae en DEEPGRAM_API_KEY |
| Modelo | ...deepgram.model | nova-3 |
| Idioma | ...deepgram.language | (sin establecer) |
| Codificación | ...deepgram.encoding | mulaw |
| Tasa de muestreo | ...deepgram.sampleRate | 8000 |
| Endpointing | ...deepgram.endpointingMs | 800 |
| Resultados provisionales | ...deepgram.interimResults | true |
{ plugins: { entries: { "voice-call": { config: { streaming: { enabled: true, provider: "deepgram", providers: { deepgram: { apiKey: "${DEEPGRAM_API_KEY}", model: "nova-3", endpointingMs: 800, language: "en-US", }, }, }, }, }, }, },}Autenticación
La autenticación sigue el orden de autenticación de proveedores estándar. DEEPGRAM_API_KEY es la ruta más sencilla.
Proxy y endpoints personalizados
Anule los endpoints o los encabezados con tools.media.audio.baseUrl y tools.media.audio.headers al usar un proxy.
Comportamiento de salida
La salida sigue las mismas reglas de audio que otros proveedores (límites de tamaño, tiempos de espera, inyección de transcripciones).
Relacionado
Sección titulada «Relacionado»Resumen de la canalización de procesamiento de audio, imagen y video.
Referencia completa de configuración, incluida la configuración de herramientas multimedia.
Problemas comunes y pasos de depuración.
Preguntas frecuentes sobre la configuración de OpenClaw.