Aller au contenu

Deepgram

Deepgram est une API de reconnaissance vocale. Dans API, elle est utilisée pour la transcription audio/notes vocales entrantes via tools.media.audio et pour la STT en continu des appels vocaux via plugins.entries.voice-call.config.streaming.

Pour la transcription par lot, OpenClaw télécharge le fichier audio complet vers Deepgram et injecte la transcription dans le pipeline de réponse (bloc {{Transcript}} + [Audio]). Pour la diffusion en continu d’appels vocaux, OpenClaw transfère les trames G.711 u-law en direct via le point de terminaison WebSocket listen de Deepgram et émet des transcriptions partielles ou finales au fur et à mesure que Deepgram les renvoie.

DétailValeur
Site Webdeepgram.com
Docsdevelopers.deepgram.com
AuthDEEPGRAM_API_KEY
Modèle par défautnova-3
  1. Définissez votre clé API

    Ajoutez votre clé Deepgram API à l’environnement :

    DEEPGRAM_API_KEY=dg_...
  2. Activez le fournisseur audio

    {
    tools: {
    media: {
    audio: {
    enabled: true,
    models: [{ provider: "deepgram", model: "nova-3" }],
    },
    },
    },
    }
  3. Envoyez une note vocale

    Envoyez un message audio via n’importe quel channel connecté. OpenClaw la transcrit via Deepgram et injecte la transcription dans le pipeline de réponse.

OptionCheminDescription
modeltools.media.audio.models[].modelID du modèle Deepgram (par défaut : nova-3)
languagetools.media.audio.models[].languageIndication de langue (facultatif)
detect_languagetools.media.audio.providerOptions.deepgram.detect_languageActiver la détection de langue (facultatif)
punctuatetools.media.audio.providerOptions.deepgram.punctuateActiver la ponctuation (facultatif)
smart_formattools.media.audio.providerOptions.deepgram.smart_formatActiver le formatage intelligent (facultatif)
{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "deepgram", model: "nova-3", language: "en" }],
},
},
},
}

Le plugin deepgram inclus enregistre également un fournisseur de transcription en temps réel pour le plugin Voice Call.

ParamètreChemin de configurationPar défaut
Clé APIplugins.entries.voice-call.config.streaming.providers.deepgram.apiKeyRevient à DEEPGRAM_API_KEY
Modèle...deepgram.modelnova-3
Langue...deepgram.language(non défini)
Encodage...deepgram.encodingmulaw
Taux d’échantillonnage...deepgram.sampleRate8000
Détection de fin...deepgram.endpointingMs800
Résultats intermédiaires...deepgram.interimResultstrue
{
plugins: {
entries: {
"voice-call": {
config: {
streaming: {
enabled: true,
provider: "deepgram",
providers: {
deepgram: {
apiKey: "${DEEPGRAM_API_KEY}",
model: "nova-3",
endpointingMs: 800,
language: "en-US",
},
},
},
},
},
},
},
}

Authentification

L’authentification suit l’ordre standard d’authentification des fournisseurs. DEEPGRAM_API_KEY est le chemin le plus simple.

Proxy et points de terminaison personnalisés

Remplacez les points de terminaison ou les en-têtes avec tools.media.audio.baseUrl et tools.media.audio.headers lors de l’utilisation d’un proxy.

Comportement de la sortie

La sortie suit les mêmes règles audio que les autres fournisseurs (limites de taille, délais d’expiration, injection de transcription).

Outils multimédias

Vue d’ensemble du pipeline de traitement audio, image et vidéo.

Configuration

Référence de configuration complète incluant les paramètres de l’outil média.

Dépannage

Problèmes courants et étapes de débogage.

FAQ

Questions fréquemment posées sur la configuration OpenClaw.