Ir al contenido

ElevenLabs

OpenClaw utiliza ElevenLabs para conversión de texto a voz, conversión de voz a texto por lotes con Scribe v2 y STT en streaming con Scribe v2 Realtime.

CapacidadSuperficie de OpenClawPredeterminado
Conversión de texto a vozmessages.tts / talkeleven_multilingual_v2
Conversión de voz a texto por lotestools.media.audioscribe_v2
Conversión de voz a texto en transmisiónStreaming de Voice Call o Google Meet realtime.transcriptionProviderscribe_v2_realtime

Establezca ELEVENLABS_API_KEY en el entorno. También se acepta XI_API_KEY para compatibilidad con las herramientas existentes de ElevenLabs.

Ventana de terminal
export ELEVENLABS_API_KEY="..."
{
messages: {
tts: {
providers: {
elevenlabs: {
apiKey: "${ELEVENLABS_API_KEY}",
voiceId: "pMsXgVXv3BLzUgSXRplE",
modelId: "eleven_multilingual_v2",
},
},
},
},
}

Establezca modelId en eleven_v3 para usar ElevenLabs v3 TTS. OpenClaw mantiene eleven_multilingual_v2 como el valor predeterminado para las instalaciones existentes.

Los canales de voz de Discord utilizan el endpoint de TTS en streaming de ElevenLabs cuando ElevenLabs es el proveedor voice.tts/messages.tts seleccionado. La reproducción comienza desde el flujo de audio devuelto en lugar de esperar a que OpenClaw descargue y escriba el archivo de audio completo. latencyTier se asigna al parámetro de consulta optimize_streaming_latency de ElevenLabs para los modelos que lo aceptan; OpenClaw omite ese parámetro para eleven_v3, que lo rechaza.

Use Scribe v2 para archivos de audio entrantes y segmentos cortos de voz grabados:

{
tools: {
media: {
audio: {
enabled: true,
models: [{ provider: "elevenlabs", model: "scribe_v2" }],
},
},
},
}

OpenClaw envía audio multiparte a ElevenLabs /v1/speech-to-text con model_id: "scribe_v2". Las sugerencias de idioma se asignan a language_code cuando están presentes.

El plugin elevenlabs incluido registra Scribe v2 Realtime para la transcripción en streaming en modo agente para Voice Call y Google Meet.

ConfiguraciónRuta de configuraciónPor defecto
Clave de APIplugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKeyRecurre a ELEVENLABS_API_KEY / XI_API_KEY
Modelo...elevenlabs.modelIdscribe_v2_realtime
Formato de audio...elevenlabs.audioFormatulaw_8000
Tasa de muestreo...elevenlabs.sampleRate8000
Estrategia de confirmación...elevenlabs.commitStrategyvad
Idioma...elevenlabs.languageCode(sin establecer)
{
plugins: {
entries: {
"voice-call": {
config: {
streaming: {
enabled: true,
provider: "elevenlabs",
providers: {
elevenlabs: {
apiKey: "${ELEVENLABS_API_KEY}",
audioFormat: "ulaw_8000",
commitStrategy: "vad",
languageCode: "en",
},
},
},
},
},
},
},
}

Para el modo agente de Google Meet, configure plugins.entries.google-meet.config.realtime.transcriptionProvider como "elevenlabs" y configure el mismo bloque de proveedor en plugins.entries.google-meet.config.realtime.providers.elevenlabs.