ElevenLabs
OpenClaw utiliza ElevenLabs para conversión de texto a voz, conversión de voz a texto por lotes con Scribe v2 y STT en streaming con Scribe v2 Realtime.
| Capacidad | Superficie de OpenClaw | Predeterminado |
|---|---|---|
| Conversión de texto a voz | messages.tts / talk | eleven_multilingual_v2 |
| Conversión de voz a texto por lotes | tools.media.audio | scribe_v2 |
| Conversión de voz a texto en transmisión | Streaming de Voice Call o Google Meet realtime.transcriptionProvider | scribe_v2_realtime |
Autenticación
Sección titulada «Autenticación»Establezca ELEVENLABS_API_KEY en el entorno. También se acepta XI_API_KEY para
compatibilidad con las herramientas existentes de ElevenLabs.
export ELEVENLABS_API_KEY="..."Conversión de texto a voz
Sección titulada «Conversión de texto a voz»{ messages: { tts: { providers: { elevenlabs: { apiKey: "${ELEVENLABS_API_KEY}", voiceId: "pMsXgVXv3BLzUgSXRplE", modelId: "eleven_multilingual_v2", }, }, }, },}Establezca modelId en eleven_v3 para usar ElevenLabs v3 TTS. OpenClaw mantiene
eleven_multilingual_v2 como el valor predeterminado para las instalaciones existentes.
Los canales de voz de Discord utilizan el endpoint de TTS en streaming de ElevenLabs cuando ElevenLabs es el proveedor voice.tts/messages.tts seleccionado. La reproducción comienza desde el flujo de audio devuelto en lugar de esperar a que OpenClaw descargue y escriba el archivo de audio completo. latencyTier se asigna al parámetro de consulta optimize_streaming_latency de ElevenLabs para los modelos que lo aceptan; OpenClaw omite ese parámetro para eleven_v3, que lo rechaza.
Conversión de voz a texto
Sección titulada «Conversión de voz a texto»Use Scribe v2 para archivos de audio entrantes y segmentos cortos de voz grabados:
{ tools: { media: { audio: { enabled: true, models: [{ provider: "elevenlabs", model: "scribe_v2" }], }, }, },}OpenClaw envía audio multiparte a ElevenLabs /v1/speech-to-text con model_id: "scribe_v2". Las sugerencias de idioma se asignan a language_code cuando están presentes.
STT en streaming
Sección titulada «STT en streaming»El plugin elevenlabs incluido registra Scribe v2 Realtime para la transcripción en streaming en modo agente para Voice Call y Google Meet.
| Configuración | Ruta de configuración | Por defecto |
|---|---|---|
| Clave de API | plugins.entries.voice-call.config.streaming.providers.elevenlabs.apiKey | Recurre a ELEVENLABS_API_KEY / XI_API_KEY |
| Modelo | ...elevenlabs.modelId | scribe_v2_realtime |
| Formato de audio | ...elevenlabs.audioFormat | ulaw_8000 |
| Tasa de muestreo | ...elevenlabs.sampleRate | 8000 |
| Estrategia de confirmación | ...elevenlabs.commitStrategy | vad |
| Idioma | ...elevenlabs.languageCode | (sin establecer) |
{ plugins: { entries: { "voice-call": { config: { streaming: { enabled: true, provider: "elevenlabs", providers: { elevenlabs: { apiKey: "${ELEVENLABS_API_KEY}", audioFormat: "ulaw_8000", commitStrategy: "vad", languageCode: "en", }, }, }, }, }, }, },}Para el modo agente de Google Meet, configure
plugins.entries.google-meet.config.realtime.transcriptionProvider como
"elevenlabs" y configure el mismo bloque de proveedor en
plugins.entries.google-meet.config.realtime.providers.elevenlabs.