Modo de charla
Modo de charla
Sección titulada «Modo de charla»El modo de charla es un bucle continuo de conversación por voz:
- Escuchar el habla
- Enviar la transcripción al modelo (sesión principal, chat.send)
- Esperar la respuesta
- Reproducirla mediante ElevenLabs (reproducción en streaming)
Comportamiento (macOS)
Sección titulada «Comportamiento (macOS)»- Superposición siempre activa mientras el modo de charla está habilitado.
- Transiciones de fase Escuchar → Pensar → Hablar.
- En una pausa corta (ventana de silencio), se envía la transcripción actual.
- Las respuestas se escriben en WebChat (igual que al escribir).
- Interrumpir al hablar (activado por defecto): si el usuario empieza a hablar mientras el asistente está hablando, detenemos la reproducción y anotamos la marca de tiempo de la interrupción para el siguiente mensaje.
Directivas de voz en las respuestas
Sección titulada «Directivas de voz en las respuestas»El asistente puede prefijar su respuesta con una única línea JSON para controlar la voz:
{ "voice": "<voice-id>", "once": true }Reglas:
- Solo la primera línea no vacía.
- Las claves desconocidas se ignoran.
once: truese aplica solo a la respuesta actual.- Sin
once, la voz se convierte en la nueva predeterminada para el modo de charla. - La línea JSON se elimina antes de la reproducción TTS.
Claves compatibles:
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(PPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Configuración (~/.openclaw/openclaw.json)
Sección titulada «Configuración (~/.openclaw/openclaw.json)»{ talk: { voiceId: "elevenlabs_voice_id", modelId: "eleven_v3", outputFormat: "mp3_44100_128", apiKey: "elevenlabs_api_key", silenceTimeoutMs: 1500, interruptOnSpeech: true, },}Valores predeterminados:
interruptOnSpeech: truesilenceTimeoutMs: cuando no está configurado, Talk mantiene la ventana de pausa predeterminada de la plataforma antes de enviar la transcripción (700 ms on macOS and Android, 900 ms on iOS)voiceId: recurre aELEVENLABS_VOICE_ID/SAG_VOICE_ID(o a la primera voz de ElevenLabs cuando la clave API está disponible)modelId: por defecto eseleven_v3si no está establecidoapiKey: recurre aELEVENLABS_API_KEY(o al perfil de shell de la puerta de enlace si está disponible)outputFormat: por defecto espcm_44100en macOS/iOS ypcm_24000en Android (establezcamp3_*para forzar el streaming MP3)
Interfaz de usuario de macOS
Sección titulada «Interfaz de usuario de macOS»- Interruptor de la barra de menús: Hablar
- Pestaña Config: grupo Modo Hablar (id. de voz + interruptor de interrupción)
- Superposición:
- Escuchando: la nube pulsa con el nivel del micrófono
- Pensando: animación de hundimiento
- Hablando: anillos radiantes
- Clic en la nube: detener habla
- Clic en X: salir del modo Hablar
- Requiere permisos de Voz + Micrófono.
- Usa
chat.sendcontra la clave de sesiónmain. - El TTS usa la API de streaming de ElevenLabs con
ELEVENLABS_API_KEYy reproducción incremental en macOS/iOS/Android para menor latencia. stabilityparaeleven_v3se valida como0.0,0.5o1.0; otros modelos aceptan0..1.latency_tierse valida como0..4cuando se establece.- Android admite formatos de salida
pcm_16000,pcm_22050,pcm_24000ypcm_44100para streaming AudioTrack de baja latencia.