Mode Talk
Mode Talk
Section intitulée « Mode Talk »Le mode Talk est une boucle de conversation vocale continue :
- Écouter la parole
- Envoyer la transcription au modèle (session principale, chat.send)
- Attendre la réponse
- La lire via ElevenLabs (lecture en continu)
Comportement (macOS)
Section intitulée « Comportement (macOS) »- Superposition toujours active tant que le mode Talk est activé.
- Transitions de phase Écoute → Réflexion → Parole.
- Lors d’une courte pause (fenêtre de silence), la transcription actuelle est envoyée.
- Les réponses sont écrites dans WebChat (identique à la frappe).
- Interruption à la parole (activé par défaut) : si l’utilisateur commence à parler pendant que l’assistant parle, nous arrêtons la lecture et notons l’horodatage de l’interruption pour la prochaine invite.
Directives vocales dans les réponses
Section intitulée « Directives vocales dans les réponses »L’assistant peut préfixer sa réponse par une ligne JSON unique pour contrôler la voix :
{ "voice": "<voice-id>", "once": true }Règles :
- Uniquement la première ligne non vide.
- Les clés inconnues sont ignorées.
once: trues’applique uniquement à la réponse actuelle.- Sans
once, la voix devient la nouvelle valeur par défaut pour le mode Talk. - La ligne JSON est supprimée avant la lecture TTS.
Clés prises en charge :
voice/voice_id/voiceIdmodel/model_id/modelIdspeed,rate(MPM),stability,similarity,style,speakerBoostseed,normalize,lang,output_format,latency_tieronce
Config (~/.openclaw/openclaw.json)
Section intitulée « Config (~/.openclaw/openclaw.json) »{ talk: { voiceId: "elevenlabs_voice_id", modelId: "eleven_v3", outputFormat: "mp3_44100_128", apiKey: "elevenlabs_api_key", silenceTimeoutMs: 1500, interruptOnSpeech: true, },}Valeurs par défaut :
interruptOnSpeech: truesilenceTimeoutMs: si non défini, Talk conserve la fenêtre de pause par défaut de la plateforme avant d’envoyer la transcription (700 ms on macOS and Android, 900 ms on iOS)voiceId: revient àELEVENLABS_VOICE_ID/SAG_VOICE_ID(ou à la première voix ElevenLabs lorsque la clé API est disponible)modelId: défaut àeleven_v3si non définiapiKey: revient àELEVENLABS_API_KEY(ou au profil shell de la passerelle si disponible)outputFormat: défaut àpcm_44100sur macOS/iOS etpcm_24000sur Android (définirmp3_*pour forcer le streaming MP3)
Interface macOS
Section intitulée « Interface macOS »- Bouton de la barre de menus : Talk
- Onglet Config : groupe Talk Mode (id de voix + interrupteur d’interruption)
- Superposition :
- Écoute : le nuage pulse avec le niveau du microphone
- Réflexion : animation d’enfoncement
- Parole : anneaux rayonnants
- Cliquer sur le nuage : arrêter de parler
- Cliquer sur X : quitter le mode Talk
- Nécessite les permissions Speech + Microphone.
- Utilise
chat.sendcontre la clé de sessionmain. - Le TTS utilise l’API de streaming ElevenLabs avec
ELEVENLABS_API_KEYet la lecture incrémentale sur API/macOS/iOS pour une latence plus faible. stabilitypoureleven_v3est validé à0.0,0.5, ou1.0; les autres modèles acceptent0..1.latency_tierest validé à0..4lorsqu’il est défini.- Android prend en charge les formats de sortie
pcm_16000,pcm_22050,pcm_24000etpcm_44100pour le streaming AudioTrack à faible latence.