Aperçu des médias
OpenClaw génère des images, des vidéos et de la musique, comprend les médias entrants (images, audio, vidéo) et lit les réponses à voix haute via la synthèse vocale. Toutes les capacités média sont pilotées par des tools : l’agent décide quand les utiliser en fonction de la conversation, et chaque tool n’apparaît que si au moins un provider principal est configuré.
La parole en direct utilise le contrat de session Talk plutôt que le chemin de l’outil média en une seule fois. Talk dispose de trois modes : realtime natif au fournisseur, stt-tts local ou en streaming, et transcription pour la capture de parole en observation uniquement. Ces modes partagent les catalogues de fournisseurs, les enveloppes d’événements et la sémantique d’annulation avec la téléphonie, les réunions, le navigateur en temps réel et les clients natifs push-to-talk.
Capacités
Section intitulée « Capacités »Créez et modifiez des images à partir de invites textuelles ou d’images de référence via image_generate. Asynchrone dans les sessions de chat — s’exécute en arrière-plan et publie le résultat lorsqu’il est prêt.
Texte-vers-vidéo, image-vers-vidéo et vidéo-vers-vidéo via video_generate. Asynchrone — s’exécute en arrière-plan et publie le résultat lorsqu’il est prêt.
Générez de la musique ou des pistes audio via music_generate. Asynchrone dans les sessions de chat sur le cycle de vie partagé des tâches de génération de médias.
Convertissez les réponses sortantes en audio parlé via l’outil tts plus la config messages.tts. Synchrone.
Résumez les images, l’audio et la vidéo entrants à l’aide de fournisseurs de modèles capables de vision et de plugins dédiés à la compréhension des médias.
Transcrivez les messages vocaux entrants via des fournisseurs STT par lot ou STT en streaming Voice Call.
Matrice des capacités des fournisseurs
Section intitulée « Matrice des capacités des fournisseurs »| Fournisseur | Image | Vidéo | Musique | TTS | STT | Voix en temps réel | Compréhension des médias |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | ✓ | ||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| Local CLI | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
Asynchrone vs synchrone
Section intitulée « Asynchrone vs synchrone »| Capacité | Mode | Pourquoi |
|---|---|---|
| Image | Asynchrone | Le traitement du provider peut survivre à un tour de chat ; les pièces jointes générées utilisent le chemin de complétion partagé. |
| Synthèse vocale | Synchrone | Les réponses des fournisseurs arrivent en quelques secondes ; jointes à l’audio de la réponse. |
| Vidéo | Asynchrone | Le traitement du fournisseur prend de 30 s à plusieurs minutes ; les files d’attente lentes peuvent aller jusqu’au délai d’expiration configuré. |
| Musique | Asynchrone | Même caractéristique de traitement par le fournisseur que pour la vidéo. |
Pour les outils asynchrones, OpenClaw soumet la requête au provider, renvoie un identifiant de tâche immédiatement, et suit la tâche dans le registre des tâches. L’agent continue à répondre aux autres messages pendant que la tâche s’exécute. Lorsque le provider a terminé, OpenClaw réveille l’agent avec les chemins des médias générés afin qu’il puisse informer l’utilisateur et relayer le résultat via l’outil de message. OpenClaw traite l’absence de preuve de livraison par l’outil de message comme une tentative de complétion échouée et ne publie pas automatiquement les médias générés en solution de repli.
Speech-to-text et Appel vocal
Section intitulée « Speech-to-text et Appel vocal »Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio et xAI peuvent tous transcrire
l’audio entrant via le chemin batch tools.media.audio lorsqu’ils sont configurés.
Les plugins de canal qui effectuent un prévol d’une note vocale pour le filtrage par mention ou l’analyse
de commandes marquent la pièce jointe transcrite dans le contexte entrant, afin que la passe
d’analyse des médias partagée réutilise cette transcription au lieu de faire un second
appel STT pour le même audio.
Deepgram, ElevenLabs, Mistral, OpenAI et xAI enregistrent également des providers STT en flux pour Appel vocal, permettant ainsi de transférer l’audio téléphonique en direct au fournisseur sélectionné sans attendre un enregistrement complet.
Pour les conversations utilisateur en direct, privilégiez le mode Talk. Les pièces jointes audio groupées restent sur le chemin média ; la diffusion en temps réel du navigateur, le mode push-to-talk natif, la téléphonie et l’audio de réunion doivent utiliser les événements Talk et les catalogues délimités par la session renvoyés par le Gateway.
Mappings de providers (comment les fournisseurs se répartissent sur les surfaces)
Section intitulée « Mappings de providers (comment les fournisseurs se répartissent sur les surfaces) »Surfaces d’image, de vidéo, de musique, de TTS groupé, de voix en temps réel backend, et de compréhension média.
OpenAI
Surfaces d’image, de vidéo, de TTS groupé, de STT groupé, de STT en flux pour Voice Call, de voix en temps réel backend, et d’intégration en mémoire.
DeepInfra
Routage de chat/modèle, génération/édition d’images, texte vers vidéo, TTS groupé, STT groupé, compréhension média d’images, et surfaces d’intégration en mémoire. Les modèles de reranking/classification/détection d’objets natifs DeepInfra ne sont pas enregistrés tant que OpenClaw n’a pas de contrats de provider dédiés pour ces catégories.
xAI
Image, vidéo, recherche, exécution de code, TTS groupé, STT groupé, et STT en flux pour Voice Call. La voix en temps réel xAI est une fonctionnalité en amont mais n’est pas enregistrée dans OpenClaw tant que le contrat de voix en temps réel partagé ne peut pas la représenter.