Aperçu des médias

OpenClaw génère des images, des vidéos et de la musique, comprend les médias entrants (images, audio, vidéo) et lit les réponses à voix haute via la synthèse vocale. Toutes les capacités média sont pilotées par des tools : l’agent décide quand les utiliser en fonction de la conversation, et chaque tool n’apparaît que si au moins un provider principal est configuré.

La parole en direct utilise le contrat de session Talk plutôt que le chemin de l’outil média en une seule fois. Talk dispose de trois modes : realtime natif au fournisseur, stt-tts local ou en streaming, et transcription pour la capture de parole en observation uniquement. Ces modes partagent les catalogues de fournisseurs, les enveloppes d’événements et la sémantique d’annulation avec la téléphonie, les réunions, le navigateur en temps réel et les clients natifs push-to-talk.

Capacités

Génération d'images

Créez et modifiez des images à partir de invites textuelles ou d’images de référence via image_generate. Asynchrone dans les sessions de chat — s’exécute en arrière-plan et publie le résultat lorsqu’il est prêt.

Génération vidéo

Texte-vers-vidéo, image-vers-vidéo et vidéo-vers-vidéo via video_generate. Asynchrone — s’exécute en arrière-plan et publie le résultat lorsqu’il est prêt.

Génération de musique

Générez de la musique ou des pistes audio via music_generate. Asynchrone dans les sessions de chat sur le cycle de vie partagé des tâches de génération de médias.

Synthèse vocale

Convertissez les réponses sortantes en audio parlé via l’outil tts plus la config messages.tts. Synchrone.

Compréhension des médias

Résumez les images, l’audio et la vidéo entrants à l’aide de fournisseurs de modèles capables de vision et de plugins dédiés à la compréhension des médias.

Synthèse vocale

Transcrivez les messages vocaux entrants via des fournisseurs STT par lot ou STT en streaming Voice Call.

Matrice des capacités des fournisseurs

Fournisseur	Image	Vidéo	Musique	TTS	STT	Voix en temps réel	Compréhension des médias
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
Local CLI				✓
Microsoft				✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

Asynchrone vs synchrone

Capacité	Mode	Pourquoi
Image	Asynchrone	Le traitement du provider peut survivre à un tour de chat ; les pièces jointes générées utilisent le chemin de complétion partagé.
Synthèse vocale	Synchrone	Les réponses des fournisseurs arrivent en quelques secondes ; jointes à l’audio de la réponse.
Vidéo	Asynchrone	Le traitement du fournisseur prend de 30 s à plusieurs minutes ; les files d’attente lentes peuvent aller jusqu’au délai d’expiration configuré.
Musique	Asynchrone	Même caractéristique de traitement par le fournisseur que pour la vidéo.

Pour les outils asynchrones, OpenClaw soumet la requête au provider, renvoie un identifiant de tâche immédiatement, et suit la tâche dans le registre des tâches. L’agent continue à répondre aux autres messages pendant que la tâche s’exécute. Lorsque le provider a terminé, OpenClaw réveille l’agent avec les chemins des médias générés afin qu’il puisse informer l’utilisateur et relayer le résultat via l’outil de message. OpenClaw traite l’absence de preuve de livraison par l’outil de message comme une tentative de complétion échouée et ne publie pas automatiquement les médias générés en solution de repli.

Speech-to-text et Appel vocal

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio et xAI peuvent tous transcrire l’audio entrant via le chemin batch tools.media.audio lorsqu’ils sont configurés. Les plugins de canal qui effectuent un prévol d’une note vocale pour le filtrage par mention ou l’analyse de commandes marquent la pièce jointe transcrite dans le contexte entrant, afin que la passe d’analyse des médias partagée réutilise cette transcription au lieu de faire un second appel STT pour le même audio.

Deepgram, ElevenLabs, Mistral, OpenAI et xAI enregistrent également des providers STT en flux pour Appel vocal, permettant ainsi de transférer l’audio téléphonique en direct au fournisseur sélectionné sans attendre un enregistrement complet.

Pour les conversations utilisateur en direct, privilégiez le mode Talk. Les pièces jointes audio groupées restent sur le chemin média ; la diffusion en temps réel du navigateur, le mode push-to-talk natif, la téléphonie et l’audio de réunion doivent utiliser les événements Talk et les catalogues délimités par la session renvoyés par le Gateway.

Mappings de providers (comment les fournisseurs se répartissent sur les surfaces)

Google

Surfaces d’image, de vidéo, de musique, de TTS groupé, de voix en temps réel backend, et de compréhension média.

OpenAI

Surfaces d’image, de vidéo, de TTS groupé, de STT groupé, de STT en flux pour Voice Call, de voix en temps réel backend, et d’intégration en mémoire.

DeepInfra

Routage de chat/modèle, génération/édition d’images, texte vers vidéo, TTS groupé, STT groupé, compréhension média d’images, et surfaces d’intégration en mémoire. Les modèles de reranking/classification/détection d’objets natifs DeepInfra ne sont pas enregistrés tant que OpenClaw n’a pas de contrats de provider dédiés pour ces catégories.

xAI

Image, vidéo, recherche, exécution de code, TTS groupé, STT groupé, et STT en flux pour Voice Call. La voix en temps réel xAI est une fonctionnalité en amont mais n’est pas enregistrée dans OpenClaw tant que le contrat de voix en temps réel partagé ne peut pas la représenter.