Descripción general de medios

OpenClaw genera imágenes, videos y música, comprende medios entrantes (imágenes, audio, video) y pronuncia las respuestas en voz alta con texto a voz. Todas las capacidades de medios son impulsadas por herramientas: el agente decide cuándo usarlas basándose en la conversación, y cada herramienta solo aparece cuando al menos un proveedor de respaldo está configurado.

El habla en vivo utiliza el contrato de sesión Talk en lugar de la ruta de la herramienta de medios de un solo uso. Talk tiene tres modos: proveedor nativo realtime, local o streaming stt-tts, y transcription para la captura de habla solo de observación. Esos modos comparten catálogos de proveedores, sobres de eventos y semánticas de cancelación con telefonía, reuniones, tiempo real del navegador y clientes nativos de pulsar para hablar.

Capacidades

Generación de imágenes

Cree y edite imágenes a partir de mensajes de texto o imágenes de referencia mediante image_generate. Asíncrono en sesiones de chat: se ejecuta en segundo plano y publica el resultado cuando está listo.

Generación de video

Texto a video, imagen a video y video a video a través de video_generate. Asíncrono: se ejecuta en segundo plano y publica el resultado cuando está listo.

Generación de música

Genere música o pistas de audio mediante music_generate. Asíncrono en sesiones de chat en el ciclo de vida compartido de generación de medios.

Texto a voz

Convierta las respuestas salientes a audio hablado a través de la herramienta tts más la configuración messages.tts. Sincrónico.

Comprensión de medios

Resuma imágenes, audio y video entrantes utilizando proveedores de modelos con capacidad de visión y complementos dedicados de comprensión de medios.

Speech-to-text

Transcribe mensajes de voz entrantes a través de proveedores STT por lotes o STT de streaming Voice Call.

Matriz de capacidades del proveedor

Proveedor	Imagen	Vídeo	Música	TTS	STT	Voz en tiempo real	Comprensión de medios
Alibaba		✓
BytePlus		✓
ComfyUI	✓	✓	✓
DeepInfra	✓	✓		✓	✓		✓
Deepgram					✓	✓
ElevenLabs				✓	✓
fal	✓	✓	✓
Google	✓	✓	✓	✓		✓	✓
Gradium				✓
CLI local				✓
Microsoft				✓
MiniMax	✓	✓	✓	✓
Mistral					✓
OpenAI	✓	✓		✓	✓	✓	✓
OpenRouter	✓	✓	✓	✓	✓		✓
Qwen		✓
Runway		✓
SenseAudio					✓
Together		✓
Vydra	✓	✓		✓
xAI	✓	✓		✓	✓		✓
Xiaomi MiMo	✓			✓			✓

Asíncrono vs. síncrono

Capacidad	Modo	Por qué
Imagen	Asíncrono	El procesamiento del proveedor puede durar más que un turno de chat; los datos adjuntos generados utilizan la ruta de finalización compartida.
Conversión de texto a voz	Síncrono	Las respuestas del proveedor regresan en segundos; adjuntas al audio de respuesta.
Vídeo	Asíncrono	El procesamiento del proveedor tarda de 30 s a varios minutos; las colas lentas pueden durar hasta el tiempo de espera configurado.
Música	Asíncrono	La misma característica de procesamiento del proveedor que el vídeo.

Para herramientas asíncronas, OpenClaw envía la solicitud al proveedor, devuelve un ID de tarea inmediatamente y rastrea el trabajo en el registro de tareas. El agente continúa respondiendo a otros mensajes mientras se ejecuta el trabajo. Cuando el proveedor termina, OpenClaw despierta al agente con las rutas de los medios generados para que pueda informar al usuario y retransmitir el resultado a través de la herramienta de mensaje. OpenClaw trata la falta de evidencia de entrega de la herramienta de mensaje como un intento de finalización fallido y no publica automáticamente los medios generados como alternativa.

Conversión de voz a texto y llamada de voz

Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio y xAI pueden todos transcribir audio entrante a través de la ruta por lotes tools.media.audio cuando están configurados. Los complementos de canal que realizan un reconocimiento previo de una nota de voz para la filtración de menciones o el análisis de comandos marcan los datos adjuntos transcritos en el contexto entrante, por lo que el pase compartido de comprensión de medios reutiliza esa transcripción en lugar de realizar una segunda llamada STT para el mismo audio.

Deepgram, ElevenLabs, Mistral, OpenAI y xAI también registran proveedores de STT en streaming para Voice Call, por lo que el audio telefónico en vivo se puede reenviar al proveedor seleccionado sin esperar a que se complete la grabación.

Para conversaciones de usuario en vivo, prefiera el modo Talk. Los datos adjuntos de audio por lotes permanecen en la ruta de medios; el tiempo real del navegador, el pulsar para hablar nativo, la telefonía y el audio de reuniones deben usar los eventos de Talk y los catálogos con ámbito de sesión devueltos por el Gateway.

Asignaciones de proveedores (cómo se dividen los proveedores en las distintas superficies)

Google

Superficies de imagen, video, música, TTS por lotes, voz en tiempo real del backend y comprensión de medios.

OpenAI

Superficies de imagen, video, TTS por lotes, STT por lotes, STT por streaming en Voice Call, voz en tiempo real del backend e incrustación de memoria.

DeepInfra

Enrutamiento de chat/modelo, generación/edición de imágenes, texto a video, TTS por lotes, STT por lotes, comprensión de medios de imagen e incrustación de memoria. Los modelos de reordenamiento/clasificación/detección de objetos nativos de DeepInfra no se registran hasta que OpenClaw tenga contratos de proveedor dedicados para esas categorías.

xAI

Imagen, video, búsqueda, ejecución de código, TTS por lotes, STT por lotes y STT por streaming en Voice Call. La voz en tiempo real de xAI es una capacidad superior, pero no se registra en OpenClaw hasta que el contrato compartido de voz en tiempo real pueda representarla.