Descripción general de medios
OpenClaw genera imágenes, videos y música, comprende medios entrantes (imágenes, audio, video) y pronuncia las respuestas en voz alta con texto a voz. Todas las capacidades de medios son impulsadas por herramientas: el agente decide cuándo usarlas basándose en la conversación, y cada herramienta solo aparece cuando al menos un proveedor de respaldo está configurado.
El habla en vivo utiliza el contrato de sesión Talk en lugar de la ruta de la herramienta de medios de un solo uso. Talk tiene tres modos: proveedor nativo realtime, local o streaming stt-tts, y transcription para la captura de habla solo de observación. Esos modos comparten catálogos de proveedores, sobres de eventos y semánticas de cancelación con telefonía, reuniones, tiempo real del navegador y clientes nativos de pulsar para hablar.
Capacidades
Sección titulada «Capacidades»Cree y edite imágenes a partir de mensajes de texto o imágenes de referencia mediante image_generate. Asíncrono en sesiones de chat: se ejecuta en segundo plano y publica el resultado cuando está listo.
Texto a video, imagen a video y video a video a través de video_generate. Asíncrono: se ejecuta en segundo plano y publica el resultado cuando está listo.
Genere música o pistas de audio mediante music_generate. Asíncrono en sesiones de chat en el ciclo de vida compartido de generación de medios.
Convierta las respuestas salientes a audio hablado a través de la herramienta tts más la configuración messages.tts. Sincrónico.
Resuma imágenes, audio y video entrantes utilizando proveedores de modelos con capacidad de visión y complementos dedicados de comprensión de medios.
Transcribe mensajes de voz entrantes a través de proveedores STT por lotes o STT de streaming Voice Call.
Matriz de capacidades del proveedor
Sección titulada «Matriz de capacidades del proveedor»| Proveedor | Imagen | Vídeo | Música | TTS | STT | Voz en tiempo real | Comprensión de medios |
|---|---|---|---|---|---|---|---|
| Alibaba | ✓ | ||||||
| BytePlus | ✓ | ||||||
| ComfyUI | ✓ | ✓ | ✓ | ||||
| DeepInfra | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Deepgram | ✓ | ✓ | |||||
| ElevenLabs | ✓ | ✓ | |||||
| fal | ✓ | ✓ | ✓ | ||||
| ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Gradium | ✓ | ||||||
| CLI local | ✓ | ||||||
| Microsoft | ✓ | ||||||
| MiniMax | ✓ | ✓ | ✓ | ✓ | |||
| Mistral | ✓ | ||||||
| OpenAI | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| OpenRouter | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |
| Qwen | ✓ | ||||||
| Runway | ✓ | ||||||
| SenseAudio | ✓ | ||||||
| Together | ✓ | ||||||
| Vydra | ✓ | ✓ | ✓ | ||||
| xAI | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Xiaomi MiMo | ✓ | ✓ | ✓ |
Asíncrono vs. síncrono
Sección titulada «Asíncrono vs. síncrono»| Capacidad | Modo | Por qué |
|---|---|---|
| Imagen | Asíncrono | El procesamiento del proveedor puede durar más que un turno de chat; los datos adjuntos generados utilizan la ruta de finalización compartida. |
| Conversión de texto a voz | Síncrono | Las respuestas del proveedor regresan en segundos; adjuntas al audio de respuesta. |
| Vídeo | Asíncrono | El procesamiento del proveedor tarda de 30 s a varios minutos; las colas lentas pueden durar hasta el tiempo de espera configurado. |
| Música | Asíncrono | La misma característica de procesamiento del proveedor que el vídeo. |
Para herramientas asíncronas, OpenClaw envía la solicitud al proveedor, devuelve un ID de tarea inmediatamente y rastrea el trabajo en el registro de tareas. El agente continúa respondiendo a otros mensajes mientras se ejecuta el trabajo. Cuando el proveedor termina, OpenClaw despierta al agente con las rutas de los medios generados para que pueda informar al usuario y retransmitir el resultado a través de la herramienta de mensaje. OpenClaw trata la falta de evidencia de entrega de la herramienta de mensaje como un intento de finalización fallido y no publica automáticamente los medios generados como alternativa.
Conversión de voz a texto y llamada de voz
Sección titulada «Conversión de voz a texto y llamada de voz»Deepgram, DeepInfra, ElevenLabs, Mistral, OpenAI, OpenRouter, SenseAudio y xAI pueden todos transcribir
audio entrante a través de la ruta por lotes tools.media.audio cuando están configurados.
Los complementos de canal que realizan un reconocimiento previo de una nota de voz para la filtración de menciones o el análisis
de comandos marcan los datos adjuntos transcritos en el contexto entrante, por lo que el pase
compartido de comprensión de medios reutiliza esa transcripción en lugar de realizar una segunda
llamada STT para el mismo audio.
Deepgram, ElevenLabs, Mistral, OpenAI y xAI también registran proveedores de STT en streaming para Voice Call, por lo que el audio telefónico en vivo se puede reenviar al proveedor seleccionado sin esperar a que se complete la grabación.
Para conversaciones de usuario en vivo, prefiera el modo Talk. Los datos adjuntos de audio por lotes permanecen en la ruta de medios; el tiempo real del navegador, el pulsar para hablar nativo, la telefonía y el audio de reuniones deben usar los eventos de Talk y los catálogos con ámbito de sesión devueltos por el Gateway.
Asignaciones de proveedores (cómo se dividen los proveedores en las distintas superficies)
Sección titulada «Asignaciones de proveedores (cómo se dividen los proveedores en las distintas superficies)»Superficies de imagen, video, música, TTS por lotes, voz en tiempo real del backend y comprensión de medios.
OpenAI
Superficies de imagen, video, TTS por lotes, STT por lotes, STT por streaming en Voice Call, voz en tiempo real del backend e incrustación de memoria.
DeepInfra
Enrutamiento de chat/modelo, generación/edición de imágenes, texto a video, TTS por lotes, STT por lotes, comprensión de medios de imagen e incrustación de memoria. Los modelos de reordenamiento/clasificación/detección de objetos nativos de DeepInfra no se registran hasta que OpenClaw tenga contratos de proveedor dedicados para esas categorías.
xAI
Imagen, video, búsqueda, ejecución de código, TTS por lotes, STT por lotes y STT por streaming en Voice Call. La voz en tiempo real de xAI es una capacidad superior, pero no se registra en OpenClaw hasta que el contrato compartido de voz en tiempo real pueda representarla.