CLI de inferencia
openclaw infer es la superficie principal sin interfaz para los flujos de trabajo de inferencia respaldados por proveedores.
Intencionalmente expone familias de capacidades, no nombres de RPC de puerta de enlace sin procesar ni identificadores de herramientas de agente sin procesar.
Convierta infer en una habilidad
Sección titulada «Convierta infer en una habilidad»Copie y pegue esto en un agente:
Read https://docs.openclaw.ai/cli/infer, then create a skill that routes my common workflows to `openclaw infer`.Focus on model runs, image generation, video generation, audio transcription, TTS, web search, and embeddings.Una buena habilidad basada en infer debería:
- asignar las intenciones comunes del usuario al subcomando de infer correcto
- incluir algunos ejemplos canónicos de infer para los flujos de trabajo que cubre
- prefiera
openclaw infer ...en ejemplos y sugerencias - evitar volver a documentar toda la superficie de infer dentro del cuerpo de la habilidad
Cobertura típica de habilidad centrada en infer:
openclaw infer model runopenclaw infer image generateopenclaw infer audio transcribeopenclaw infer tts convertopenclaw infer web searchopenclaw infer embedding create
Por qué usar infer
Sección titulada «Por qué usar infer»openclaw infer proporciona una CLI consistente para las tareas de inferencia respaldadas por proveedores dentro de OpenClaw.
Beneficios:
- Utilice los proveedores y modelos ya configurados en OpenClaw en lugar de crear envoltorios únicos para cada backend.
- Mantenga los flujos de trabajo de modelo, imagen, transcripción de audio, TTS, video, web e incrustaciones bajo un mismo árbol de comandos.
- Utilice una forma de salida
--jsonestable para scripts, automatización y flujos de trabajo impulsados por agentes. - Prefiera una superficie de primera parte de OpenClaw cuando la tarea sea fundamentalmente “ejecutar inferencia”.
- Utilice la ruta local normal sin requerir la puerta de enlace para la mayoría de los comandos de infer.
Para las comprobaciones de extremo a extremo del proveedor, prefiera openclaw infer ... una vez que las pruebas de menor nivel del proveedor sean exitosas. Ejecuta la CLI enviada, la carga de configuración,
la resolución del agente predeterminado, la activación del complemento incluido y el tiempo de ejecución de capacidad compartida
antes de que se realice la solicitud del proveedor.
Árbol de comandos
Sección titulada «Árbol de comandos» openclaw infer list inspect
model run list inspect providers auth login auth logout auth status
image generate edit describe describe-many providers
audio transcribe providers
tts convert voices providers status enable disable set-provider
video generate describe providers
web search fetch providers
embedding create providersTareas comunes
Sección titulada «Tareas comunes»Esta tabla asigna tareas de inferencia comunes al comando infer correspondiente.
| Tarea | Comando | Notas |
|---|---|---|
| Ejecutar un prompt de texto/modelo | openclaw infer model run --prompt "..." --json | Usa la ruta local normal de forma predeterminada |
| Ejecutar un aviso de modelo en imágenes | openclaw infer model run --prompt "Describe this" --file ./image.png --model provider/model | Repita --file para múltiples entradas de imagen |
| Generar una imagen | openclaw infer image generate --prompt "..." --json | Use image edit cuando comience desde un archivo existente |
| Describir un archivo de imagen o URL | openclaw infer image describe --file ./image.png --prompt "..." --json | --model debe ser un <provider/model> con capacidad de imagen |
| Transcribir audio | openclaw infer audio transcribe --file ./memo.m4a --json | --model debe ser <provider/model> |
| Sintetizar voz | openclaw infer tts convert --text "..." --output ./speech.mp3 --json | tts status está orientado a la puerta de enlace |
| Generar un video | openclaw infer video generate --prompt "..." --json | Admite sugerencias de proveedor como --resolution |
| Describir un archivo de video | openclaw infer video describe --file ./clip.mp4 --json | --model debe ser <provider/model> |
| Buscar en la web | openclaw infer web search --query "..." --json | |
| Recuperar una página web | openclaw infer web fetch --url https://example.com --json | |
| Crear incrustaciones | openclaw infer embedding create --text "..." --json |
Comportamiento
Sección titulada «Comportamiento»openclaw infer ...es la superficie principal de la CLI para estos flujos de trabajo.- Use
--jsoncuando la salida vaya a ser consumida por otro comando o script. - Use
--providero--model provider/modelcuando se requiera un backend específico. - Use
model run --thinking <level>para pasar un nivel de razonamiento/pensamiento de un solo disparo (off,minimal,low,medium,high,adaptive,xhighomax) mientras mantiene la ejecución sin procesar. - Para
image describe,audio transcribeyvideo describe,--modeldebe usar el formulario<provider/model>. - Para
image describe,--fileacepta rutas locales y URL de imagen HTTP(S). Las URL remotas utilizan la política SSRF de obtención de medios normal. - Para
image describe, un--modelexplícito ejecuta ese proveedor/modelo directamente. El modelo debe ser capaz de procesar imágenes en el catálogo de modelos o en la configuración del proveedor.codex/<model>ejecuta un turno de comprensión de imágenes del servidor de aplicaciones Codex delimitado;openai-codex/<model>utiliza la ruta del proveedor OAuth de OpenAI Codex. - Los comandos de ejecución sin estado predeterminan a local.
- Los comandos de estado administrados por Gateway predeterminan a gateway.
- La ruta local normal no requiere que el gateway esté en ejecución.
- El
model runlocal es una finalización de proveedor de un solo tiro ligera. Resuelve el modelo de agente configurado y la autenticación, pero no inicia un turno de agente de chat, carga herramientas ni abre servidores MCP empaquetados. model run --fileacepta archivos de imagen, detecta su tipo MIME y los envía con el mensaje proporcionado al modelo seleccionado. Repita--filepara varias imágenes.model run --filerechaza las entradas que no son imágenes. Useinfer audio transcribepara archivos de audio yinfer video describepara archivos de video.model run --gatewayejerce el enrutamiento de Gateway, la autenticación guardada, la selección de proveedor y el tiempo de ejecución integrado, pero aún se ejecuta como una sonda de modelo sin formato: envía el mensaje proporcionado y cualquier archivo adjunto de imagen sin transcripción de sesión previa, contexto de arranque/AGENTS, ensamblaje del motor de contexto, herramientas o servidores MCP empaquetados.model run --gateway --model <provider/model>requiere una credencial de gateway de operador de confianza porque la solicitud le pide al Gateway que ejecute una anulación única de proveedor/modelo.- El
model run --thinkinglocal utiliza la ruta de finalización de proveedor ligera; los niveles específicos del proveedor, comoadaptiveymax, se asignan al nivel portátil de finalización simple más cercano.
Use model para la inferencia de texto respaldada por el proveedor y la inspección de modelo/proveedor.
openclaw infer model run --prompt "Reply with exactly: smoke-ok" --jsonopenclaw infer model run --prompt "Summarize this changelog entry" --model openai/gpt-5.4 --jsonopenclaw infer model run --prompt "Describe this image in one sentence" --file ./photo.jpg --model google/gemini-2.5-flash --jsonopenclaw infer model run --prompt "Use more reasoning here" --thinking high --jsonopenclaw infer model providers --jsonopenclaw infer model inspect --name gpt-5.5 --jsonUse full <provider/model> refs to smoke-test a specific provider without
starting the Gateway or loading the full agent tool surface:
openclaw infer model run --local --model anthropic/claude-sonnet-4-6 --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model cerebras/zai-glm-4.7 --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model google/gemini-2.5-flash --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model groq/llama-3.1-8b-instant --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model mistral/mistral-medium-3-5 --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model mistral/mistral-small-latest --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model openai/gpt-4.1 --prompt "Reply with exactly: pong" --jsonopenclaw infer model run --local --model ollama/qwen2.5vl:7b --prompt "Describe this image." --file ./photo.jpg --jsonNotas:
- Local
model runes la prueba de humo CLI más estrecha para la salud del proveedor/modelo/autenticación porque, para los proveedores que no son Codex, envía solo el mensaje suministrado al modelo seleccionado. - Local
model run --model <provider/model>puede usar filas exactas del catálogo estático incluido demodels list --allantes de que ese proveedor se escriba en la configuración. La autenticación del proveedor aún es necesaria; las credenciales faltantes fallan como errores de autenticación, no comoUnknown model. - Para las sondas de razonamiento Mistral Medium 3.5, deje la temperatura sin establecer/predeterminada. Mistral rechaza
reasoning_effort="high"mástemperature: 0; usemistral/mistral-medium-3-5con la temperatura predeterminada o un valor distinto de cero del modo de razonamiento, como0.7. - Las sondas locales
openai-codex/*son la excepción estrecha: OpenClaw añade una instrucción mínima del sistema para que el transporte Codex Responses pueda completar su campo requeridoinstructions, sin añadir el contexto completo del agente, herramientas, memoria o transcripción de la sesión. - Local
model run --filemantiene esa ruta ajustada y adjunta el contenido de la imagen directamente al mensaje único del usuario. Los archivos de imagen comunes como PNG, JPEG y WebP funcionan cuando su tipo MIME se detecta comoimage/*; los archivos no compatibles o no reconocidos fallan antes de llamar al proveedor. model run --filees mejor cuando desea probar directamente el modelo de texto multimodal seleccionado. Useinfer image describecuando desee la selección de proveedor de comprensión de imágenes y el enrutamiento de modelo de imagen predeterminado de OpenClaw.- El modelo seleccionado debe admitir la entrada de imagen; los modelos de solo texto pueden rechazar la solicitud en la capa del proveedor.
model run --promptdebe contener texto que no sea solo espacios en blanco; los mensajes vacíos se rechazan antes de llamar a los proveedores locales o al Gateway.- Local
model runsale con un valor distinto de cero cuando el proveedor no devuelve ninguna salida de texto, por lo que los proveedores locales inalcanzables y las finalizaciones vacías no parecen sondas exitosas. - Use
model run --gatewaycuando necesites probar el enrutamiento de Gateway, la configuración del agente-runtime o el estado del proveedor administrado por Gateway, manteniendo la entrada del modelo en bruto. Useopenclaw agento superficies de chat cuando desee el contexto completo del agente, herramientas, memoria y la transcripción de la sesión. model auth login,model auth logoutymodel auth statusgestionan el estado de autenticación guardado del proveedor.
Use image para generación, edición y descripción.
openclaw infer image generate --prompt "friendly lobster illustration" --jsonopenclaw infer image generate --prompt "cinematic product photo of headphones" --jsonopenclaw infer image generate --model openai/gpt-image-1.5 --output-format png --background transparent --prompt "simple red circle sticker on a transparent background" --jsonopenclaw infer image generate --prompt "slow image backend" --timeout-ms 180000 --jsonopenclaw infer image edit --file ./logo.png --model openai/gpt-image-1.5 --output-format png --background transparent --prompt "keep the logo, remove the background" --jsonopenclaw infer image edit --file ./poster.png --prompt "make this a vertical story ad" --size 2160x3840 --aspect-ratio 9:16 --resolution 4K --jsonopenclaw infer image describe --file ./photo.jpg --jsonopenclaw infer image describe --file https://example.com/photo.png --jsonopenclaw infer image describe --file ./receipt.jpg --prompt "Extract the merchant, date, and total" --jsonopenclaw infer image describe-many --file ./before.png --file ./after.png --prompt "Compare the screenshots and list visible UI changes" --jsonopenclaw infer image describe --file ./ui-screenshot.png --model openai/gpt-4.1-mini --jsonopenclaw infer image describe --file ./photo.jpg --model ollama/qwen2.5vl:7b --prompt "Describe the image in one sentence" --timeout-ms 300000 --jsonNotas:
-
Use
image editcuando comience desde archivos de entrada existentes. -
Use
--size,--aspect-ratioo--resolutionconimage editpara proveedores/modelos que admiten sugerencias geométricas en ediciones de imágenes de referencia. -
Use
--output-format png --background transparentcon--model openai/gpt-image-1.5para obtener salida PNG de OpenAI con fondo transparente;--openai-backgroundsigue disponible como un alias específico de OpenAI. Los proveedores que no declaran compatibilidad con fondos reportan la sugerencia como una invalidación ignorada. -
Use
image providers --jsonpara verificar qué proveedores de imágenes incluidos son descubribles, configurados, seleccionados y qué capacidades de generación/edición expone cada proveedor. -
Use
image generate --model <provider/model> --jsoncomo la prueba de humo (smoke) más estrecha de la CLI en vivo para cambios en la generación de imágenes. Ejemplo:Ventana de terminal openclaw infer image providers --jsonopenclaw infer image generate \--model google/gemini-3.1-flash-image-preview \--prompt "Minimal flat test image: one blue square on a white background, no text." \--output ./openclaw-infer-image-smoke.png \--jsonLa respuesta JSON reporta
ok,provider,model,attemptsy las rutas de salida escritas. Cuando se establece--output, la extensión final puede seguir el tipo MIME devuelto por el proveedor. -
Para
image describeyimage describe-many, use--promptpara dar al modelo de visión una instrucción específica de la tarea, como OCR, comparación, inspección de UI o subtítulos concisos. -
Use
--timeout-mscon modelos de visión locales lentos o inicios en frío de Ollama. -
Para
image describe,--modeldebe ser un<provider/model>con capacidad de imagen. -
Para los modelos de visión locales de Ollama, primero extraiga el modelo y establezca
OLLAMA_API_KEYen cualquier valor de marcador de posición, por ejemploollama-local. Consulte Ollama.
Use audio para la transcripción de archivos.
openclaw infer audio transcribe --file ./memo.m4a --jsonopenclaw infer audio transcribe --file ./team-sync.m4a --language en --prompt "Focus on names and action items" --jsonopenclaw infer audio transcribe --file ./memo.m4a --model openai/whisper-1 --jsonNotas:
audio transcribees para la transcripción de archivos, no para la gestión de sesiones en tiempo real.--modeldebe ser<provider/model>.
Use tts para la síntesis de voz y el estado del proveedor de TTS.
openclaw infer tts convert --text "hello from openclaw" --output ./hello.mp3 --jsonopenclaw infer tts convert --text "Your build is complete" --output ./build-complete.mp3 --jsonopenclaw infer tts providers --jsonopenclaw infer tts status --jsonNotas:
tts statustiene como valor predeterminado gateway porque refleja el estado de TTS gestionado por el gateway.- Use
tts providers,tts voicesytts set-providerpara inspeccionar y configurar el comportamiento de TTS.
Use video para la generación y la descripción.
openclaw infer video generate --prompt "cinematic sunset over the ocean" --jsonopenclaw infer video generate --prompt "slow drone shot over a forest lake" --resolution 768P --duration 6 --jsonopenclaw infer video describe --file ./clip.mp4 --jsonopenclaw infer video describe --file ./clip.mp4 --model openai/gpt-4.1-mini --jsonNotas:
video generateacepta--size,--aspect-ratio,--resolution,--duration,--audio,--watermarky--timeout-msy los reenvía al tiempo de ejecución de generación de video.--modeldebe ser<provider/model>paravideo describe.
Use web para flujos de trabajo de búsqueda y recuperación.
openclaw infer web search --query "OpenClaw docs" --jsonopenclaw infer web search --query "OpenClaw infer web providers" --jsonopenclaw infer web fetch --url https://docs.openclaw.ai/cli/infer --jsonopenclaw infer web providers --jsonNotas:
- Use
web providerspara inspeccionar los proveedores disponibles, configurados y seleccionados.
Embedding
Sección titulada «Embedding»Use embedding para la creación de vectores y la inspección de proveedores de incrustaciones (embedding).
openclaw infer embedding create --text "friendly lobster" --jsonopenclaw infer embedding create --text "customer support ticket: delayed shipment" --model openai/text-embedding-3-large --jsonopenclaw infer embedding providers --jsonSalida JSON
Sección titulada «Salida JSON»Los comandos de inferencia normalizan la salida JSON bajo un sobre compartido:
{ "ok": true, "capability": "image.generate", "transport": "local", "provider": "openai", "model": "gpt-image-2", "attempts": [], "outputs": []}Los campos de nivel superior son estables:
okcapabilitytransportprovidermodelattemptsoutputserror
Para los comandos de medios generados, outputs contiene los archivos escritos por OpenClaw. Use
path, mimeType, size, y cualquier dimensión específica del medio en esa matriz
para la automatización en lugar de analizar el stdout legible por humanos.
Errores comunes
Sección titulada «Errores comunes»# Badopenclaw infer media image generate --prompt "friendly lobster"
# Goodopenclaw infer image generate --prompt "friendly lobster"# Badopenclaw infer audio transcribe --file ./memo.m4a --model whisper-1 --json
# Goodopenclaw infer audio transcribe --file ./memo.m4a --model openai/whisper-1 --jsonopenclaw capability ...es un alias paraopenclaw infer ....