Herramienta PDF
pdf analiza uno o más documentos PDF y devuelve texto.
Comportamiento rápido:
- Modo de proveedor nativo para los proveedores de modelos Anthropic y Google.
- Modo de respaldo de extracción para otros proveedores (extrae texto primero, luego imágenes de página cuando sea necesario).
- Admite entrada única (
pdf) o múltiple (pdfs), máximo 10 PDFs por llamada.
Disponibilidad
Sección titulada «Disponibilidad»La herramienta solo se registra cuando OpenClaw puede resolver una configuración de modelo con capacidad PDF para el agente:
agents.defaults.pdfModel- respaldo a
agents.defaults.imageModel - respaldo al modelo de sesión/predeterminado resuelto del agente
- si los proveedores de PDF nativos están respaldados por autenticación, preferirlos antes que los candidatos de respaldo de imagen genéricos
Si no se puede resolver ningún modelo utilizable, la herramienta pdf no se expone.
Notas de disponibilidad:
- La cadena de respaldo es consciente de la autenticación. Un
provider/modelconfigurado solo cuenta si OpenClaw puede autenticar realmente ese proveedor para el agente. - Los proveedores de PDF nativos son actualmente Anthropic y Google.
- Si el proveedor de sesión/predeterminado resuelto ya tiene un modelo de visión/PDF configurado, la herramienta PDF reutiliza eso antes de recurrir a otros proveedores respaldados por autenticación.
Referencia de entrada
Sección titulada «Referencia de entrada»Notas de entrada:
pdfypdfsse combinan y se eliminan los duplicados antes de la carga.- Si no se proporciona ninguna entrada de PDF, la herramienta devuelve un error.
pagesse analiza como números de página basados en 1, se eliminan duplicados, se ordenan y se limitan al máximo de páginas configurado.maxBytesMbtiene como valor predeterminadoagents.defaults.pdfMaxBytesMbo10.
Referencias de PDF admitidas
Sección titulada «Referencias de PDF admitidas»- ruta de archivo local (incluida la expansión de
~) - URL
file:// - URL
http://yhttps:// - Referencias entrantes gestionadas por OpenClaw, como
media://inbound/<id>
Notas de referencia:
- Otros esquemas de URI (por ejemplo,
ftp://) se rechazan conunsupported_pdf_reference. - En modo sandbox, se rechazan las URLs remotas de
http(s). - Con la política de solo espacio de trabajo habilitada, se rechazan las rutas de archivos locales fuera de las raíces permitidas.
- Se permiten las referencias entrantes gestionadas y las rutas reproducidas en el almacén de medios entrantes de OpenClaw con una política de archivos solo del espacio de trabajo.
Modos de ejecución
Sección titulada «Modos de ejecución»Modo de proveedor nativo
Sección titulada «Modo de proveedor nativo»El modo nativo se utiliza para los proveedores anthropic y google.
La herramienta envía los bytes PDF brutos directamente a las API del proveedor.
Límites del modo nativo:
pagesno es compatible. Si se establece, la herramienta devuelve un error.- Se admite la entrada de varios PDF; cada PDF se envía como un bloque de documento nativo / parte PDF en línea antes del prompt.
Modo de alternativa de extracción
Sección titulada «Modo de alternativa de extracción»El modo de alternativa se utiliza para proveedores no nativos.
Flujo:
- Extraer texto de las páginas seleccionadas (hasta
agents.defaults.pdfMaxPages, valor predeterminado20). - Si la longitud del texto extraído es inferior a
200caracteres, representar las páginas seleccionadas como imágenes PNG e incluirlas. - Enviar el contenido extraído más el prompt al modelo seleccionado.
Detalles de la alternativa:
- La extracción de imágenes de páginas utiliza un presupuesto de píxeles de
4,000,000. - Si el modelo de destino no admite entrada de imagen y no hay texto extraíble, la herramienta devuelve un error.
- Si la extracción de texto tiene éxito pero la extracción de imágenes requeriría visión en un modelo de solo texto, OpenClaw descarta las imágenes renderizadas y continúa con el texto extraído.
- El respaldo de extracción utiliza el complemento incluido
document-extract. El complemento es propietario depdfjs-dist;@napi-rs/canvasse usa solo cuando el respaldo de renderizado de imágenes está disponible.
Configuración
Sección titulada «Configuración»{ agents: { defaults: { pdfModel: { primary: "anthropic/claude-opus-4-6", fallbacks: ["openai/gpt-5.4-mini"], }, pdfMaxBytesMb: 10, pdfMaxPages: 20, }, },}Consulte Referencia de configuración para obtener detalles completos de los campos.
Detalles de la salida
Sección titulada «Detalles de la salida»La herramienta devuelve texto en content[0].text y metadatos estructurados en details.
Campos comunes de details:
model: referencia de modelo resuelta (provider/model)native:truepara el modo de proveedor nativo,falsepara el respaldoattempts: intentos de respaldo que fallaron antes del éxito
Campos de ruta:
- entrada de un solo PDF:
details.pdf - entradas de múltiples PDFs:
details.pdfs[]conpdfentradas - metadatos de reescritura de ruta de sandbox (cuando corresponda):
rewrittenFrom
Comportamiento de error
Sección titulada «Comportamiento de error»- Falta la entrada del PDF: lanza
pdf required: provide a path or URL to a PDF document - Demasiados PDFs: devuelve un error estructurado en
details.error = "too_many_pdfs" - Esquema de referencia no admitido: devuelve
details.error = "unsupported_pdf_reference" - Modo nativo con
pages: lanza un errorpages is not supported with native PDF providersclaro
Ejemplos
Sección titulada «Ejemplos»Un solo PDF:
{ "pdf": "/tmp/report.pdf", "prompt": "Summarize this report in 5 bullets"}Múltiples PDFs:
{ "pdfs": ["/tmp/q1.pdf", "/tmp/q2.pdf"], "prompt": "Compare risks and timeline changes across both documents"}Modelo de respaldo filtrado por páginas:
{ "pdf": "https://example.com/report.pdf", "pages": "1-3,7", "model": "openai/gpt-5.4-mini", "prompt": "Extract only customer-impacting incidents"}Relacionado
Sección titulada «Relacionado»- Resumen de herramientas - todas las herramientas de agente disponibles
- Referencia de configuración - configuración de pdfMaxBytesMb y pdfMaxPages