Firecrawl
OpenClaw 可以通过三种方式使用 Firecrawl:
- 作为
web_search提供商 - 作为显式插件工具:
firecrawl_search和firecrawl_scrape - 作为
web_fetch的备用提取器
它是一个托管的提取/搜索服务,支持绕过机器人和缓存, 这有助于处理重度 JS 的站点或阻止普通 HTTP 获取的页面。
获取 API key
Section titled “获取 API key”- 创建 Firecrawl 帐户并生成 API key。
- 将其存储在配置中,或在网关环境中设置
FIRECRAWL_API_KEY。
配置 Firecrawl 搜索
Section titled “配置 Firecrawl 搜索”{ tools: { web: { search: { provider: "firecrawl", }, }, }, plugins: { entries: { firecrawl: { enabled: true, config: { webSearch: { apiKey: "FIRECRAWL_API_KEY_HERE", baseUrl: "https://api.firecrawl.dev", }, }, }, }, },}注意事项:
- 在新手引导或
openclaw configure --section web中选择 Firecrawl 会自动启用内置的 Firecrawl 插件。 - 配合 Firecrawl 使用
web_search支持query和count。 - 对于 Firecrawl 特有的控制,如
sources、categories或结果抓取,请使用firecrawl_search。 baseUrlFirecrawl 默认使用托管于https://api.firecrawl.dev的 Firecrawl。仅允许对私有/内部端点进行自托管覆盖;仅对这些私有目标接受 HTTP。FIRECRAWL_BASE_URL是 Firecrawl 搜索和抓取基础 URL 的共享环境变量后备。
配置 Firecrawl 抓取 + web_fetch 回退
Section titled “配置 Firecrawl 抓取 + web_fetch 回退”{ plugins: { entries: { firecrawl: { enabled: true, config: { webFetch: { apiKey: "FIRECRAWL_API_KEY_HERE", baseUrl: "https://api.firecrawl.dev", onlyMainContent: true, maxAgeMs: 172800000, timeoutSeconds: 60, }, }, }, }, },}注意事项:
- Firecrawl 回退尝试仅在提供 API key 时运行(
plugins.entries.firecrawl.config.webFetch.apiKey或FIRECRAWL_API_KEY)。 maxAgeMs控制缓存结果的有效期(毫秒)。默认为 2 天。- 旧的
tools.web.fetch.firecrawl.*配置会由openclaw doctor --fix自动迁移。 - Firecrawl 抓取/基础 URL 覆盖遵循与搜索相同的托管/私有规则:公共托管流量使用 Firecrawl
https://api.firecrawl.dev;自托管覆盖必须解析为私有/内部端点。 firecrawl_scrapeFirecrawl 在将目标 URL 转发给 Firecrawl 之前,会拒绝明显的私有、环回、元数据和非 HTTP(S) 目标 URL,这符合显式 Firecrawl 抓取调用的web_fetchFirecrawl 目标安全性约定。
firecrawl_scrape 重用相同的 plugins.entries.firecrawl.config.webFetch.* 设置和环境变量。
自托管 Firecrawl
Section titled “自托管 Firecrawl”当你自己运行 Firecrawl 时,请设置 plugins.entries.firecrawl.config.webSearch.baseUrl、
plugins.entries.firecrawl.config.webFetch.baseUrl 或 FIRECRAWL_BASE_URLFirecrawlOpenClaw。
OpenClaw 仅对环回、私有网络、.local、.internal 或 .localhostFirecrawlAPI 目标接受 http://。公共自定义
主机将被拒绝,以防止 Firecrawl API 密钥意外发送到任意端点。
Firecrawl 插件工具
Section titled “Firecrawl 插件工具”firecrawl_search
Section titled “firecrawl_search”当你想要 Firecrawl 特定的搜索控件而不是通用的 Firecrawlweb_search 时,请使用此工具。
核心参数:
querycountsourcescategoriesscrapeResultstimeoutSeconds
firecrawl_scrape
Section titled “firecrawl_scrape”对于纯 web_fetch 表现不佳的 JS 重型或受机器人保护的页面,请使用此工具。
核心参数:
urlextractModemaxCharsonlyMainContentmaxAgeMsproxystoreInCachetimeoutSeconds
隐身 / 绕过机器人检测
Section titled “隐身 / 绕过机器人检测”Firecrawl 暴露了一个 proxy mode 参数用于绕过机器人检测(basic、stealth 或 auto)。
OpenClaw 对 Firecrawl 请求始终使用 proxy: "auto" 加上 storeInCache: true。
如果省略 proxy,Firecrawl 默认使用 auto。如果基本尝试失败,auto 会使用隐身代理重试,这可能会比仅使用基本抓取消耗更多额度。
web_fetch 如何使用 Firecrawl
Section titled “web_fetch 如何使用 Firecrawl”web_fetch 提取顺序:
- Readability(本地)
- Firecrawl(如果被选中或自动检测为活动 web-fetch 后备)
- 基本 HTML 清理(最后后备)
选择旋钮是 tools.web.fetch.provider。如果省略它,OpenClaw 会从可用凭据中自动检测第一个就绪的 web-fetch 提供商。
目前内置的提供商是 Firecrawl。
- Web Search 概述 — 所有提供商和自动检测
- Web Fetch — 带有 Firecrawl 后备的 web_fetch 工具
- Tavily — 搜索 + 提取工具