Aller au contenu

Firecrawl

OpenClaw peut utiliser Firecrawl de trois manières :

  • en tant que provider web_search
  • en tant qu’outils de plugin explicites : firecrawl_search et firecrawl_scrape
  • en tant qu’extracteur de secours pour web_fetch

C’est un service d’extraction/recherche hébergé qui prend en charge la contournement des bots et la mise en cache, ce qui aide pour les sites lourds en JS ou les pages qui bloquent les récupérations HTTP simples.

  1. Créez un compte Firecrawl et générez une clé API.
  2. Stockez-la dans la configuration ou définissez FIRECRAWL_API_KEY dans l’environnement de la passerelle.
{
tools: {
web: {
search: {
provider: "firecrawl",
},
},
},
plugins: {
entries: {
firecrawl: {
enabled: true,
config: {
webSearch: {
apiKey: "FIRECRAWL_API_KEY_HERE",
baseUrl: "https://api.firecrawl.dev",
},
},
},
},
},
}

Notes :

  • Choisir Firecrawl lors de l’onboarding ou openclaw configure --section web active automatiquement le plugin Firecrawl groupé.
  • web_search avec Firecrawl prend en charge query et count.
  • Pour les contrôles spécifiques à Firecrawl comme sources, categories, ou le scraping de résultats, utilisez firecrawl_search.
  • baseUrlFirecrawl utilise par défaut Firecrawl hébergé sur https://api.firecrawl.dev. Les remplacements auto-hébergés ne sont autorisés que pour les points de terminaison privés/internes ; HTTP n’est accepté que pour ces cibles privées.
  • FIRECRAWL_BASE_URL est le repli d’environnement partagé pour les URL de base de recherche et de scraping Firecrawl.

Configurer le scraping Firecrawl + le repli web_fetch

Section intitulée « Configurer le scraping Firecrawl + le repli web_fetch »
{
plugins: {
entries: {
firecrawl: {
enabled: true,
config: {
webFetch: {
apiKey: "FIRECRAWL_API_KEY_HERE",
baseUrl: "https://api.firecrawl.dev",
onlyMainContent: true,
maxAgeMs: 172800000,
timeoutSeconds: 60,
},
},
},
},
},
}

Notes :

  • Les tentatives de repli Firecrawl ne s’exécutent que lorsqu’une clé API est disponible (plugins.entries.firecrawl.config.webFetch.apiKey ou FIRECRAWL_API_KEY).
  • maxAgeMs contrôle l’âge maximal des résultats mis en cache (ms). La valeur par défaut est de 2 jours.
  • L’ancienne configuration tools.web.fetch.firecrawl.* est automatiquement migrée par openclaw doctor --fix.
  • Les remplacements de l’URL de base de Firecrawl scrape suivent la même règle hébergé/privé que la recherche : le trafic hébergé public utilise Firecrawlhttps://api.firecrawl.dev ; les remplacements auto-hébergés doivent résoudre vers des points de terminaison privés/internes.
  • firecrawl_scrapeFirecrawl rejette les URL cibles évidemment privées, de bouclage, de métadonnées et non-HTTP(S) avant de les transmettre à Firecrawl, correspondant au contrat de sécurité des cibles web_fetchFirecrawl pour les appels de scrape explicites à Firecrawl.

firecrawl_scrape réutilise les mêmes paramètres plugins.entries.firecrawl.config.webFetch.* et variables d’environnement.

Définissez plugins.entries.firecrawl.config.webSearch.baseUrl, plugins.entries.firecrawl.config.webFetch.baseUrl, ou FIRECRAWL_BASE_URLFirecrawlOpenClaw lorsque vous exécutez vous-même Firecrawl. OpenClaw n’accepte http:// que pour les cibles de bouclage, réseau privé, .local, .internal ou .localhostFirecrawlAPI. Les hôtes personnalisés publics sont rejetés afin que les clés API Firecrawl ne soient pas envoyées par accident à des points de terminaison arbitraires.

Utilisez ceci lorsque vous souhaitez des contrôles de recherche spécifiques à Firecrawl au lieu de Firecrawlweb_search générique.

Paramètres principaux :

  • query
  • count
  • sources
  • categories
  • scrapeResults
  • timeoutSeconds

Utilisez ceci pour les pages lourdes en JS ou protégées par des bots où le web_fetch simple est faible.

Paramètres principaux :

  • url
  • extractMode
  • maxChars
  • onlyMainContent
  • maxAgeMs
  • proxy
  • storeInCache
  • timeoutSeconds

Firecrawl expose un paramètre de mode proxy pour le contournement des bots (Firecrawlbasic, stealth ou autoOpenClaw). OpenClaw utilise toujours proxy: "auto" plus storeInCache: trueFirecrawlFirecrawl pour les requêtes Firecrawl. Si le proxy est omis, Firecrawl utilise par défaut auto. auto réessaie avec des proxies furtifs si une tentative de base échoue, ce qui peut consommer plus de crédits qu’un scraping basique uniquement.

Ordre d’extraction web_fetch :

  1. Lisibilité (local)
  2. Firecrawl (si sélectionné ou détecté automatiquement comme le fallback web-fetch actif)
  3. Nettoyage HTML basique (dernier recours)

Le sélecteur est tools.web.fetch.providerOpenClawFirecrawl. Si vous l’omettez, OpenClaw détecte automatiquement le premier fournisseur web-fetch prêt parmi les informations d’identification disponibles. Aujourd’hui, le fournisseur inclus est Firecrawl.