robots.txt pour agents IA : comment contrôler quels bots lisent vos produits
Le nouveau paysage robots.txt
Le fichier robots.txt est une pierre angulaire de l'étiquette du crawl web depuis 1994. Mais en 2025, il a un nouveau rôle : gérer l'accès des agents IA. Les grandes entreprises d'IA ont introduit des crawlers dédiés — GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, GoogleOther (Google AI) et CCBot (Common Crawl, utilisé par de nombreuses sociétés d'IA) — chacun avec des comportements et des finalités distincts.
Pour les marchands e-commerce, cela impose une décision stratégique : quels bots IA autoriser, lesquels restreindre, et comment maximiser la visibilité shopping tout en protégeant les contenus sensibles ?
User-agents des principaux bots IA
Voici les crawlers IA à connaître :
GPTBot — Le crawler d'OpenAI. Alimente les recommandations produit et la navigation de ChatGPT. Le bloquer signifie que ChatGPT ne peut pas recommander vos produits.
ChatGPT-User — Le bot de navigation en temps réel d'OpenAI (quand un utilisateur demande à ChatGPT de visiter une URL). Différent de GPTBot qui crawle pour l'entraînement.
ClaudeBot / Claude-Web — Les crawlers d'Anthropic pour les connaissances de Claude et son accès au web.
PerplexityBot — Le crawler shopping et recherche de Perplexity.
GoogleOther — Le crawler IA dédié de Google, distinct de Googlebot (recherche).
CCBot — Le bot de Common Crawl, dont les données sont utilisées par de nombreuses sociétés d'IA pour l'entraînement.
Configuration recommandée pour le e-commerce
Pour la plupart des boutiques, la stratégie optimale est d'autoriser les bots IA shopping tout en restreignant l'accès aux zones sensibles :
# Agents IA shopping — AUTORISER les pages produit
User-agent: GPTBot
Allow: /products/
Allow: /collections/
Disallow: /account/
Disallow: /checkout/
Disallow: /cart/
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /products/
Allow: /collections/
Disallow: /account/
User-agent: PerplexityBot
Allow: /
User-agent: GoogleOther
Allow: /
# Bloquer l'entraînement IA sur le contenu non-produit
User-agent: CCBot
Disallow: /blog/
Allow: /products/
Cette configuration maximise la visibilité produit tout en protégeant les tunnels de paiement, les pages compte et (en option) le contenu blog de la collecte de données d'entraînement.
Comment MerchantStamp vérifie cela
L'audit AI Readiness de MerchantStamp inclut un contrôle « robots.txt AI-friendly » qui cherche les directives explicites pour les agents IA. Les boutiques qui mentionnent GPTBot, ClaudeBot ou d'autres user-agents IA dans leur robots.txt gagnent des points pour leur gestion proactive de la visibilité IA. Lancez un scan gratuit pour voir votre statut actuel.
Évaluez votre préparation à l'IA
Voyez comment les agents IA peuvent lire vos données produit.
Lancer un audit gratuit