Robots.txt Checker · gratuit, sans inscription

Robots.txt Checker : votre site bloque-t-il les IA ?

Ce robots.txt checker analyse votre fichier en direct et vous dit, en un clic, si ChatGPT, Claude, Perplexity, Gemini et les autres moteurs IA sont autorisés à lire votre site. Un robots.txt mal configuré peut vous rendre invisible dans les réponses des IA.

Le tool

Ce que vérifie ce robots.txt checker

Là où un testeur robots.txt classique se concentre sur Googlebot, ce checker est spécialisé dans les robots des IA génératives : ceux qui décident si votre site peut être lu et cité par ChatGPT, Claude, Perplexity ou Gemini. Saisissez votre domaine, il récupère votre fichier en direct et affiche :

  • Le statut de chaque robot

    Autorisé ou bloqué, pour chaque crawler d'IA connu, sur votre domaine.

  • La règle qui bloque

    La ligne exacte de votre robots.txt (Disallow, User-agent) responsable du blocage.

  • Le fichier récupéré

    Le robots.txt brut lu sur votre domaine, pour vérifier sa syntaxe d'un coup d'œil.

Les bases

Qu'est-ce qu'un robots.txt, et pourquoi les IA s'en soucient

Le robots.txt est le tout premier fichier qu'un crawler lit avant d'explorer un site. Placé à la racine du domaine (à l'adresse votredomaine.com/robots.txt), il dicte qui peut explorer quelles pages. Les moteurs de recherche le respectent, et les moteurs d'IA aussi.

Or les IA ont leurs propres robots. GPTBot et OAI-SearchBot alimentent ChatGPT, ClaudeBot alimente Claude, PerplexityBot alimente Perplexity, et Google-Extended couvre Gemini et les AI Overviews. Chacun lit votre robots.txt avant de décider s'il explore votre site.

Bloquer ces robots, volontairement ou par héritage d'un vieux fichier, revient à retirer votre site du champ de vision des IA. Vos pages existent toujours, mais les modèles ne les voient plus et ne peuvent donc plus vous citer dans leurs réponses. C'est exactement ce que cet outil détecte.

Mode d'emploi

Comment autoriser les IA dans votre robots.txt

  1. 1

    Localisez le fichier à l'adresse votredomaine.com/robots.txt. S'il renvoie une erreur 404, aucun robots.txt n'existe : tous les robots sont alors autorisés par défaut.

  2. 2

    Repérez les groupes User-agent qui contiennent un Disallow: / visant un robot d'IA (GPTBot, ClaudeBot, PerplexityBot, Google-Extended...).

  3. 3

    Autorisez ces robots en remplaçant la règle par Allow: /, ou en ajoutant un bloc dédié par robot. Voici un exemple de configuration correcte :

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /
FAQ

Questions fréquentes sur le robots.txt et les IA

Un robots.txt checker récupère le fichier robots.txt d'un domaine et indique, pour chaque robot d'exploration, s'il est autorisé ou bloqué, et par quelle règle. Le nôtre est spécialisé dans les robots des IA (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) : il vous dit en un clic si ChatGPT, Claude, Perplexity et Gemini peuvent lire votre site, et affiche le fichier robots.txt récupéré pour que vous puissiez en vérifier la syntaxe.

Oui, il est totalement gratuit et ne demande aucune inscription. Saisissez votre domaine : le checker récupère votre robots.txt en direct et affiche le résultat immédiatement. Vous pouvez l'utiliser autant de fois que vous le souhaitez.

Le robots.txt est un fichier texte placé à la racine d'un site, à l'adresse votredomaine.com/robots.txt. Il indique aux robots d'exploration quelles parties du site ils peuvent ou non parcourir. C'est le premier fichier qu'un crawler consulte avant d'explorer vos pages.

Les IA explorent le web avec des robots dédiés : GPTBot pour ChatGPT, ClaudeBot pour Claude, PerplexityBot pour Perplexity. Si votre robots.txt contient une règle Disallow qui vise l'un de ces robots, il n'explorera pas votre site. Cela arrive souvent par héritage d'un ancien fichier ou via un réglage par défaut de votre CMS.

Pour rester visible dans les réponses des IA grand public, autorisez au minimum GPTBot et OAI-SearchBot (ChatGPT), ClaudeBot (Claude), PerplexityBot (Perplexity) et Google-Extended (Gemini et AI Overviews). Notre outil affiche le statut de chacun sur votre domaine. Vous restez libre de bloquer les robots d'entraînement si vous ne voulez pas alimenter les modèles.

GPTBot sert surtout à l'entraînement des modèles d'OpenAI. Pour la recherche en direct, ChatGPT s'appuie aussi sur OAI-SearchBot et ChatGPT-User. Bloquer GPTBot réduit votre présence dans le corpus d'entraînement, mais c'est en autorisant l'ensemble de ces robots que vous maximisez vos chances d'être lu et cité.

Ouvrez le fichier à votredomaine.com/robots.txt, repérez les groupes User-agent qui contiennent un Disallow visant un robot d'IA, puis remplacez la règle par Allow: / pour ce robot. Vous pouvez aussi ajouter un bloc dédié par robot. Notre outil génère les lignes exactes à coller.

Il se situe toujours à la racine du domaine, à l'adresse votredomaine.com/robots.txt. Si cette adresse renvoie une page vide ou une erreur 404, aucun robots.txt n'est défini et tous les robots sont autorisés par défaut. Le fichier se modifie via votre hébergeur, votre CMS ou votre configuration serveur.

Non, c'est nécessaire mais pas suffisant. Pour être réellement cité, les IA doivent trouver des contenus qui parlent de votre marque dans des sources qu'elles jugent fiables, comme les discussions Reddit. C'est précisément l'approche GEO que nous mettons en place chez UpvotePartners.

Autoriser les robots, c'est la première marche

Pour être réellement cité par les IA, il faut aussi des contenus que les LLM jugent dignes de confiance. C'est exactement ce que nous faisons via Reddit. Réservez un audit gratuit pour voir où vous en êtes.