Testeur Robots.txt
Teste si tes URLs sont bloquées par robots.txt. Colle ton fichier, saisis un chemin d'URL et vérifie l'accès pour Googlebot, Bingbot ou GPTBot.
Cet outil s'exécute entièrement dans ton navigateur. Aucune donnée n'est envoyée à un serveur.
Trouve ton robots.txt sur : tondomaine.com/robots.txt
URL non bloquée mais toujours pas indexée ?
Si ton robots.txt ne bloque pas la page mais que Google ne l'a toujours pas indexée, utilise IndexBolt pour la faire crawler en quelques heures.
Questions fréquentes
Qu'est-ce qu'un fichier robots.txt ?+
Un fichier robots.txt est un fichier texte placé à la racine de ton site web (par exemple example.com/robots.txt) qui indique aux robots des moteurs de recherche quelles pages ils peuvent et ne peuvent pas explorer. C'est un élément clé du Robots Exclusion Protocol.
robots.txt empêche-t-il les pages d'être indexées ?+
Pas exactement. robots.txt empêche le crawl, pas l'indexation. Si d'autres sites lient vers une page bloquée, Google peut quand même indexer l'URL (en l'affichant dans les résultats sans description). Pour empêcher l'indexation, utilise plutôt une balise meta noindex.
Que signifie « Disallow: / » dans robots.txt ?+
Disallow: / bloque tout le site contre le crawl par le user-agent spécifié. S'il s'applique à tous les user-agents (User-agent: *), aucun robot de moteur de recherche ne peut accéder à aucune page de ton site.
Comment fonctionne la correspondance de motifs dans robots.txt ?+
robots.txt utilise une correspondance de motifs simple. * correspond à toute séquence de caractères, et $ ancre à la fin de l'URL. Par exemple, Disallow: /*.pdf$ bloque toutes les URLs se terminant par .pdf. Quand plusieurs règles correspondent, le motif le plus spécifique (le plus long) l'emporte.
Puis-je bloquer des robots spécifiques comme GPTBot ?+
Oui. Ajoute une section User-agent: GPTBot avec Disallow: / pour bloquer le crawler d'OpenAI. De la même manière, tu peux cibler Googlebot, Bingbot ou n'importe quel crawler spécifique par son nom. Chaque bot ne lit que les règles de sa propre section (ou la section * comme repli).