Qu'est-ce que le fichier robots.txt ?
Le fichier robots.txt est un fichier texte place a la racine de votre site web, accessible a l'adresse votresite.com/robots.txt. Son role est de communiquer avec les robots d'exploration (aussi appeles crawlers ou spiders) pour leur indiquer quelles parties de votre site ils sont autorises a visiter et lesquelles ils doivent ignorer.
Concrètement, quand Googlebot -- le robot d'exploration de Google -- arrivé sur votre site, la première chose qu'il fait est de chercher ce fichier. C'est un protocole standard défini par le Robots Exclusion Protocol, adopté par tous les moteurs de recherche depuis 1994. Le fichier n'est pas obligatoire : si votre site n'en possède pas, les crawlers considèrent qu'ils peuvent explorer toutes vos pages sans restriction.
Il faut le voir comme un panneau indicateur a l'entree de votre site. Ce n'est pas un mur : un robot mal configure ou malveillant peut choisir de l'ignorer. Mais les robots des moteurs de recherche majeurs (Google, Bing, Yahoo) le respectent systématiquement. C'est donc un outil simple mais puissant pour guider le crawl budget de votre site.
Comment fonctionne le robots.txt : syntaxe et directives
Le fichier robots.txt utilisé une syntaxe minimaliste. Chaque bloc d'instructions commence par une ligne User-agent qui designe le robot concerne, suivie d'une ou plusieurs directives Disallow ou Allow. Voici les elements que vous allez rencontrer.
La directive User-agent
Elle identifié le robot auquel s'adressent les règles qui suivent. L'asterisque * designe tous les robots :
User-agent: *
Vous pouvez aussi cibler un robot précis. Par exemple, pour donner des instructions spécifiques a Googlebot :
User-agent: Googlebot
Si un robot trouvé un bloc qui mentionne son nom ET un bloc generique (*), il suivra uniquement les instructions du bloc qui lui est spécifiquement adresse.
La directive Disallow
Disallow interdit l'exploration d'un chemin donné. Le chemin commence toujours par un slash / :
User-agent: *
Disallow: /wp-admin/
Disallow: /panier/
Disallow: /mon-compte/
Dans cet exemple, aucun robot ne pourra explorer les dossiers /wp-admin/, /panier/ et /mon-compte/. Les autres pages du site restent accessibles.
La directive Allow
Allow autorisé explicitement l'exploration d'un sous-chemin a l'intérieur d'un dossier bloque. C'est utile pour créer des exceptions :
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Ici, tout le dossier /wp-admin/ est bloque sauf le fichier admin-ajax.php, qui est nécessaire au bon fonctionnement de certains plugins WordPress en front-end.
La directive Sitemap
La directive Sitemap indique aux robots l'emplacement de votre sitemap XML. Elle se place en dehors de tout bloc User-agent, généralement en fin de fichier :
Sitemap: https://www.votresite.com/sitemap_index.xml
C'est un signal complementaire a la soumission du sitemap dans Google Search Console. L'URL doit être complète (avec le protocole HTTPS) et correspondre exactement a l'adresse réelle de votre sitemap.
Exemple complet commente
Voici a quoi ressemble un fichier robots.txt fonctionnel pour un site standard :
# Règles pour tous les robots
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /*/feed/
Disallow: /tag/
# Emplacement du sitemap
Sitemap: https://www.votresite.com/sitemap_index.xml
Les lignes precedees d'un # sont des commentaires : elles sont ignorees par les robots mais facilitent la lecture par les humains. C'est une bonne pratique pour documenter vos choix, surtout si plusieurs personnes interviennent sur le site.
Pourquoi le robots.txt est important en SEO
Le fichier robots.txt est votre levier principal pour orienter le crawl budget. En bloquant les sections sans valeur SEO -- résultats de recherche interne, pages d'administration, filtres e-commerce, pages de tri -- vous concentrez les ressources de Googlebot sur les pages qui doivent réellement apparaitre dans les résultats de recherche.
L'impact est particulièrement visible sur les sites de grande taille. Un catalogue e-commerce de 15 000 produits avec des filtres par taille, couleur et prix peut générer des dizaines de milliers d'URL parametrees. Si Googlebot passe son temps a explorer ces combinaisons sans valeur, vos nouvelles fiches produits et vos pages de catégorie stratégiques seront explorees moins souvent. Le robots.txt permet de couper net cette hemorragie de crawl.
Le robots.txt sert aussi a protéger des pages sensibles de l'exploration. Votre espace d'administration, vos pages de connexion, vos pages de confirmation de commande ou de remerciement après soumission d'un formulaire n'ont rien a faire dans Google. Les bloquer dans le robots.txt évite qu'elles apparaissent dans les résultats (même sous forme de liens sans extrait) et préservé votre budget de crawl pour les pages utiles.
Chez Transacts, l'audit du robots.txt fait partie de chaque analyse SEO que nous menons. Nous constatons régulièrement des sites ou ce fichier est soit absent, soit mal configure -- avec des consequences directes sur l'indexation Google des pages stratégiques. Un robots.txt bien pense est un prerequis technique, pas un bonus.
Exemples de fichiers robots.txt selon votre type de site
Site vitrine classique
Pour un site vitrine de PME avec quelques dizaines de pages, le robots.txt reste simple. L'objectif est de bloquer les dossiers techniques et de declarer le sitemap :
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /?s=
Sitemap: https://www.votresite.com/sitemap_index.xml
Site e-commerce (WordPress + WooCommerce)
Les sites e-commerce génèrent beaucoup d'URL parasites. Il faut bloquer les pages de panier, de compte client, de commande et les filtres de tri :
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /panier/
Disallow: /mon-compte/
Disallow: /commande/
Disallow: /merci/
Disallow: /?s=
Disallow: /*?orderby=
Disallow: /*?filter_
Sitemap: https://www.votresite.com/sitemap_index.xml
Bloquer les robots d'intelligence artificielle
Depuis 2023, des robots d'IA parcourent le web pour alimenter leurs modeles de langage. Si vous ne souhaitez pas que votre contenu serve a entraîner ces modeles, vous pouvez les bloquer individuellement :
# Blocage des robots d'IA
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Attention : Disallow bloque le crawl, mais pas nécessairement l'utilisation de votre contenu déjà scrape. Pour une protection plus complète, combinez le robots.txt avec un en-tete HTTP X-Robots-Tag: noai, noimageai.
Les erreurs courantes a éviter avec le robots.txt
Bloquer l'exploration de tout le site
La directive Disallow: / sous User-agent: * interdit a tous les robots d'explorer la moindre page de votre site. C'est la cause numéro un de deindexation accidentelle lors d'une migration ou d'une mise en production. Verifiez toujours votre robots.txt après un déploiement -- une ligne oubliee depuis l'environnement de pre-production peut rendre votre site invisible dans Google en quelques jours.
Bloquer les fichiers CSS et JavaScript
Bloquer /wp-content/thèmes/ ou /wp-content/plugins/ empêche Googlebot d'acceder a vos feuilles de style et scripts. Or Google a besoin de ces fichiers pour afficher votre site tel que vos visiteurs le voient (rendering). Si Googlebot ne peut pas interpreter votre mise en page, il risque de considérer votre contenu comme mal structure, ce qui peut degrader vos positions.
Confondre blocage de crawl et blocage d'indexation
C'est l'erreur la plus repandue. Le fichier robots.txt bloque le crawl : Google ne visite pas la page. Mais il ne bloque pas l'indexation. Si d'autres sites font des liens vers une page bloquee par robots.txt, Google peut quand même l'indexer -- avec un titre et un extrait generiques tires des ancres de liens externes. Pour réellement empêcher l'indexation d'une page, vous devez utiliser la balise <meta name="robots" content="noindex">. Et pour que Google voie cette balise, il faut qu'il puisse acceder a la page -- donc ne pas la bloquer dans le robots.txt.
Placer le fichier au mauvais endroit
Le robots.txt doit se trouver strictement a la racine du domaine : https://www.votresite.com/robots.txt. Un fichier place dans un sous-dossier (/blog/robots.txt) ou sur un sous-domaine différent est tout simplement ignore par les crawlers. Chaque sous-domaine (www, blog, shop) a besoin de son propre fichier robots.txt a sa racine.
Oublier le protocole HTTPS dans l'URL du sitemap
La directive Sitemap exige une URL absolue. Si votre site est en HTTPS et que vous declarez le sitemap XML en HTTP, les moteurs de recherche peuvent l'ignorer ou signaler une incoherence. Assurez-vous que le protocole correspond exactement a celui de votre site en production.
Comment vérifier et tester votre fichier robots.txt
Avant de déployer votre robots.txt en production, testez-le. Google proposé un outil dédié dans sa documentation officielle sur le robots.txt. Vous pouvez y saisir une URL et vérifier si elle est bloquee ou autorisée selon vos règles.
Dans Google Search Console, la section Paramètres > Exploration > robots.txt affiche la dernière version que Googlebot a télécharge, avec la date de dernière vérification. C'est le moyen le plus fiable de confirmer que Google lit bien la version actuelle de votre fichier.
Pour un test rapide en ligne de commande, une simple requete suffit :
curl https://www.votresite.com/robots.txt
Verifiez trois choses : le fichier est accessible (pas d'erreur 404 ou 500), les directives Disallow ne bloquent pas des pages stratégiques par erreur, et l'URL du sitemap est correcte et en HTTPS. Chez Transacts, cette vérification fait partie de notre routine d'audit du crawl sur chaque site client.
Questions fréquentes sur le fichier robots.txt
Le robots.txt empêche-t-il l'indexation ?
Non. Le fichier robots.txt empêche le crawl -- c'est-a-dire que Google ne visite pas la page. Mais il ne bloque pas l'indexation. Google peut indexer une page bloquee par robots.txt si elle est liée depuis d'autres pages ou des sites externes. Elle apparaitra alors dans les résultats avec un titre et un extrait generiques. Pour empêcher l'indexation, utilisez la balise <meta name="robots" content="noindex"> directement dans le code HTML de la page concernee.
Ou placer le fichier robots.txt ?
A la racine de votre domaine, a l'adresse exacte votresite.com/robots.txt. Google le cherche automatiquement a cette adresse. Un fichier robots.txt place dans un sous-dossier (comme /blog/robots.txt) est purement et simplement ignore. Si vous utilisez des sous-domaines (blog.votresite.com, shop.votresite.com), chaque sous-domaine a besoin de son propre fichier robots.txt a sa racine.
Faut-il bloquer les robots d'IA (GPTBot, ClaudeBot) ?
C'est recommandé si vous ne souhaitez pas que votre contenu serve a entraîner des modeles d'intelligence artificielle. Ajoutez un bloc User-agent: GPTBot suivi de Disallow: / pour chaque robot a bloquer (GPTBot, ChatGPT-User, ClaudeBot, CCBot, Bytespider, PerplexityBot, Google-Extended). Gardez a l'esprit que cela n'a aucun effet retroactif sur le contenu déjà collecte, et que certains robots moins connus peuvent ne pas respecter le protocole.
