Aller au contenu principal
Transacts
Glossaire Digital9 min4 décembre 20251 769 mots

Fichier Robots.txt : Définition, Syntaxe et Guide SEO

Qu'est-ce que le fichier robots.txt ? Syntaxe, directives (Allow, Disallow, Sitemap), erreurs courantes et exemples concrets. Guide technique.

Par

Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte place a la racine de votre site web, accessible a l'adresse votresite.com/robots.txt. Son role est de communiquer avec les robots d'exploration (aussi appeles crawlers ou spiders) pour leur indiquer quelles parties de votre site ils sont autorises a visiter et lesquelles ils doivent ignorer.

Concrètement, quand Googlebot -- le robot d'exploration de Google -- arrivé sur votre site, la première chose qu'il fait est de chercher ce fichier. C'est un protocole standard défini par le Robots Exclusion Protocol, adopté par tous les moteurs de recherche depuis 1994. Le fichier n'est pas obligatoire : si votre site n'en possède pas, les crawlers considèrent qu'ils peuvent explorer toutes vos pages sans restriction.

Il faut le voir comme un panneau indicateur a l'entree de votre site. Ce n'est pas un mur : un robot mal configure ou malveillant peut choisir de l'ignorer. Mais les robots des moteurs de recherche majeurs (Google, Bing, Yahoo) le respectent systématiquement. C'est donc un outil simple mais puissant pour guider le crawl budget de votre site.

Comment fonctionne le robots.txt : syntaxe et directives

Le fichier robots.txt utilisé une syntaxe minimaliste. Chaque bloc d'instructions commence par une ligne User-agent qui designe le robot concerne, suivie d'une ou plusieurs directives Disallow ou Allow. Voici les elements que vous allez rencontrer.

La directive User-agent

Elle identifié le robot auquel s'adressent les règles qui suivent. L'asterisque * designe tous les robots :

User-agent: *

Vous pouvez aussi cibler un robot précis. Par exemple, pour donner des instructions spécifiques a Googlebot :

User-agent: Googlebot

Si un robot trouvé un bloc qui mentionne son nom ET un bloc generique (*), il suivra uniquement les instructions du bloc qui lui est spécifiquement adresse.

La directive Disallow

Disallow interdit l'exploration d'un chemin donné. Le chemin commence toujours par un slash / :

User-agent: *
Disallow: /wp-admin/
Disallow: /panier/
Disallow: /mon-compte/

Dans cet exemple, aucun robot ne pourra explorer les dossiers /wp-admin/, /panier/ et /mon-compte/. Les autres pages du site restent accessibles.

La directive Allow

Allow autorisé explicitement l'exploration d'un sous-chemin a l'intérieur d'un dossier bloque. C'est utile pour créer des exceptions :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Ici, tout le dossier /wp-admin/ est bloque sauf le fichier admin-ajax.php, qui est nécessaire au bon fonctionnement de certains plugins WordPress en front-end.

La directive Sitemap

La directive Sitemap indique aux robots l'emplacement de votre sitemap XML. Elle se place en dehors de tout bloc User-agent, généralement en fin de fichier :

Sitemap: https://www.votresite.com/sitemap_index.xml

C'est un signal complementaire a la soumission du sitemap dans Google Search Console. L'URL doit être complète (avec le protocole HTTPS) et correspondre exactement a l'adresse réelle de votre sitemap.

Exemple complet commente

Voici a quoi ressemble un fichier robots.txt fonctionnel pour un site standard :

# Règles pour tous les robots
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /*/feed/
Disallow: /tag/

# Emplacement du sitemap
Sitemap: https://www.votresite.com/sitemap_index.xml

Les lignes precedees d'un # sont des commentaires : elles sont ignorees par les robots mais facilitent la lecture par les humains. C'est une bonne pratique pour documenter vos choix, surtout si plusieurs personnes interviennent sur le site.

Pourquoi le robots.txt est important en SEO

Le fichier robots.txt est votre levier principal pour orienter le crawl budget. En bloquant les sections sans valeur SEO -- résultats de recherche interne, pages d'administration, filtres e-commerce, pages de tri -- vous concentrez les ressources de Googlebot sur les pages qui doivent réellement apparaitre dans les résultats de recherche.

L'impact est particulièrement visible sur les sites de grande taille. Un catalogue e-commerce de 15 000 produits avec des filtres par taille, couleur et prix peut générer des dizaines de milliers d'URL parametrees. Si Googlebot passe son temps a explorer ces combinaisons sans valeur, vos nouvelles fiches produits et vos pages de catégorie stratégiques seront explorees moins souvent. Le robots.txt permet de couper net cette hemorragie de crawl.

Le robots.txt sert aussi a protéger des pages sensibles de l'exploration. Votre espace d'administration, vos pages de connexion, vos pages de confirmation de commande ou de remerciement après soumission d'un formulaire n'ont rien a faire dans Google. Les bloquer dans le robots.txt évite qu'elles apparaissent dans les résultats (même sous forme de liens sans extrait) et préservé votre budget de crawl pour les pages utiles.

Chez Transacts, l'audit du robots.txt fait partie de chaque analyse SEO que nous menons. Nous constatons régulièrement des sites ou ce fichier est soit absent, soit mal configure -- avec des consequences directes sur l'indexation Google des pages stratégiques. Un robots.txt bien pense est un prerequis technique, pas un bonus.

Exemples de fichiers robots.txt selon votre type de site

Site vitrine classique

Pour un site vitrine de PME avec quelques dizaines de pages, le robots.txt reste simple. L'objectif est de bloquer les dossiers techniques et de declarer le sitemap :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /?s=

Sitemap: https://www.votresite.com/sitemap_index.xml

Site e-commerce (WordPress + WooCommerce)

Les sites e-commerce génèrent beaucoup d'URL parasites. Il faut bloquer les pages de panier, de compte client, de commande et les filtres de tri :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /panier/
Disallow: /mon-compte/
Disallow: /commande/
Disallow: /merci/
Disallow: /?s=
Disallow: /*?orderby=
Disallow: /*?filter_

Sitemap: https://www.votresite.com/sitemap_index.xml

Bloquer les robots d'intelligence artificielle

Depuis 2023, des robots d'IA parcourent le web pour alimenter leurs modeles de langage. Si vous ne souhaitez pas que votre contenu serve a entraîner ces modeles, vous pouvez les bloquer individuellement :

# Blocage des robots d'IA
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Attention : Disallow bloque le crawl, mais pas nécessairement l'utilisation de votre contenu déjà scrape. Pour une protection plus complète, combinez le robots.txt avec un en-tete HTTP X-Robots-Tag: noai, noimageai.

Les erreurs courantes a éviter avec le robots.txt

Bloquer l'exploration de tout le site

La directive Disallow: / sous User-agent: * interdit a tous les robots d'explorer la moindre page de votre site. C'est la cause numéro un de deindexation accidentelle lors d'une migration ou d'une mise en production. Verifiez toujours votre robots.txt après un déploiement -- une ligne oubliee depuis l'environnement de pre-production peut rendre votre site invisible dans Google en quelques jours.

Bloquer les fichiers CSS et JavaScript

Bloquer /wp-content/thèmes/ ou /wp-content/plugins/ empêche Googlebot d'acceder a vos feuilles de style et scripts. Or Google a besoin de ces fichiers pour afficher votre site tel que vos visiteurs le voient (rendering). Si Googlebot ne peut pas interpreter votre mise en page, il risque de considérer votre contenu comme mal structure, ce qui peut degrader vos positions.

Confondre blocage de crawl et blocage d'indexation

C'est l'erreur la plus repandue. Le fichier robots.txt bloque le crawl : Google ne visite pas la page. Mais il ne bloque pas l'indexation. Si d'autres sites font des liens vers une page bloquee par robots.txt, Google peut quand même l'indexer -- avec un titre et un extrait generiques tires des ancres de liens externes. Pour réellement empêcher l'indexation d'une page, vous devez utiliser la balise <meta name="robots" content="noindex">. Et pour que Google voie cette balise, il faut qu'il puisse acceder a la page -- donc ne pas la bloquer dans le robots.txt.

Placer le fichier au mauvais endroit

Le robots.txt doit se trouver strictement a la racine du domaine : https://www.votresite.com/robots.txt. Un fichier place dans un sous-dossier (/blog/robots.txt) ou sur un sous-domaine différent est tout simplement ignore par les crawlers. Chaque sous-domaine (www, blog, shop) a besoin de son propre fichier robots.txt a sa racine.

Oublier le protocole HTTPS dans l'URL du sitemap

La directive Sitemap exige une URL absolue. Si votre site est en HTTPS et que vous declarez le sitemap XML en HTTP, les moteurs de recherche peuvent l'ignorer ou signaler une incoherence. Assurez-vous que le protocole correspond exactement a celui de votre site en production.

Comment vérifier et tester votre fichier robots.txt

Avant de déployer votre robots.txt en production, testez-le. Google proposé un outil dédié dans sa documentation officielle sur le robots.txt. Vous pouvez y saisir une URL et vérifier si elle est bloquee ou autorisée selon vos règles.

Dans Google Search Console, la section Paramètres > Exploration > robots.txt affiche la dernière version que Googlebot a télécharge, avec la date de dernière vérification. C'est le moyen le plus fiable de confirmer que Google lit bien la version actuelle de votre fichier.

Pour un test rapide en ligne de commande, une simple requete suffit :

curl https://www.votresite.com/robots.txt

Verifiez trois choses : le fichier est accessible (pas d'erreur 404 ou 500), les directives Disallow ne bloquent pas des pages stratégiques par erreur, et l'URL du sitemap est correcte et en HTTPS. Chez Transacts, cette vérification fait partie de notre routine d'audit du crawl sur chaque site client.

Questions fréquentes sur le fichier robots.txt

Le robots.txt empêche-t-il l'indexation ?

Non. Le fichier robots.txt empêche le crawl -- c'est-a-dire que Google ne visite pas la page. Mais il ne bloque pas l'indexation. Google peut indexer une page bloquee par robots.txt si elle est liée depuis d'autres pages ou des sites externes. Elle apparaitra alors dans les résultats avec un titre et un extrait generiques. Pour empêcher l'indexation, utilisez la balise <meta name="robots" content="noindex"> directement dans le code HTML de la page concernee.

Ou placer le fichier robots.txt ?

A la racine de votre domaine, a l'adresse exacte votresite.com/robots.txt. Google le cherche automatiquement a cette adresse. Un fichier robots.txt place dans un sous-dossier (comme /blog/robots.txt) est purement et simplement ignore. Si vous utilisez des sous-domaines (blog.votresite.com, shop.votresite.com), chaque sous-domaine a besoin de son propre fichier robots.txt a sa racine.

Faut-il bloquer les robots d'IA (GPTBot, ClaudeBot) ?

C'est recommandé si vous ne souhaitez pas que votre contenu serve a entraîner des modeles d'intelligence artificielle. Ajoutez un bloc User-agent: GPTBot suivi de Disallow: / pour chaque robot a bloquer (GPTBot, ChatGPT-User, ClaudeBot, CCBot, Bytespider, PerplexityBot, Google-Extended). Gardez a l'esprit que cela n'a aucun effet retroactif sur le contenu déjà collecte, et que certains robots moins connus peuvent ne pas respecter le protocole.

Expertises liées

Cet article aborde des sujets que nous traitons dans le cadre de nos prestations :

Charles

Auteur

Fondateur & Directeur — SEO/GEO

Voir le profil

Besoin d'accompagnement ?

Diagnostic gratuit en 48h — on analyse votre site et on vous propose un plan d'action.

Diagnostic gratuit