Votre robots.txt peut interdire l'accès de Google à votre meilleur contenu — sans vous en avertir. Une seule ligne mal écrite suffit à désindexer des dizaines de pages stratégiques.

Le fichier robots.txt est la première instruction que les robots de Google lisent quand ils explorent votre site. Il est public, accessible à n'importe qui à l'adresse monsite.com/robots.txt, et pourtant il reste l'une des sources d'erreurs SEO les plus fréquentes et les plus silencieuses. Un mauvais Disallow ne génère aucune alerte dans Google Search Console — Google obéit, sans vous prévenir.

Cet article explique comment fonctionne le robots.txt, comment l'auditer et comment l'optimiser pour maximiser votre budget de crawl sans bloquer ce que vous voulez voir indexé.

TL;DR — Ce qu'il faut retenir

Voici ce que font les sites qui rankent en top 3 :

  • Placer le robots.txt à la racine du domaine, un fichier par sous-domaine

  • Bloquer uniquement les répertoires sans valeur SEO (admin, panier, comptes)

  • Ne jamais bloquer les fichiers CSS, JS et images dont Google a besoin pour le rendu

  • Indiquer l'URL du sitemap XML en fin de fichier pour faciliter l'indexation

  • Tester chaque modification avec l'outil de test robots.txt de Google Search Console


Qu'est-ce que le fichier robots.txt et pourquoi est-il critique pour le SEO

Le robots.txt désigne un fichier texte placé à la racine de votre site web qui donne des instructions aux robots des moteurs de recherche sur les pages et répertoires à explorer ou à ignorer. Google, Bing et la quasi-totalité des moteurs respectent ce fichier dès leur première visite — avant toute autre instruction.

Sa criticité tient à une asymétrie : les erreurs dans ce fichier sont silencieuses. Contrairement aux erreurs 404 ou aux problèmes de canonicalisation que vous pouvez détecter dans Google Search Console, un Disallow mal placé n'envoie aucune alerte. Google obéit simplement, et vos pages disparaissent progressivement de l'index sans raison apparente.

COMPARAISON — Robots.txt vs autres méthodes d'exclusion

Méthode

Robots.txt

Balise noindex

Mot de passe serveur

Bloque l'exploration

Oui

Non (crawl ok)

Oui

Bloque l'indexation

Non (indirect)

Oui (direct)

Oui

Page reste dans l'index

Possible

Non

Non

Idéal pour

Répertoires techniques

Pages sans valeur SEO

Zones confidentielles

Source : Google Search Central — Introduction au fichier robots.txt (2025)

Un point souvent mal compris : bloquer une page dans le robots.txt ne l'exclut pas de l'index. Google peut maintenir une URL dans son index si d'autres pages la mentionnent, même sans jamais l'avoir explorée. Pour désindexer, il faut combiner robots.txt (pour stopper le crawl) et balise noindex (pour stopper l'indexation).


La structure du fichier robots.txt : directives et syntaxe

Le fichier robots.txt fonctionne par blocs de règles. Chaque bloc commence par un User-agent qui identifie le robot ciblé, suivi de directives Disallow (interdiction) ou Allow (autorisation explicite).

La syntaxe de base est stricte : un espace après les deux-points, une directive par ligne, des chemins relatifs (pas d'URL complètes). Une erreur de syntaxe peut rendre le fichier entier invalide — Google l'ignore alors et explore tout.

CHECKLIST — Structure d'un robots.txt correct

Directive

Rôle

Exemple

User-agent: *

Cible tous les robots

User-agent: *

User-agent: Googlebot

Cible Google uniquement

User-agent: Googlebot

Disallow: /chemin/

Bloque le répertoire

Disallow: /admin/

Allow: /chemin/

Autorise explicitement

Allow: /wp-admin/admin-ajax.php

Sitemap:

Indique l'URL du sitemap

Sitemap: https://monsite.com/sitemap.xml

Le caractère * dans User-agent: * signifie « s'applique à tous les robots non ciblés par une règle spécifique ». Si vous ajoutez un bloc User-agent: Googlebot, ses règles remplacent les règles générales pour Google uniquement.

Exemple de robots.txt recommandé pour un site standard

Voici la structure minimale correcte pour un site WordPress standard :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /panier/
Disallow: /mon-compte/
Sitemap: https://www.monsite.com/sitemap.xml

Ce fichier bloque les zones administratives et personnelles, tout en autorisant l'appel AJAX nécessaire au bon fonctionnement du front-end. Il indique le sitemap pour faciliter l'indexation des contenus utiles.


Les erreurs robots.txt qui détruisent votre SEO

Certaines configurations de robots.txt reviennent systématiquement dans les audits SEO techniques. Elles ont en commun d'être invisibles dans l'interface et catastrophiques pour l'indexation.

ATTENTION — Les 5 erreurs robots.txt les plus fréquentes

Erreur

Conséquence

Solution

Disallow: / sur tout le site

Désindexation complète du site

Vérifier immédiatement le fichier

Bloquer les CSS et JS

Google ne peut pas rendre les pages, pénalise le site

Autoriser explicitement ces ressources

Bloquer les images

Exclusion de Google Images

Supprimer le Disallow sur /images/

Oublier le sitemap

Indexation plus lente et partielle

Ajouter la directive Sitemap:

Un robots.txt par site entier (multi-sous-domaine)

Règles non appliquées sur les sous-domaines

Créer un fichier par sous-domaine

Source : Google Search Central — Bonnes pratiques robots.txt (2025)

L'erreur la plus commune que nous observons dans les audits : bloquer le répertoire /wp-content/ pour cacher les plugins — ce qui bloque aussi les fichiers CSS et JavaScript dont Google a besoin pour rendre les pages. Résultat : une pénalité d'expérience mobile invisible. Notre guide sur l'audit SEO technique détaille comment détecter ce type d'erreur avec Screaming Frog.


Comment optimiser votre robots.txt pour le crawl budget

Le crawl budget désigne le nombre de pages qu'un robot comme Googlebot est prêt à explorer sur votre site dans une période donnée. Pour les petits sites (<1 000 pages), il n'est pas un facteur critique. Pour les sites e-commerce ou les blogs avec des milliers de pages, l'optimiser peut significativement accélérer l'indexation.

L'objectif est simple : concentrer le crawl sur les pages qui apportent de la valeur SEO et exclure les pages parasites. Ces dernières incluent les pages de résultats de recherche interne, les pages de filtres avec paramètres d'URL, les doublons et les pages paginées sans valeur unique.

STRATEGIE — Répertoires à exclure selon le type de site

Type de site

À bloquer

Raison

E-commerce

/panier/, /commandes/, /mon-compte/, /recherche/

Doublons, pages personnelles

WordPress

/wp-admin/ (sauf admin-ajax), /wp-login.php

Zone d'administration

Tous types

/tmp/, /cgi-bin/, /include/

Répertoires techniques inutiles

Tous types

?sort=&filter=&page=

URLs avec paramètres parasites

Pour l'optimisation technique complète de votre site, notre guide du SEO technique couvre le robots.txt dans l'ensemble de la chaîne d'indexation (sitemap, canonical, hreflang, Core Web Vitals). Et pour vérifier l'impact de vos modifications sur le crawl, le guide Google Search Console explique comment utiliser le rapport de couverture de l'index.

Votre site a des blocages invisibles

L'audit automatisé détecte en 3 minutes les erreurs techniques qui empêchent Google de crawler et d'indexer vos pages.

Lancer l'audit →

Tester et valider votre fichier robots.txt

Avant de déployer tout changement dans votre robots.txt, testez-le. Google Search Console propose un outil de test des URL dans la section « Exploration » qui simule la lecture du fichier par Googlebot. Chaque URL peut être testée pour vérifier si elle est autorisée ou bloquée par les règles actuelles.

La procédure en quatre temps : modifier le fichier en local, tester les URLs critiques (page d'accueil, piliers SEO, sitemap) dans l'outil de test, déployer en production, puis vérifier dans le rapport de couverture de l'index 48 à 72 heures après le déploiement.

Une erreur fréquente lors des migrations : copier le robots.txt de l'environnement de staging (qui bloque souvent tout avec Disallow: /) vers la production. Ce genre d'erreur peut entraîner une désindexation partielle en moins de 48 heures. L'audit SEO complet couvre ces scénarios de migration — voir notre guide d'audit SEO gratuit pour une checklist complète.


En résumé

Le robots.txt est un levier technique simple mais à double tranchant : mal configuré, il bloque l'exploration de vos pages stratégiques sans aucune alerte. Bien configuré, il concentre le crawl budget de Google sur les contenus qui comptent.

Trois règles à retenir : ne bloquez jamais les ressources CSS et JavaScript, ajoutez systématiquement la directive Sitemap, et testez chaque modification avec l'outil Search Console avant de passer en production.


Questions fréquentes

Un robots.txt bloque-t-il l'indexation ?

Non directement. Le robots.txt bloque l'exploration (crawl), pas l'indexation. Une page bloquée par Disallow peut rester dans l'index si d'autres pages la mentionnent. Pour désindexer, combinez robots.txt et balise noindex. Google peut indexer une URL sans jamais l'avoir visitée.

Comment vérifier mon fichier robots.txt ?

Accédez à monsite.com/robots.txt dans votre navigateur pour voir le fichier actuel. Ensuite, utilisez l'outil de test robots.txt dans Google Search Console pour vérifier chaque URL critique (page d'accueil, piliers SEO, pages produits). Un résultat 'bloqué' sur une page importante doit être corrigé immédiatement.

Quelle est la différence entre Disallow et noindex ?

Disallow dans le robots.txt empêche le robot d'explorer la page. La balise noindex dans la page HTML empêche son indexation même si le robot peut l'explorer. Pour exclure totalement une page de Google, utilisez les deux. Pour bloquer le crawl uniquement (économiser le crawl budget), Disallow seul suffit.

Faut-il un robots.txt sur les sous-domaines ?

Oui. Le fichier robots.txt s'applique uniquement au domaine ou sous-domaine sur lequel il est hébergé. blog.monsite.com et shop.monsite.com doivent chacun avoir leur propre robots.txt à leur racine respective. Sans fichier, tous les robots peuvent tout explorer.

Le robots.txt ralentit-il l'indexation ?

Un robots.txt bien configuré accélère l'indexation en concentrant le crawl budget sur les pages utiles. Un fichier mal configuré ou absent peut ralentir l'indexation sur les grands sites en laissant Googlebot explorer des milliers de pages sans valeur SEO. L'impact est plus visible sur les sites de plus de 1 000 pages.

Sources