10 000 pages publiées. 3 000 dans l'index Google. Le reste ? Catégorie "Découverte - actuellement non indexée" dans Google Search Console, depuis des semaines.

Ce n'est pas un problème de qualité du contenu ni de manque de backlinks. C'est un problème de crawl budget : Googlebot passe son quota d'exploration sur des centaines d'URL parasites et n'atteint jamais vos pages importantes.

Ce guide explique comment Google alloue le crawl budget, pourquoi les solutions intuitions courantes sont contre-productives, et comment mettre en place une gestion active qui libère Googlebot pour vos vraies pages.

TL;DR — Ce qu'il faut retenir

Les 4 points que Google vérifie en priorité :

  • Identifiez les URL parasites via le rapport "Statistiques sur l'exploration" de GSC et les logs serveur.

  • Bloquez les filtres, tris et pages sans valeur SEO avec robots.txt Disallow — pas avec noindex.

  • Retournez un 404 ou 410 sur les pages supprimées : Google ne réduit son crawl que sur ces codes.

  • Réduisez les chaînes de redirections et les soft 404 qui consomment du budget sans jamais être indexés.

Sources clés : Google — Crawl Budget Management (Google Developers), Ahrefs — When Should You Worry About Crawl Budget?


Le symptôme : des milliers de pages "non indexées"

Le rapport "Couverture de l'index" de Google Search Console distingue plusieurs catégories de pages non indexées. La catégorie "Découverte - actuellement non indexée" est la plus frustrante : Google connaît ces URLs (il les a trouvées quelque part), mais ne les a pas crawlées. C'est le signe caractéristique d'un crawl budget insuffisant.

Selon la documentation officielle Google, le crawl budget est "l'ensemble des URLs que Google peut et veut explorer" sur un site. Cette définition en deux parties est cruciale : il ne suffit pas que Google puisse crawler une page — il faut aussi qu'il veuille le faire. Un site avec 70 % de contenu dupliqué ou sans valeur entraine une réduction de la demande de crawl, même si le serveur est parfaitement performant.

IMPACT — Catégories de pages non indexées dans GSC et leurs causes

Catégorie GSC

Cause principale

Priorité de correction

Découverte - non indexée

Crawl budget insuffisant

Haute — libérer le budget

Explorée - non indexée

Contenu jugé faible valeur

Haute — améliorer ou dépublier

Exclue par noindex

Meta robots ou header noindex

Vérifier que c'est intentionnel

Exclue : erreur 404

Page supprimée ou URL incorrecte

Corriger ou rediriger

Exclue : page canonique non Google

Canonical pointant ailleurs

Vérifier si intentionnel

Source : Google Search Console — Rapport Couverture


Pourquoi les réflexes habituels ne fonctionnent pas

Face à un crawl budget problématique, deux erreurs sont extrêmement courantes. Elles font intuitivement sens, mais sont contre-productives selon la documentation Google.

Erreur 1 — Utiliser noindex pour "cacher" les pages inutiles

La logique semble valide : si une page ne doit pas apparaître dans les résultats, ajoutez un noindex. Le problème : Google crawle quand même la page pour lire la balise noindex. Il visite la page, télécharge son contenu, voit la directive, et ne l'indexe pas — mais il a consommé du crawl budget pour rien.

La directive officielle Google est explicite : n'utilisez pas noindex pour économiser du crawl budget. Utilisez robots.txt Disallow pour les pages que vous ne voulez pas du tout que Google crawle. Le noindex est fait pour contrôler l'indexation, pas l'exploration.

Erreur 2 — Laisser les pages supprimées en 301 indéfiniment

Quand une page est définitivement supprimée, beaucoup de sites maintiennent une redirection 301 vers la page d'accueil ou une page catégorie "pour ne pas perdre de PageRank". Mais selon Google Developers : "Return a 404 or 410 status code for permanently removed pages. Google won't forget a URL that it knows about, but a 404 status code is a strong signal not to crawl that URL again."

Les pages en 301 restent dans la queue de crawl de Googlebot et seront recrawlées régulièrement. Les pages en 404 finissent par être abandonnées après plusieurs constats de suppression. Pour les suppressions permanentes, 410 Gone est le signal le plus fort — Google le traite plus rapidement qu'un 404 standard.


Comment Google alloue votre crawl budget

Le crawl budget résulte de deux composantes distinctes selon la documentation Google : la limite de capacité de crawl et la demande de crawl.

La limite de capacité de crawl

C'est le nombre maximum de connexions parallèles que Googlebot peut utiliser sur votre site, calculé pour ne pas surcharger vos serveurs. Elle augmente si votre serveur répond vite et de manière stable ; elle diminue si votre serveur ralentit ou retourne des erreurs 5xx.

Optimiser votre serveur (temps de réponse, uptime) augmente mécaniquement la capacité de crawl. Un site qui répond en 200 ms sera crawlé plus intensément qu'un site qui met 2 secondes à répondre.

La demande de crawl

C'est la motivation de Google à explorer vos URLs. Elle dépend de trois facteurs :

  • Fraîcheur : les pages récemment mises à jour sont prioritaires pour le recrawl

  • Popularité : les pages avec plus de backlinks et de liens internes sont crawlées plus fréquemment

  • Inventaire perçu : si votre site expose des milliers d'URL de faible valeur (filtres, duplicatas, paramètres), Google réduit sa demande de crawl globale — il en déduit que beaucoup d'URLs ne valent pas le crawl

Le troisième facteur est le plus actionnable : c'est en réduisant votre inventaire d'URLs inutiles que vous augmentez la demande de crawl sur vos pages importantes.

Crawl budget, render budget et index budget : 3 ressources distinctes

La majorité des guides sur le crawl budget omettent une distinction fondamentale : Google a en réalité trois "budgets" successifs pour votre site.

Le crawl budget désigne les ressources allouées pour télécharger les réponses HTTP de votre site. C'est la première étape — si une URL n'est pas crawlée, elle ne peut pas être rendue ni indexée.

Le render budget est distinct : après le crawl, Google place les pages HTML dans une file d'attente de rendu JavaScript. Pour les sites qui utilisent React, Vue ou Angular, cette file peut être longue — Google peut avoir crawlé la page mais ne pas l'avoir rendue (donc n'avoir vu qu'une coquille HTML vide) pendant plusieurs jours. C'est pourquoi les sites JS-heavy ont souvent des problèmes d'indexation même avec un crawl budget correct.

L'index budget, enfin, correspond à la capacité de Google à évaluer et stocker les pages dans son index. Une page peut être crawlée, rendue, et quand même exclue de l'index si Google juge le contenu insuffisamment original ou pertinent.

Votre site a des blocages invisibles

L'audit automatisé détecte en 3 minutes les erreurs techniques qui empêchent Google de crawler et d'indexer vos pages — premier article offert, sans carte bancaire.

Lancer l'audit →

La bonne approche : gestion active de l'inventaire d'URLs

La solution aux problèmes de crawl budget n'est pas d'augmenter le budget (vous ne contrôlez pas ça directement) — c'est de réduire la quantité d'URLs que vous demandez à Google de crawler pour que le budget disponible couvre l'intégralité de vos pages importantes.

Identifier les URL parasites qui gaspillent le budget

Deux outils complémentaires pour diagnostiquer :

Google Search Console — Rapport "Statistiques sur l'exploration" (Index > Paramètres > Statistiques sur l'exploration) : affiche le nombre de pages crawlées par jour, les codes de réponse, et les ressources consommées. Filtrez par code de réponse pour identifier les volumes de 301, 404 et 5xx qui consomment du budget sans valeur.

Analyse des logs serveur : la source la plus granulaire. Chaque ligne de log contient l'URL crawlée, l'agent (Googlebot), le code HTTP et le timestamp. Analysez les patterns d'URL les plus crawlés — souvent des URL de filtres, de sessions ou de paramètres que vous pensiez bloqués. Des outils comme Screaming Frog Log File Analyser ou OnCrawl facilitent cette analyse.

Les 5 sources principales de gaspillage de crawl budget

  • URL de filtres et de tri e-commerce : chaque combinaison de filtres génère une URL distincte (voir notre guide sur la pagination SEO e-commerce)

  • Paramètres de session et de tracking : ?utm_source=, ?PHPSESSID=, ?sort= créent des dizaines de variantes pour une même page

  • Pages de résultats de recherche interne : Google ne doit jamais crawler votre moteur de recherche interne

  • Pages de pagination profondes : les pages 50, 100, 200 d'une archive ont peu de valeur SEO individuelle

  • Chaînes de redirections : A → B → C → D consomme plus de budget qu'une redirection directe A → D

Les redirections en chaîne : un consommateur de budget méconnu

Chaque saut dans une chaîne de redirections consomme une connexion HTTP distincte dans le crawl budget. Une URL qui fait 4 sauts avant d'atteindre sa destination finale coûte 4 fois plus cher qu'une URL directe. Sur un site avec des années de migrations et de refactoring, les chaînes de redirections peuvent totaliser des dizaines de milliers d'URL inefficaces. Auditez vos redirections avec Screaming Frog (mode "Follow external nofollow") et consolidez les chaînes en redirections directes.

Les soft 404 : le piège silencieux

Un soft 404 désigne une page qui retourne un code HTTP 200 (succès) mais affiche un message équivalent à "page non trouvée" — par exemple, une fiche produit épuisée qui affiche "Ce produit n'est plus disponible" sans changer le code de statut. Google crawle ces pages indéfiniment puisqu'il reçoit un 200, mais ne les indexe pas car le contenu est jugé vide. Résultat : du budget consommé en permanence sans aucune valeur. Corrigez les soft 404 en retournant un vrai 404 ou en redirigeant vers une alternative pertinente.


Crawl budget et sites e-commerce à facettes

Les sites e-commerce avec navigation à facettes sont les plus exposés aux problèmes de crawl budget. Sur une boutique de 5 000 produits avec 10 attributs de filtre (couleur, taille, marque, matière...), chaque combinaison de filtres génère une URL distincte. Le nombre théorique d'URLs peut atteindre plusieurs millions — un chiffre impossible à crawler même avec le meilleur budget.

La stratégie recommandée pour les sites e-commerce :

  • Bloquez via robots.txt tous les paramètres de filtre qui ne ciblent pas de mots-clés spécifiques

  • Utilisez des canonical tags sur les variantes de filtre qui ont de la valeur SEO (ex: "chaussures rouges femme")

  • Configurez les règles de crawl dans les paramètres d'URL de Google Search Console pour indiquer comment traiter les paramètres connus

Notre guide sur notre sitemap XML SEO détaille comment structurer un sitemap segmenté qui guide Googlebot uniquement vers vos pages prioritaires — une approche complémentaire à la gestion du crawl budget.


Monitorer son crawl budget avec Google Search Console

Le rapport "Statistiques sur l'exploration" de Google Search Console est l'outil de monitoring principal. Il fournit :

  • Le nombre de demandes de crawl par jour sur les 3 derniers mois

  • La répartition par code de réponse (2xx, 3xx, 4xx, 5xx)

  • Le poids total téléchargé par jour et le temps de réponse moyen

Trois métriques à surveiller activement :

  • Ratio 3xx/2xx : si vos redirections représentent plus de 15 % des requêtes de crawl, vous avez trop de chaînes à consolider

  • Ratio 4xx/total : plus de 5 % de 404 signifie que Google crawle des pages mortes — auditez et corrigez

  • Poids moyen par réponse : une page moyenne devrait peser moins de 200 Ko. Au-delà, vos pages sont trop lourdes pour un crawl efficace

STRATÉGIE — Plan d'action crawl budget par taille de site

Taille du site

Priorité 1

Priorité 2

Priorité 3

< 1 000 pages

Vérifier les 404 et redirections

Sitemap à jour

Vitesse serveur

1 000 – 10 000 pages

Bloquer filtres et paramètres

Analyser les logs

Consolider redirections

10 000 – 100 000 pages

Analyse logs + GSC quotidienne

Segmenter sitemaps

Corriger soft 404

> 100 000 pages

Outil dédié (Botify, OnCrawl)

Règles robots.txt avancées

Architecture URL repensée

Sources : Google Developers — Crawl Budget Management, Ahrefs — Crawl Budget Guide


En résumé

Le crawl budget n'est pas un problème que vous corrigez une fois — c'est un équilibre à maintenir en continu. Chaque nouvelle fonctionnalité, chaque nouveau type de page, chaque migration peut créer de nouvelles sources de gaspillage. L'audit des logs serveur trimestriel et la surveillance du rapport GSC "Statistiques sur l'exploration" sont les deux gardes-fous indispensables.

La règle fondamentale : réduire l'inventaire d'URLs que Google explore est plus efficace qu'essayer d'augmenter le budget alloué. Chaque URL parasite bloquée est une URL prioritaire que Googlebot pourra visiter à la place. Pour une vue d'ensemble du SEO technique au sens large, notre guide SEO technique complet couvre tous les leviers d'optimisation de l'infrastructure.


Vos pages importantes stagnent en "Découverte - non indexée" malgré un contenu de qualité ? RankProof identifie les blocages techniques et produit le contenu que Google veut indexer — premier article offert, sans carte bancaire →


Questions fréquentes

Qu'est-ce que le crawl budget en SEO ?

Le crawl budget désigne la quantité de ressources (temps et connexions) que Google alloue pour explorer votre site. Il résulte de deux composantes : la limite de capacité de crawl (dépend de la performance de votre serveur) et la demande de crawl (dépend de la popularité et de la qualité perçue de votre contenu). Un crawl budget insuffisant laisse des pages importantes non indexées.

Comment savoir si j'ai un problème de crawl budget ?

Vérifiez dans Google Search Console si de nombreuses pages sont en statut 'Découverte - actuellement non indexée'. Si oui, consultez le rapport Statistiques sur l'exploration pour voir combien de pages sont crawlées par jour et la répartition des codes de réponse. Un fort volume de 3xx et 4xx indique un gaspillage de budget à corriger.

Noindex réduit-il le crawl budget ?

Non — c'est l'erreur la plus courante. Google crawle toujours les pages noindex pour lire la directive. Seul robots.txt Disallow empêche le crawl. Si vous voulez économiser du crawl budget sur une page, bloquez-la via robots.txt. Utilisez noindex uniquement pour contrôler ce qui apparaît dans les résultats de recherche, pas pour réduire le crawl.

Le crawl budget concerne-t-il les petits sites ?

Pour les sites de moins de 1 000 pages avec du contenu unique, Google indexe généralement tout en quelques jours sans problème de budget. Le crawl budget devient critique pour les sites de plus de 10 000 pages changeant rapidement (e-commerce, médias, plateformes) ou les sites avec beaucoup d'URL parasites (filtres, paramètres, duplicatas).

Comment augmenter le crawl budget de son site ?

Il y a deux leviers : améliorer la qualité et la popularité du contenu (Google crawle plus les sites populaires et souvent mis à jour) et réduire les URL parasites (moins d'URL inutiles = plus de budget pour les pages importantes). Améliorer la vitesse du serveur augmente aussi la limite de capacité de crawl. On ne peut pas 'acheter' plus de crawl budget.

Sources