Comment trouver et régler les problèmes de couverture de l’index dans Google Search Console

Couverture de l’index de Google Search Console en résumé

Le rapport de couverture de l’index de Google Search Console fournit des informations sur les détails plus techniques du processus de crawl et d’indexation de votre site.

Les problèmes rapportés sont divisés en quatre statuts :

  1. Valide
  2. Valide avec avertissements
  3. Erreur
  4. Exclue

Chaque statut contient des types d’erreur qui approfondissent les problèmes spécifiques que Google a trouvés sur votre site.

Comme vous le savez, Google Search Console est un essentiel de la boîte à outil du SEO.

Parmi d’autres choses, Google Search Console fournit des informations sur votre performance organique et la façon dont se sont déroulés le crawl et l’indexation de votre site. La deuxième partie est couverte dans leur “rapport de couverture de l’index”, dont parle cet article.

Après avoir lu cet article, vous aurez une solide compréhension sur la façon d’utiliser le rapport de couverture de l’index de la Google Search Console (ci-après “rapport de couverture de l’index”) pour améliorer et mieux comprendre votre performance SEO.

Avant d’aller plus loin, voici une brève introduction sur la découverte, le crawl, l’indexation et le positionnement :

  • Découverte: afin de crawler une URL, les moteurs de recherche doivent d’abord la découvrir. Cela peut être fait de plusieurs manières, telles que : suivre les liens depuis d’autres pages (on-site comme off-site) et traiter les sitemaps XML. Les URL découvertes sont ensuite placées en file d’attente pour le crawl.

  • Crawl: durant la phase de crawl, les moteurs de recherche effectuent une requête sur les URL et recueillent des informations sur elles. Après que l’URL est reçue, elle est envoyée à l’Indexeur, qui s’occupe du processus d’Indexation.

  • Indexation: durant l’indexation, les moteurs de recherche essaient de comprendre les informations produites par la phase de crawl. Pour faire simple, durant l’indexation, l’autorité et la pertinence d’une URL sont déterminées, ainsi que la canonicalisation et le fait de déterminer si l’URL doit être indexée ou non.

  • Positionnement: le processus de positionnement tire des résultats depuis l’index en temps réel, fournissant aux visiteurs les résultats les plus pertinents pour leur requêtes, selon le moteur de recherche.

Pensez-y pendant une minute. Cela signifie que : vos pages ne peuvent pas se positionner si elles ne sont pas indexées. Et vos pages ne seront pas indexées si elles ne sont pas crawlées.

Ressources utiles

Qu’est-ce que le rapport de couverture de l’index de Google Search Console ?

Lorsque Google crawl et indexe votre site, il garde une trace des résultats et les rapporte dans le rapport de couverture de l’index de Google Search Console.

C’est un recueil d’informations sur les détails les plus technique du processus de crawl et d’indexation de votre site.

Ces informations sont catégorisées selon quatre statuts :

  1. Valide
  2. Valide avec avertissements
  3. Exclue
  4. Erreur
Capture d’écran du rapport de couverture de l’index de Google Search Console

Quand devez-vous utiliser le rapport de couverture de l’index ?

Google dit que si votre site a moins de 500 pages, vous n’avez sans doute pas besoin d’utiliser le rapport de couverture de l’index. Pour les sites comme ça, ils recommandent d’utiliser leur opérateur site:.

Nous ne sommes pas du tout d’accord avec ça.

We strongly disagree with this.

Si le trafic organique de Google est essentiel pour votre entreprise, vous devez utiliser leur rapport de couverture de l’index, car il fournit des informations détaillées et est bien plus fiable que l’opérateur site: pour déboguer des problèmes d’indexation.

Le rapport de couverture de l’index expliqué

Capture d’écran du rapport de couverture de l’index de Google Search Console incluant des détails

La capture d’écran ci-dessus provient d’un site assez large avec beaucoup de challenges techniques intéressants.

Trouvez votre propre rapport de couverture de l’index en suivant ces étapes :

  1. Identifiez-vous sur Google Search Console.
  2. Choisissez une propriété.
  3. Cliquez sur Couverture sous Index dans la navigation de gauche.

Le rapport de couverture de l’index fait la distinction entre quatre catégories de statuts :

  1. Valid: pages qui ont été indexées.
  2. Valide avec avertissements: pages qui ont été indexées, mais qui contiennent certains problèmes que vous devriez analyser.
  3. Exclue: pages qui n’ont pas été indexées car les moteurs de recherche ont détecté des signaux clairs indiquant qu’ils ne devaient pas les indexer.
  4. Erreur: pages qui n’ont pas pu être indexées pour une raison ou une autre.

Chaque statut se compose d’un ou plusieurs types. Ci-dessous, nous expliquerons ce que chaque type signifie, si une action est requise, et si oui, que faire.

Rapport de couverture de l’index : URL valides

Comme mentionné ci-dessus, les “URL valides” sont des pages qui ont été indexées. Les deux types suivants relèvent du statut “Valide” :

  1. Envoyée et indexée
  2. Indexée, mais non envoyée via un sitemap

Envoyée et indexée

Ces URL ont été envoyées via un sitemap XML puis indexées.

Action requise : aucune.

Indexée, mais non envoyée via un sitemap

Ces URL n’ont pas été envoyées via un sitemap XML, mais Google les a quand même trouvées et indexées.

Action requise : incluez ces URL dans votre sitemap XML.

Astuce Pro

Si vous avez un sitemap XML, mais que vous ne l’avez pas encore envoyé dans la Google Search Console, toutes les URL seront rapportées avec le type : “Indexée, mais non envoyée via un sitemap” – ce qui peut prêter à confusion.

Rapport de couverture de l’index : URL valides avec avertissements

Le statut “Valide avec avertissements” ne contient qu’un seul type : “Indexée, mais bloquée par le fichier robots.txt”. Ce type s’applique aux URL qui ont été indexées, mais ont rencontré des problèmes d’indexation.

Indexée, mais bloquée par le fichier robots.txt

Google a indexé ces URL, mais elles étaient bloquées par votre fichier robots.txt. Normalement, Google n’aurait pas indexé ces URL, mais le moteur a apparemment trouvé des liens vers ces URL et les ont donc indexées dans tous les cas. Leurs snippets sont ne sont sans doute pas optimaux.

Action requise : analysez ces URL, mettez à jour votre robots.txt, et mettez en place, potentiellement, des directives noindex.

Apprenez à le faire en étudiant “Indexée, mais bloquée par le fichier robots.txt : qu’est-ce que cela signifie et comment le régler ?”.

Rapport de couverture de l’index : URL exclues

Le statut “Exclue” contient les 15 types suivants :

  1. Autre page avec balise canonique correcte
  2. Bloquée par l’outil de suppression de pages
  3. Bloquée par le fichier robots.txt
  4. Bloquée en raison d’une demande non autorisée (401)
  5. Anomalie lors de l’exploration
  6. Explorée, actuellement non indexée
  7. Détectée, actuellement non indexée
  8. Page en double sans URL canonique sélectionnée par l’utilisateur
  9. Page en double, Google n’a pas choisi la même URL canonique que l’utilisateur
  10. Page en double, l’URL envoyée n’a pas été sélectionnée comme URL canonique
  11. Exclue par la balise “noindex”
  12. Introuvable (404)
  13. Page supprimée en raison d’une réclamation légale
  14. Page avec redirection
  15. Soft 404

Autre page avec balise canonique correcte

Ces URL sont des doublons d’autres URL, et sont correctement canonicalisées vers la version préférée de l’URL.

Action requise : aucune.

Bloquée par l’outil de suppression de page

Ces URL ne sont pas actuellement dans les résultats de recherche de Google à cause d’une requête de suppression d’URL. Lorsque les URL sont cachées de cette façon, elles n’apparaissent pas dans les résultats de recherche de Google pendant 90 jours. Après cette période, Google peut ramener ces URL à la surface.

La fonctionnalité de requête de suppression d’URL ne doit être utilisée qu’en tant que mesure temporaire et rapide pour cacher des URL. Nous recommandons toujours de prendre des mesures additionnelles pour réellement empêcher ces URL d’apparaître à nouveau.

Action requise : envoyez à Google un signal clair qu’il ne devrait pas indexer ces URL via la directive robots noindex et assurez-vous que ces URL sont crawlées à nouveau avant que les 90 jours n’expirent.

Bloquée par le fichier robots.txt

Ces URL sont bloquées à cause du fichier robots.txt du site et ne sont pas indexées par Google. Cela signifie que Google n’a pas trouvé de signaux assez forts pour justifier une indexation de ces URL. Si c’était le cas, ces URL apparaîtraient comme “Indexées, mais bloquées par le fichier robots.txt”.

Action requise : assurez-vous qu’aucune URL importante ne figure parmi celles listées dans cette vue d’ensemble.

Bloquée en raison d’une demande non autorisée (401)

Ces URL sont inaccessibles pour Google car en les demandant, Google a reçu une réponse HTTP 401, signifiant qu’il n’était pas autorisé à accéder à ces URL. Vous verrez généralement cela pour des environnement de staging, qui sont rendus inaccessibles au reste du monde en utilisant une Authentification HTTP.

Action requise : assurez-vous qu’aucune URL importante ne figure parmi celles listées dans cette vue d’ensemble. S’il y en a, vous devez en investiguer la raison, car cela peut représenter un problème SEO sérieux. Si votre environnement de staging est listé, déterminez comment Google l’a trouvé, et supprimez toute référence vers celui-ci.

Anomalie lors de l’exploration

Ces URL n’ont pas été indexées car Google a rencontré une “anomalie lors de l’exploration” en les demandant. Les anomalies de crawl peuvent signifier qu’il a reçu un code de réponse 4xx ou 5xx qui ne sont pas listés avec leurs propres types dans le rapport de couverture de l’index.

Action requise : essayez d’aller chercher quelques URL avec l’outil d’inspection d’URL pour voir si vous pouvez reproduire le problème. Si vous le pouvez, étudiez ce qu’il se passe. Si vous ne trouvez pas de problème et que tout fonctionne, gardez un œil dessus, car cela peut être un problème temporaire.

Débogage de problèmes SEO d’un autre niveau

Utilisez ContentKing pour déboguer les anomalies de crawl en utilisant les snapshots d’En-têtes de Requêtes et d’En-têtes de Réponse.

Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).

Explorée, actuellement non indexée

Ces URL ont été crawlées par Google, mais n’ont pas (encore) été indexées. Plusieurs raisons peuvent expliquer ce type :

  1. L’URL a été crawlée récemment, et doit être indexée prochainement
  2. Google connaît cette URL, mais ne la trouve pas assez importante pour qu’elle soit indexée. Par exemple car peu ou aucun lien interne ne pointe vers elle, ou elle a du thin content.

Action requise : assurez-vous qu’aucune URL importante ne figure parmi celles listées dans cette vue d’ensemble. Si vous trouvez des URL importantes, vérifiez quand elles ont été crawlées. Si c’est très récent, et que vous savez que cette URL a assez de liens internes pour être indexée, cela va surement arriver d’ici peu.

Détectée, actuellement non indexée

Ces URL ont été trouvées par Google mais n’ont pas été encore crawlées, et donc indexées. Google les connait, et elles sont en attente de crawl. Cela peut être dû au fait que Google a demandé ces URL et ne les a pas reçu car le site était surchargé, ou simplement car il n’a pas encore eu le temps de les explorer.

Action requise : gardez un œil sur ce type. Si le nombre d’URL augmente, vous avez peut être des crawl budget issues : votre site demande plus d’attention que Google ne souhaite lui en donner. Cela peut être dû au fait que votre site n’a pas assez d’autorité, est trop lent ou souvent indisponible.

Page en double sans URL canonique sélectionnée par l’utilisateur

Ces URL sont des doublons selon Google. Elles ne sont pas canonicalisées vers la version préférée de l’URL, et Google pense que ces URL ne sont pas les versions préférées. Par conséquent, il a décidé d’exclure ces URL de son index.

Souvent, vous trouverez des fichiers PDF qui sont des doublons à 100% d’autres PDF parmi ces URL.

Action requise : ajoutez des URL canoniques vers les versions préférées des URL, ou si ces URL ne doivent pas être indexées du tout, appliquez la directive robots noindex. Lorsque vous utilisez l’outil d’inspection d’URL, Google peut même vous montrer la version canonique de l’URL.

Ressources utiles

Page en double, Google n’a pas choisi la même URL canonique que l’utilisateur

Google a trouvé ces URL seul et les considère comme des doublons. Même si vous les avez canonicalisées vers votre URL préféré, Google a choisi d’ignorer cela et d’appliquer une canonique différente.

Vous verrez souvent Google sélectionner des canoniques différentes sur les sites multilingues avec des pages très similaires et du thin content.

Action requise : utilisez l’outil d’inspection d’URL pour connaître l’URL sélectionnée par Google en tant qu’URL préférée et voir si cela a du sens. Par exemple, il est possible que Google ait sélectionné une canonique différente car elle a plus de liens et/ou plus de contenu.

Page en double, l’URL envoyée n’a pas été sélectionnée comme URL canonique

Vous avez envoyé ces URL via un sitemap XML, mais elles n’ont pas d’URL canonique définie. Google considère ces URL comme doublons d’autres URL, c’est pourquoi il a choisi de canonicaliser ces URL vers des URL canoniques sélectionnées par Google.

Veuillez noter que ce type est très similaire au type Page en double, Google n’a pas choisi la même URL canonique que l’utilisateur, mais diffère en deux points :

  1. Vous avez explicitement demandé à Google d’indexer ces pages.
  2. Vous n’avez pas défini d’URL canoniques.

Action requise : ajoutez les URL canoniques correctes qui pointent vers la version préférée de l’URL.

Exclue par la balise “noindex”

Ces URL n’ont pas été indexées par Google à cause de la directive noindex (présente dans la source HTML ou le header HTTP).

Action requise : assurez-vous qu’une URL importante ne figure parmi celles listées dans cette vue d’ensemble. Si vous trouvez des URL importantes, supprimez la directive noindex, et utilisez l’outil d’inspection d’URL pour demander une indexation.

Introuvable (404)

Ces URL n’étaient pas incluses dans un sitemap XML, mais Google les a trouvées et ne peut pas les indexer car elles ont renvoyé un code de statut HTTP 404. Il est possible que Google ait trouvé ces URL via d’autres sites, ou que ces URL aient existé dans le passé.

Action requise : assurez-vous qu’aucune URL importante ne figure parmi celles listées dans cette vue d’ensemble. Si vous trouvez des URL importantes, restaurez les contenus sur ces URL ou faites une redirection 301 de l’URL vers l’alternative la plus pertinente.

Ces URL ont été supprimées de l’index de Google à cause d’une réclamation légale.

Action requise : assurez-vous de connaître toutes les URL listées dans cette vue d’ensemble, car une personne malintentionnée peut avoir demandé une suppression de vos URL dans l’index Google.

Page avec redirection

Ces URL sont redirigées, et donc non indexées par Google.

Action requise : aucune.

Astuce Pro

Lorsque vous travaillez sur une migration de site, cette vue d’ensemble des pages redirigées est très utile dans la création d’un plan de redirections.

Soft 404

Ces URL sont considérées comme des réponses soft 404, ce qui signifie que ces URL ne renvoient pas un code de statut HTTP 404 mais le contenu donne l’impression que ce sont bien des pages 404, par exemple en affichant un message “La page ne peut pas être trouvée”.

Action requise : si ces URL sont de vraies 404, assurez-vous qu’elles renvoient un code de statut HTTP 404 correct. Si ce ne sont pas des 404, assurez-vous que le contenu le reflète.

Rapport de couverture de l’index : URL avec erreurs

Le statut “Erreur” contient les huit types suivants :

  1. Erreur de redirection
  2. Erreur de serveur (5xx)
  3. URL envoyée bloquée par le fichier robots.txt
  4. URL envoyée désignée comme “noindex”
  5. L’URL envoyée semble être une erreur de type “soft 404”
  6. L’URL envoyée renvoie une demande non autorisée (401)
  7. L’URL envoyée contient une erreur d’exploration
  8. URL envoyée introuvable (404)

Erreur de redirection

Ces URL redirigées ne peuvent pas être crawlées car Google a rencontré des erreurs de redirection. Voici quelques exemples de problèmes potentiellement rencontrés par Google :

  • Boucles de redirections
  • Chaînes de redirections trop longues (Google ne suit que cinq redirections par tentative de crawl)
  • Redirection vers une URL trop longue
Boucles de redirections
Boucles de redirections

Action requise : investiguez ce qu’il se passe avec ces redirections et réglez-les. Voici comment facilement vérifier vos codes de statuts HTTP afin de pouvoir les déboguer.

Ressources utiles

Erreur de serveur (5xx)

Ces URL ont renvoyé une erreur 5xx à Google, l’empêchant de crawler la page.

Action requise : investiguez la raison pour laquelle l’URL a renvoyé une erreur 5xx, et réglez le problème. Souvent, vous verrez que ces erreurs 5xx ne sont que temporaires car le serveur était trop occupé. Gardez en tête que le user-agent effectuant les requêtes peut influencer le code de statut HTTP qui est renvoyé, donc assurez-vous d’utiliser l’user-agent de Googlebot.

URL envoyée bloquée par le fichier robots.txt

Vous avez envoyé ces URL via un sitemap XML, mais Google est bloqué via le fichier robots.txt. Ce type est très similaire à deux autres types déjà couverts ci-dessus.

Voici en quoi celui-ci est différent :

  • Si les URL avaient été indexées, elles auraient été listées dans “Indexées, mais bloquées par le fichier robots.txt”.
  • Si les URL sont indexées et non envoyées via un sitemap XML, elles seraient listées sous le type Bloquée par le fichier robots.txt.

Ce sont des différences subtiles, mais très utiles lorsqu’il s’agit de déboguer des problèmes comme ceux-là.

Action requise :

  • Si des URL importantes sont listées, assurez-vous d’empêcher leur blocage via le fichier robots.txt. Trouvez la directive robots.txt en sélectionnant une URL, puis en cliquant sur le bouton TESTER LE BLOCAGE ROBOTS.TXT sur le côté droit.
  • Les URL qui ne devraient pas être accessibles pour Google devraient être supprimées du sitemap XML.
Ressources utiles

URL envoyée désignée comme “noindex”

Vous avez envoyé ces URL via un sitemap XML, mais elles ont la directive noindex (dans la source HTML ou le header HTTP).

Action requise :

  • Si des URL importantes sont listées, assurez-vous de supprimer la directive noindex.
  • Les URL qui ne devraient pas être indexées devraient être supprimées du sitemap XML.

L’URL envoyée semble être une erreur de type “soft 404”

Vous avez envoyé ces URL via un sitemap XML, mais Google les considère comme des “soft 404”. Ces URL peuvent renvoyer un code de statut HTTP 200, tout en affichant une page 404, ou le contenu de la page donne l’impression que c’est une 404.

Ce type est très similaire au type Soft 404 que nous avons évoqué précédemment, la seule différence étant que dans le cas présent vous avez envoyé ces URL via le sitemap XML.

Action requise :

  • Si ces URL sont de vraies 404, assurez-vous qu’elles renvoient un code de statut HTTP 404 correct et sont supprimées du sitemap XML.
  • Si ce ne sont pas des 404 du tout, assurez-vous que le contenu reflète ceci.

L’URL envoyée renvoie une demande non autorisée (401)

Vous avez envoyé ces URL via un sitemap XML, mais Google a reçu une réponse HTTP 401, signifiant qu’il n’était pas autorisé à accéder à ces URL.

Cela est généralement le cas dans les environnements de staging qui sont inaccessibles au reste du monde en utilisant l’Authentification HTTP.

Ce type est très similaire au type “Bloquée en raison d’une demande non autorisée (401)” que nous avons couvert précédemment, l’unique différence étant que dans le cas présent vous avez envoyé ces URL via le sitemap XML.

Action requise : investiguez si le code de statut HTTP 401 a été envoyé correctement. Si c’est le cas, supprimez ces URL du sitemap XML. Sinon, autorisez Google à accéder à ces URL.

L’URL envoyée contient une erreur d’exploration

Vous avez envoyé ces URL via un sitemap XML, mais Google a rencontré des erreurs d’exploration. Ce type “L’URL envoyée contient une erreur d’exploration” est le fourre-tout pour les erreurs de crawl qui ne rentrent dans aucun autre type.

Souvent, ces problèmes de crawl sont temporaires et recevront une classification “régulière” (comme par exemple “Introuvable (404)”) lorsqu’elles seront vérifiées à nouveau.

Action requise : essayez de vérifier quelques URL via l’outil d’inspection d’URL pour voir si vous pouvez reproduire le problème. Si vous le pouvez, investiguez ce qu’il se passe. Si vous ne trouvez pas de problème et que tout fonctionne, gardez un œil dessus, car cela peut être un problème temporaire.

URL envoyée introuvable (404)

Vous avez envoyé ces URL via un sitemap XML, mais il semblerait que ces URL n’existent pas. Ce type est très similaire au type “Introuvable (404)” que nous avons vu précédemment, l’unique différence étant que dans le cas présent, vous avez envoyé ces URL via le sitemap XML.

Action requise :

  • Si vous trouvez des URL importantes listées, restaurez leurs contenus ou effectuer une redirection 301 de l’URL vers l’alternative la plus pertinente.
  • Sinon, supprimez ces URL du sitemap XML.

Questions fréquentes sur le rapport de couverture de l’index

💡 Quelles informations contient le rapport de couverture de l’index ?

Le rapport de couverture de l’index fournit des informations de Google sur la façon dont il a crawlé et indexé votre site. Il contient des informations utiles qui vous aident à améliorer votre performance SEO.

🕒 A quelle fréquence dois-je vérifier le rapport de couverture de l’index ?

Cela dépend de ce qu’il se passe sur votre site. Si c’est un site simple avec quelques centaines de pages, vous pouvez le vérifier une fois par mois. Si vous avez des millions de pages et ajoutez des milliers de pages par semaine, nous vous recommanderions de vérifier les types de problèmes les plus importants une fois par semaine.

⛔ Pourquoi autant de mes pages sont listées avec le statut “Exclue” ?

Il y a plusieurs raisons à cela, mais nous voyons souvent que la majorité de ces URL sont des URL canonicalisées, des URL redirigées et des URL qui sont bloquées via le fichier robots.txt du site.

Cela peut augmenter rapidement le nombre d’URL concernées, surtout pour les gros sites.

ContentKing Academy Content Team
Steven van Vessum
Steven van Vessum

Steven est le Chef de l’expérience client dans l’entreprise ContentKing. Cela signifie qu’il s’occupe de tout lié avec les clients et avec l’inbound marketing. C’est là où il veut être. Il aime améliorer le référencement des sites web dans les moteurs de recherche et parler de l’inbound marketing.

Vojtěch Zach
Vojtěch Zach

Vojtěch est Manager du Service Clients et de la Localisation chez ContentKing. C’est lui qui répondra à vos questions lorsque vous nous contacterez. Il a suivi des études en traduction, et à part rendre nos clients heureux, il aime aussi s’attaquer à nos challenges liés à la localisation.

Ondřej Koraba
Ondřej Koraba

Ondřej est le Spécialiste en Marketing de Contenu de ContentKing. Il vit dans les tranchées du Marketing de Contenu, s’assurant que notre contenu existant reste à jour et qu’il y a un flux continu de nouveau contenu.

Commencer votre essai gratuit de 14 jours

Vous pouvez commencer en 20 secondes

Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).
  • La carte de crédit n'est pas requise
  • Aucune installation requise
  • Sans engagement