Quelle est la définition de crawl budget ?

Le crawl budget est le temps attribué pour l’exploration quotidienne de votre site web ou le nombre de pages de votre site web que les moteurs de recherche explorent chaque jour. Comme la dimension d’Internet est énorme, les moteurs de recherche doivent diviser leurs efforts sur tous les sites web et établir les priorités pour leur exploration. Le crawl budget a été créé pour leur faciliter la tâche.

Crawl budget est un terme international, commun dans le SEO. En anglais il est aussi appelé « crawl space » ou « crawl time ».

Pourquoi faut-il s’occuper de crawl budget ?

Il faut que les moteurs de recherche trouvent autant vos pages indexables que possible et il faut aussi qu’ils le fassent le plus vite possible.

Néanmoins, en gaspillant votre crawl budget ils ne pourront pas atteindre ce but. En d’autres mots, une partie de votre site web restera inexplorée et sera donc inaccessible pour les visiteurs à travers les moteurs de recherche. Ce n’est pas bon pour votre succès. L’optimisation de crawl budget devrait donc être une de vos priorités.

Quel est le crawl budget pour mon site web ?

Le plus informatif en ce qui concerne le crawl budget est Google. Si vous ajoutez votre site web au compte dans Google Search Console, vous pouvez obtenir un aperçu de votre crawl budget (seulement pour Google).

Inscrivez-vous à Google Search Console, choisissez un site web et continuez à Exploration > Statistiques sur l’exploration. Là-bas, vous verrez un graphique avec le nombre de pages explorées chaque jour par Google.

Crawl budget dans Google Search Console

Dans cet exemple nous voyons que le crawl budget moyen est de 27 pages par jour. Théoriquement, si cette donnée ne change pas, le crawl budget par mois sera : 27 pages x 30 jours = 810 pages.

Afin d’en savoir plus de l’exploration de votre site web vous pouvez aussi examiner les fichiers log de votre serveur web.

Comment optimiser le crawl budget ?

Tout d’abord, il faut identifier où exactement nous gaspillons notre crawl budget. Ci-dessous nous décrivons quelques-unes des raisons les plus courantes du gaspillage de crawl budget :

  • Liens brisés ou ceux qui redirigent vers d’autres pages
  • Temps de chargement des pages élevé et l’expiration du temps de chargement
  • URL incorrectes dans le sitemap XML
  • Trop de pages non indexables

Liens brisés ou ceux qui redirigent vers d’autres pages

Les liens brisés aussi bien que les liens qui redirigent plusieurs fois vers d’autres pages sont des impasses pour les moteurs de recherche. Dans ce cas-là, les moteurs de recherche peuvent interrompre l’exploration. Les moteurs de recherche et les navigateurs ont des limites en ce qui concerne le nombre de redirections enchaînées.

De la même façon que les navigateurs, Google paraît suivre le nombre maximal de cinq redirections dans la chaîne. Il n’est pas clair comment les autres moteurs de recherche traitent ce type de redirections, mais nous recommandons d’éviter toutes les redirections enchaînées et de minimiser le nombre de redirections normales.

Grâce à la correction des liens brisés et des redirections enchaînées, vous pouvez rapidement récupérer une partie de votre crawl budget gaspillé. De plus, cela vous aide à améliorer l’expérience d’utilisateurs, parce que les redirections et les redirections enchaînées en particulier prolongent le temps de chargement des pages, ce qui n’est pas très agréable pour les visiteurs.

Afin de trouver facilement les liens brisés et les liens de redirections enchaînées, nous avons créé une catégorie pour cela dans l’application ContentKing. Il faut aller à Problèmes > Liens et là-bas vous voyez si vous gaspillez votre crawl budget à cause des liens incorrects. Mettez à jour tous les liens de façon à ce qu’ils mènent à des URL indexables.

Les liens brisés ou les liens de redirections dans l'application ContentKing

Temps de chargement des pages élevé et l’expiration du temps de chargement

Si le temps de chargement des pages est trop élevé ou même s’il expire avant que les pages se chargent, les moteurs de recherche ne peuvent pas visiter autant de pages qu’ils pourraient pendant le temps destiné à ce but. En plus, c’est aussi très mauvais du point de vue de l’expérience utilisateurs, ce qui résulte à la baisse du taux de conversion.

Si une page se charge plus de 2 secondes, c’est déjà un problème. Dans un cas idéal, la page devrait se charger en moins d’une seconde. Il faut contrôler le temps de chargement régulièrement avec un outil comme Pingdom, WebPagetest ou GTmetrix.

Google vous informe sur le temps de chargement des pages dans Google Analytics (Comportement > Vitesse du site) et aussi dans Google Search Console (Exploration > Statistiques sur l’exploration).

Google Search Console et Bing Webmaster Tools informe sur l’expiration du temps de chargement. Dans Search Console cela peut être trouvé ici : Exploration > Erreurs d’exploration et dans Bing Webmaster Tools ici : Rapports et données > Information sur l’analyse.

Contrôlez régulièrement si vos pages se chargent assez vite, sinon procédez immédiatement à la correction. Un temps de chargement court des pages est essentiel pour votre succès sur Internet.

URL incorrectes dans le sitemap XML

Erreurs dans le sitemap XML dans Google Search Console

Toutes les URL dans le sitemap XML doivent être indexable. Les moteurs de recherche utilisent beaucoup votre sitemap XML pour trouver toutes les pages, surtout si le site web est grand. Si ce fichier contient des pages qui n’existent plus ou qui sont redirigées, vous gaspillez votre crawl budget. Contrôler régulièrement votre fichier sitemap, s’il n’y a pas d’URL non indexables. Google Search Console informe sur le fichier sitemap ici : Exploration > Sitemaps, Bing Webmaster Tools ici : Configurer mon site > Sitemaps.

Une des meilleures pratiques dans l’optimisation de crawl budget est diviser le fichier sitemap en plusieurs fichiers plus petits. Vous pouvez, par exemple, créer un fichier pour chaque section de votre site web. S’il y a un problème, vous pourrez déterminer vite dans quelle section il se trouve. Par exemple : si votre sitemap XML pour la section A contient 500 liens, dont 480 sont indexés, cela signifie que tout va bien. Par contre si votre sitemap XML pour la section B contient 500 liens, dont seulement 120 sont indexés, il faut y faire attention. Il est possible qu’il y ait trop d’url non indexables incluses dans le fichier sitemap pour la section B.

Trop de pages non indexables

S’il y a trop de pages non indexables sur votre site web, mais qui sont accessibles pour les moteurs de recherche, ces derniers passent trop de temps en explorant des pages peu importantes.

Afin de trouver si vous avez trop de pages non indexables, contrôlez le nombre de pages que les moteurs de recherche ont trouvées sur votre site web. Pour cet objectif vous pouvez utiliser ou Screaming Frog ou l’application ContentKing.

Dans l’application ContentKing le nombre total de pages explorées est affiché dans la section Pages tout en haut.

Nombre de pages explorées dans l'application ContentKing

Comparez ce nombre avec le nombre de pages indexées en utilisant la requête site:

Nombre de pages indexées dans Bing

Dans cet exemple, plus de 200.000 pages ont été trouvées, dont seulement 30.000 ont été indexées par Bing. Il y a deux explications possibles :

  1. Les moteurs de recherche sont toujours en train d’indexer votre site web et cela va prendre quelque temps avant qu’ils finissent. Le nombre 30.000 va donc augmenter.
  2. Il y a un problème avec le crawl budget qui a besoin de votre attention. Tout d’abord, il faut trouver quelles sections ne sont pas bien accessibles pour les moteurs de recherche. Après, il faut empêcher à ces derniers l’exploration de ces sections à l’aide du fichier robots.txt.

Structure des liens internes

La façon dont les liens internes sont répartis dans votre site web joue un rôle important dans l’optimisation de crawl budget. Nous allons l’appeler la structure des liens internes de votre site web. Sans prendre en considération les liens retour maintenant, il faut constater que les moteurs de recherche donnent beaucoup plus d’importance aux pages qui ont beaucoup de liens internes qu’à celles qui en ont peu.

Évitez la structure trop hiérarchique où les pages au milieu n’ont pas beaucoup de liens. C’est encore pire pour les pages à la fin de cette hiérarchie. À cause du manque de liens, les moteurs de recherche peuvent ignorer ces pages.

Assurez que vos pages les plus importantes aient beaucoup de liens internes. Les pages qui ont été récemment explorées gagnent d’habitude une meilleure position dans les moteurs de recherche que les autres pages. Pensez-y et ajustez votre structure des liens internes.

Par exemple, si vous avez un article de blog de 2011 qui génère toujours beaucoup de trafic organique, ajoutez des liens vers cet article à votre site web. Comme vous avez écrit plein d’autres articles avec le temps, celui de 2011 est automatiquement poussé vers le fond de la structure des liens internes de votre site web.

Quelles sont des raisons communes du gaspillage de crawl budget ?

Il y a plusieurs raisons du gaspillage de crawl budget que nous rencontrons très souvent. Nous les décrivons ci-dessous, aussi avec une possibilité de leur solution.

  1. Filtres de produits
  2. Pages de résultats internes indexables
  3. Tag pages

Les deux premiers points sont des pièges pour les moteurs de recherche. Ils ont pour conséquence la création d’un nombre infini d’URL accessibles pour les robots. Du point de vue de crawl budget c’est un grave problème.

Filtres de produits

Chaque critère d’un filtre a au moins deux valeurs. En combinant ces critères, les visiteurs peuvent trouver facilement ce qu’ils cherchent. C’est donc très utile pour eux, par contre si les pages de filtres sont accessible pour les robots, un nombre infini d’URL est créé. C’est un piège pour les moteurs de recherche.

Solution :

  1. Informez les moteurs de recherche à travers le fichier robots.txt de ne pas accéder aux URL générées par les filtres de produits. Si ce n’est pas possible pour vous, dans Google Search console et dans Bing Webmaster Tools vous pouvez aussi empêcher Google et Bing d’explorer certaines pages.
  2. Ajoutez rel=”nofollow” aux liens sur les pages filtrées.

Pages de résultats internes indexables

Dans la plupart de cas, il n’est pas convenable de laisser explorer et indexer les pages de résultats de recherche internes. Cela peut causer des problèmes avec le contenu dupliqué qu’il faut éviter. Afin d’empêcher l’exploration et l’indexation de ces pages, informez les moteurs de recherche de ne pas y accéder.

Solution : Pour informer les moteurs de recherche de ne pas accéder aux pages de résultats de recherche internes, utilisez le fichier robots.txt. Voici un exemple d’un fichier robots.txt pour un site web de WordPress qui s’occupe de ce problème. Si ce n’est pas possible pour vous, dans Google Search console et dans Bing Webmaster Tools vous pouvez aussi empêcher Google et Bing d’explorer certaines pages.

Tag pages

Une raison moins technique d’avoir beaucoup de pages non indexables est l’utilisation de tag pages. Prenons une situation hypothétique : si vous êtes un écrivain enthousiaste d’un blog, avec le temps vous avez écrit beaucoup d’articles. Si vous étiez habitué à utiliser des balises pour les articles de votre blog en 2010, après quelque temps vous en avez eu des milliers. Lorsque vous avez lu de Google Panda, vous avez pu décider de commencer à utiliser les tag pages qui s’occupent des problèmes avec l’indexation.

En prévenant des problèmes possibles avec l’indexation, les tag pages ont fait surgir des problèmes avec l’exploration : les moteurs de recherche explorent ces pages, mais ils ne peuvent pas les indexer. Ils y gaspillent pourtant leur crawl budget.

Solution : Informez les moteurs de recherche de ne plus accéder aux tag pages à l’aide de votre fichier robots.txt.

Comment augmenter le crawl budget pour votre site web ?

Matt Cutts (qui dirige le Webspam team de Google) a éclairci dans une interview avec Eric Enge la relation entre l’autorité et le crawl budget.

Matt Cutts a dit :

Le nombre de pages que nous explorons est sensiblement proportionnel à votre PageRank. Si vous avez donc beaucoup de liens menant à votre page racine, nous l’explorerons sans doute. Cette page racine peut contenir des liens à d’autres pages qui vont obtenir le PageRank et nous les explorerons aussi. Quand vous vous plongez de plus en plus profond sur votre site web, le PageRank tend à diminuer.

Même si Google ne met plus à jour en public les valeurs de PageRank des pages, nous pensons qu’elles continuent à faire partie de leur algorithme. Comme le PageRank est un terme déroutant, nous l’appelons autorité de page. Le message essentiel qu’il faut garder en esprit de cette interview est donc : il y a une relation très forte entre l’autorité de page et le crawl budget.

Pour augmenter le crawl budget pour votre site web, il faut donc augmenter son autorité. Cela se fait en grande partie en obtenant des liens externes.

Questions fréquentes sur le crawl budget

  1. Comment puis-je augmenter mon crawl budget ?
  2. Devrais-je utiliser des URL canoniques et des balises meta robots ?

1. Comment puis-je augmenter mon crawl budget ?

Google a publié qu’il y avait une relation forte entre l’autorité de page et le crawl budget. Plus d’autorité la page a, plus de crawl budget lui est attribué.

2. Devrais-je utiliser des URL canoniques et des balises meta robots ?

Oui, vous devriez. Il est important de comprendre la différence entre les problèmes de l’indexation et les problèmes de l’exploration.

Les URL canoniques et les balises meta robots indiquent clairement aux moteurs de recherche quelles pages devraient être indexées, mais elles ne les empêchent pas d’explorer ces pages. Pour éviter les problèmes de l’exploration, utilisez le fichier robots.txt et rel=”nofollow”.

Êtes-vous prêt à essayer ContentKing ?

Découvrez ce qui se passe sur votre site web.
Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).