Quelle est la définition de crawl budget en SEO ?

Le crawl budget est un terme inventé par l'industrie du SEO pour regrouper un certain nombre de concepts et de systèmes utilisés par les moteurs de recherche lorsqu'il s'agit pour eux de décider combien de pages explorer, et lesquelles. C'est grosso modo l'attention que les moteurs de recherche accordent à votre site.

Pourquoi les moteurs de recherche assignent-ils un crawl budget aux sites ?

Parce que leurs ressources ne sont pas illimitées et que leur attention se disperse sur des millions de sites en même temps. Il leur faut donc un moyen d'organiser leurs efforts. Assigner du crawl budget à chaque site leur permet d'accomplir cela.

Comment le crawl budget est-il assigné aux sites ?

Les moteurs de recherche se basent sur deux facteurs, à savoir le crawl limit et le crawl demand :

  1. Crawl limit / host load: quelle quantité de crawling peut encaisser le site et quelles sont les préférences du propriétaire du site ?
  2. Crawl demand / cplanification du crawling: quelles URL valent le plus la peine d'être (re)crawlés, en se basant sur leur popularité et la fréquence de leurs mises à jour.

Crawl budget est un terme courant en SEO. On parle aussi parfois de crawl space ou de crawl time.

Crawl budget

Pourquoi devrais-je me préoccuper du crawl budget ?

Votre but, c'est que les moteurs de recherche trouvent et comprennent autant de vos pages indexables que possible, et le plus vite possible. Lorsque vous ajoutez de nouvelles pages ou que vous en mettez certaines à jour, il faut que les moteurs de recherche les repèrent le plus tôt possible. Plus tôt vos pages sont indexées, plus vite vous en tirez les bénéfices.
Si vous gaspillez du crawl budget, les moteurs de recherche ne seront plus capables de crawlé votre site efficacement. Ils passeront du temps sur certaines parties moins importantes de votre site, laissant ainsi de larges sections inexplorées. S'ils ne prennent pas connaissance de certaines pages, ils ne les exploreront et ne les indexeront pas, et les visiteurs n'y auront pas accès avec les moteurs de recherche.
Vous commencez à comprendre où on veut en venir : gaspiller du crawl budget affectera vos performances SEO.
Notez qu'il n'est nécessaire de s'inquiéter pour le budget crawl que si vous avez un site d'une taille conséquente, disons à partir de 10 000 pages.

Barry Adams
Barry Adams

L'un des aspects les plus sous-estimés du crawl budget est la vitesse de chargement. Une vitesse de chargement plus haute signifie que Google peut explorer plus d'URL en autant de temps. J'ai récemment été impliqué dans une mise à jour de site où la première préoccupation était la vitesse de chargement. Le nouveau site chargeait deux fois plus vite que l'original. Lorsqu'on l'a mis en ligne, le nombre d'URL explorées par Google tous les jours est passé de 150 000 à 600 000, et s'est stabilisé. Pour un site de cette taille, une vitesse de crawling améliorée signifie que le contenu nouveau ou modifié est repéré bien plus vite, et nous voyons bien plus rapidement les fruits de nos efforts en SEO.

Quel est le crawl budget pour mon site web ?

De tous les moteurs de recherche, Google est le plus transparent concernant le crawl budget pour votre site.

Le crawl budget dans la Google Search Console

Si votre site est analysé par la Google Search Console, vous pouvez obtenir certaines données sur le crawl budget alloué par Google à ce site.
Suivez ces étapes :

  1. Connectez-vous à la Google Search Console et choisissez un site.
  2. Allez à Crawl > Crawl Stats. Vous verrez ici le nombre de pages que Google explore chaque jour.

Pendant l'été 2016, notre crawl budget ressemblait à ceci :

Crawl Stats de la Google Search Console
Google Search Console Crawl Stats - Summer 2016

Nous voyons ici que le crawl budget moyen est de 27 pages par jour. Théoriquement, si cette donnée ne change pas, le crawl budget par mois sera : 27 pages x 30 jours = 810 pages.
Regardons, 2 ans plus tard, à quoi ressemble notre crawl budget en ce moment :

Crawl Stats de la Google Search Console
Google Search Console Crawl Stats - Summer 2018

Notre crawl budget moyen est de 253 pages par jour, il a donc été quasiment multiplié par dix en deux ans.

Allez à la source : les registres du serveur

Consulter les registres de vos serveurs (server logs en anglais) pour voir à quelle fréquence passent les crawlers de Google sur votre site peut être très enrichissant. Il est intéressant de comparer ces statistiques à celles affichées sur la Google Search Console. Mieux vaut croiser les sources.

Comment optimiser le crawl budget ?

Optimiser votre crawl budget signifie vous assurer que vous n'en gaspillez pas. En gros, trouver où vous en gaspillez. Nous surveillons des milliers de sites; si vous vérifiez chacun d'entre eux à la recherche de problèmes de crawl budget, vous remarquerez rapidement un point commun : la plupart des sites souffrent des mêmes problèmes.
Voici les causes les plus courantes de gaspillage de crawl budget :

  1. Des URL à paramètres accessibles : un exemple d'URL avec paramètres est https://www.exemple.fr/jouets/voitures?couleur=noir. Dans cet exemple, le paramètre est utilisé pour stocker la sélection d'un visiteur selon un certain filtre.
  2. Le contenu dupliqué : les pages identiques, ou très semblables entre elles, sont appelées "contenu dupliqué." Exemples : des pages copiées, des pages de résultats de recherche interne, et des pages de tag.
  3. Du contenu de faible qualité : des pages avec peu de contenu ou des pages n'ajoutant aucune valeur.
  4. Des liens brisés ou redirigés : les liens brisés sont les liens menant vers des pages qui n'existent plus et les liens redirigés sont les liens vers des URL redirigeant vers d'autres URL.
  5. Ajouter des URL incorrectes dans votre sitemap XML : des pages non-indexables et des non-pages telles que des URL 3xx, 4XX et 5xx ne doivent pas être incluses dans votre sitemap XML.
  6. Des pages avec des temps de chargement très longs ou ne se chargeant pas : les pages mettant beaucoup de temps à charger, ou ne se chargeant pas du tout, ont un impact négatif sur votre crawl budget, car elles indiquent aux moteurs de recherche que votre site ne peut accomplir la requête, les obligeant à diminuer votre crawl limit.
  7. Beaucoup de pages non-indexables : le site contient beaucoup de pages qui ne sont pas indexables.
  8. Mauvaise structure des liens internes : si vos liens internes ne sont pas correctement structurés, les moteurs de recherche peuvent ne pas prêter assez d'attention à certaines pages.
Jenny Halasz
Jenny Halasz

Je dis souvent que Google, c'est comme votre patron. Vous n'allez pas à une réunion avec votre patron sans savoir de quoi vous allez parler, les points-clefs de votre travail et l'objectif de la réunion. En gros, il vous faut un programme. Lorsque vous vous rendez aux "bureaux" de Google, c'est pareil. Un site bien organisé sans tout un tas de foutoir, un sitemap XML bien fait, et des temps de réponse courts aideront Google à saisir ce qu'il y a d'important. Ne faites pas ça par-dessus la jambe, cet aspect du SEO est trop souvent sous-estimé.

Les URL avec paramètres accessibles

La plupart du temps, les URL avec paramètres de ne doivent pas être accessibles aux moteurs de recherche car elles peuvent générer une quantité quasiment infinie d'URL. Nous l'évoquons plus en détail dans cet article sur les pièges à crawlers (uniquement en anglais pour l'instant).
Les URL à paramètres sont généralement utilisées lors de l'implémentation de filtres pour produits sur les sites eCommerce. S'en servir ne pose aucun problème, mais assurez-vous que les moteurs de recherche n'y ont pas accès.
Et là vous vous demandez : "Comment les rendre inaccessibles aux moteurs de recherche ?"

  1. Utilisez votre fichier robots.txt pour indiquer aux moteurs de recherche de ne pas accéder à ces URL. Si, pour une raison ou pour une autre l'option n'est pas disponible, utilisez la gestion des paramètres d'URL de la Google Search Console et de Bing Webmaster Tools pour indiquer à Google et Bing quelles pages ne pas explorer.
  2. Ajoutez rel="nofollow" sur les liens concernés.

Le contenu dupliqué

Il est préférable pour vous que les moteurs de recherche ne passent pas leur temps sur des pages pleines de contenu dupliqué, il est donc important d'éliminer, ou au moins minimiser, la présence de contenu dupliqué sur votre site.
Et comment fait-on ça ? En commençant par...

  1. Paramétrer les redirections pour toutes les variantes du domaine (HTTP, HTTPS, non-WWW, et WWW).
  2. Rendre inaccessible les pages de résultats de recherche interne avec le fichier robots.txt. Voici un exemple de robots.txt pour un site sur WordPress.
  3. Désactiver les pages dédiées aux images (par exemple : les tristement célèbres liens des images sur WordPress).
  4. Être prudent quant à l'utilisation de la taxonomie, notamment les catégories et tags.

Jetez un œil aux autres causes techniques de contenu dupliqué et comment les corriger.

Contenu de faible qualité

Les pages avec peu de contenu ne sont pas intéressantes pour les moteurs de recherche. Évitez autant que possible d'en avoir. Un exemple de contenu de faible qualité : une section FAQ avec des URL individuelles pour chaque question et réponse.

Les liens brisés ou redirigés

Les liens brisés et les longues chaines de redirections sont des culs-de-sacs pour les moteurs de recherche. De la même façon que pour les navigateurs, il semble que Google puisse suivre un maximum de cinq redirections enchaînées en un seul crawling (et peut-être le terminer plus tard). La façon dont les autres moteurs de recherche s'adaptent aux redirections enchaînées, mais nous vous recommandons chaudement d'éviter lesdites redirections enchaînées de façon générale et de limiter l'usage des redirections au strict nécessaire.
Il est clair qu'en réparant les liens brisés et en redirigeant des liens, vous pouvez rapidement récupérer le crawl budget gaspillé. En plus de ça, vous améliorez sensiblement l'expérience de l'utilisateur. Les redirections, notamment les redirections enchaînées, entraînent des chargements de page plus longs et affectent par la même occasion l'expérience de vos visiteurs.
Afin de repérer plus facilement les liens brisés ou redirigés, nous y avons dédié tout une section Problèmes dans ContentKing.
Rendez-vous dans Problèmes > Liens pour voir si vous gaspillez du crawl budget à cause de liens défectueux. Mettez tous les liens à jour afin qu'ils mènent à des pages indexables ou supprimez les liens devenus inutiles.

Liens brisés ou redirigés dans ContentKing
Liens brisés ou redirigés dans ContentKing

Des URL incorrectes dans les sitemaps XML

Toutes les URL incluses dans les sitemaps XML doivent être des pages indexables. Les moteurs de recherche utilisent énormément les sitemaps XML pour trouver toutes vos pages, notamment pour les sites de grande taille. Si votre sitemap est saturé de pages qui n'existent plus ou sont redirigées, vous gaspillez du crawl budget. Vérifiez régulièrement votre sitemap à la recherche d'URL non-indexables qui ne devraient plus s'y trouver. Le contraire est valable également : cherchez les pages exclues du sitemap XML par erreur. Le sitemap est très utile pour aider les moteurs de recherche à dépenser intelligemment leur crawl budget.
La Google Search Console
Vous trouverez les informations de la Google Search Console sur les problèmes de sitemap en suivant Crawl > Sitemaps:

Les erreurs de sitemaps XML dans la Google Search Console
Les erreurs de sitemaps XML dans la Google Search Console

Bing Webmaster Tools
Vous trouverez la même chose sur Bing Webmaster Tools en suivant Configure My Site > Sitemaps.

ContentKing

ContentKing vous alerte aussi sur ce problème. Suivez Problèmes > Sitemap XML > Page incluse par erreur dans le sitemap XML:

Problème de sitemap XML dans ContentKing
Problème de sitemap XML dans ContentKing

Une technique intéressante d'optimisation du crawl budget est de diviser votre sitemap XML en plusieurs sitemaps plus petits. Vous pouvez par exemple créer un sitemap pour chaque section de votre site. Une fois fait, vous pouvez rapidement déterminer si certaines sections de votre site présentent des problèmes.
Supposons que la section A de votre sitemap XML contienne 500 liens et que 480 soient indexés : c'est plutôt pas mal. Mais si votre section B contient 500 liens et que seulement 120 sont indexés, vous devez vous en occuper. Peut-être avez-vous inclus beaucoup d'URL non-indexables dans le sitemap XML de la section B.

Les pages avec de longs temps de chargement ou ne se chargeant pas

Crawl budget: pages avec chargement lent ou timeout
Les pages avec des temps de chargement trop longs ou des timeouts affectent vos performances SEO

Plus long sont les temps de chargement et plus il y a de timeouts, moins les moteurs de recherche peuvent visiter de page avec le crawl budget qui leur est imparti. De plus, ces problèmes affectent l'expérience des utilisateurs, entraînant un taux de conversion plus faible.
un temps de chargement de plus de deux secondes pour une page est un problème. Idéalement, une page doit se charger en moins d'une seconde. Vérifiez régulièrement le temps de chargement des pages avec des outils tels que Pingdom, WebPagetest ou GTmetrix.
Google compile des données sur les temps de chargement que vous pouvez trouver dans les Google Analytics (suivez Behavior > Site Speed) et la Google Search Console dans Crawl > Crawl Stats.
Google Search Console et Bing Webmaster Tools vous donnent tous les deux des infos sur les timeouts. Dans la Google Search Console, vous pouvez le trouver en suivant Crawl > Crawl Errors, et dans Bing Webmaster Tools, suivez Reports & Data > Crawl Information.
Vérifiez régulièrement que vos pages se chargent assez vite, et réagissez vite si ce n'est pas le cas. Des chargement rapides sont essentielles à votre réussite sur internet.

Beaucoup de pages non-indexables

Si votre site contient un grand nombre de pages non-indexables accessibles aux moteurs de recherche, les moteurs de recherche perdent du temps à trier les pages inutiles.
On considère les trois types de pages ci-dessous comme étant des pages non-indexables :

  • Les redirections (3xx)
  • Les pages introuvables (4xx)
  • Les pages présentant des erreurs serveur (5xx)
  • Les pages non-indexables (les pages avec la directive noindex ou une URL canonique)

Afin de déterminer si vous avez beaucoup de pages non-indexables, regardez le nombre total de pages que les crawlers ont trouvé dans votre site puis triez les. Vous pouvez faire ça facilement avec ContentKing :

Trier les URL avec ContentKing
Trier les URL avec ContentKing

Dans cet exemple, 63 137 URL ont été trouvées, dont seulement 20 528 sont des pages.
Trier les pages par indexabilité avec ContentKing
Trier les pages par indexabilité avec ContentKing

Et sur ces pages, seulement 4 663 sont indexables pour les moteurs de recherche. Seulement 7.4% des URL trouvées par ContentKing peuvent être indexées par les moteurs de recherche. C'est peu et ce site a définitivement besoin d'être entretenu en supprimant toutes les références vers ces URL, à savoir :

  • Le sitemap XML (voir section précédente)
  • Les liens
  • Les URL canoniques
  • Les références Hreflang
  • Les références de pagination (les liens rel prev/next)

Des liens internes mal structurés

La façon dont les pages sont liées les unes aux autres joue un grand rôle dans l'optimisation du crawl budget de votre site. Nous appelons ça la structure des liens internes de votre site. Liens retours mis à part, les pages avec peu de liens reçoivent beaucoup moins d'attention des moteurs de recherche que les pages reliées à un grand nombre d'autres pages.
Évitez une structure trop hiérarchique avec des pages possédant peu de liens au milieu. La plupart du temps, ces pages ne seront que rarement explorées. C'est encore pire pour les pages en bas de la hiérarchie : en raison de leur faible nombre de liens, elles pourraient bien se retrouver négligées par les moteurs de recherche.
Assurez-vous que les pages les plus importantes disposent de beaucoup de liens internes. Les pages récemment explorées ont généralement un meilleur classement auprès des moteurs de recherche. Gardez cela à l'esprit et ajustez votre structure des liens internes en conséquence.
Par exemple, si vous avez un article de blog datant de 2011 qui génère beaucoup de trafic organique, assurez-vous que des liens venant d'autres contenus y mènent toujours. Comme vous avez publié beaucoup d'autres articles de blog depuis 2011, l'article en question sera automatiquement repoussé vers le bas de votre structure des liens internes.

Comment augmenter le crawl budget pour votre site web ?

Matt Cutts (directeur de la Webspam team de Google) a éclairci dans une interview avec Eric Enge la relation entre l’autorité et le crawl budget :

Matt Cutts

Le nombre de pages que nous explorons est grosso modo proportionnel à votre PageRank. Si vous avez donc beaucoup de liens menant à votre page racine, nous l’explorerons sans doute. Cette page racine peut contenir des liens à d’autres pages qui vont obtenir le PageRank et nous les explorerons aussi. Quand vous vous plongez de plus en plus profond sur votre site web, le PageRank tend à diminuer.


Même si Google ne met plus à jour en public les valeurs de PageRank des pages, nous pensons qu’elles continuent à faire partie de leur algorithme. Comme le PageRank est un terme déroutant, nous l’appelons autorité de page. Le message essentiel qu’il faut garder en esprit de cette interview est donc : il y a une relation très forte entre l’autorité de page et le crawl budget.

Pour augmenter le crawl budget pour votre site web, il faut donc augmenter son autorité. Cela se fait en grande partie en obtenant des liens externes. Vous trouverez plus d'info à ce sujet dans notre guide de link building (pas encore disponible en français).

Questions fréquentes sur le crawl budget

  1. Comment puis-je augmenter mon crawl budget ?
  2. Devrais-je utiliser des URL canoniques et des balises meta robots ?

1. Comment puis-je augmenter mon crawl budget ?

Google a publié qu’il y avait une relation forte entre l’autorité de page et le crawl budget. Plus d’autorité la page a, plus de crawl budget lui est attribué.

2. Devrais-je utiliser des URL canoniques et des balises meta robots ?

Oui, vous devriez. Il est important de comprendre la différence entre les problèmes de l’indexation et les problèmes de l’exploration.

Les URL canoniques et les balises meta robots indiquent clairement aux moteurs de recherche quelles pages devraient être indexées, mais elles ne les empêchent pas d’explorer ces pages. Pour éviter les problèmes de l’exploration, utilisez le fichier robots.txt et rel=”nofollow”.

Commencer votre essai gratuit de 14 jours

Vous pouvez commencer en 20 secondes

Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).
  • La carte de crédit n'est pas requise
  • Aucune installation requise
  • Sans engagement