Bienvenu à la première édition de SEO en Gros plan, une série mensuelle d’articles de blogs dans laquelle nous interrogeons des Experts en SEO sur tous les sujets de SEO.

Dans la première édition de SEO en Gros Plan nous parlerons de crawler traps avec Dawn Anderson!

Dawn Anderson
Dawn Anderson

Les Crawler Traps peuvent sérieusement endommager un site, mais cela dépend du type de crawler traps qu’on doit gérer.

Si vous connaissez Dawn Anderson, vous savez qu’elle adore écrire et parler de SEO technique.

Pour celles et ceux qui ne la connaissent pas : Dawn est la fondatrice de Move It Marketing, une agence de marketing digital basée à Manchester.

Avant de commencer, définissons tout d’abord ce que sont les crawler traps.

En SEO, les “crawler traps” sont des problèmes provenant de la structure d’un site : les crawlers vont trouver un nombre virtuellement infini d’URLs non pertinents. C’est une mauvaise chose parce qu’ils peuvent gaspiller votre crawl budget et poser des problèmes de contenu dupliqué.

Crawler traps illustrated

Que pensez-vous des crawler traps?

Les crawler traps peuvent sérieusement endommager un site, mais cela dépend du type de crawler qu’on doit gérer. Alors que les espaces infinis tels que les calendriers sans fin, et les paramètres générés dynamiquement tels qu’on les trouve sur les sites de eCommerce peuvent être des type de crawler traps très problématiques, les pires crawlers traps que j’ai pu voir sont les pages qui proviennent de paramètres logiques, mais incorrectes.

Pouvez-vous expliquer ce que vous voulez dire par des pages qui proviennent des paramètres logiques, mais incorrectes?

Lorsque je parle de ce genre de pages, je veux parler des pages qui ont un contenu qui à l’air bien à première vue, et qui changent en fonction des paramètres qu’elles ont.

Par exemple, disons que vous avez une plateforme de eCommerce avec des chaussures, avec des sous-catégories comme talons, chaussures plates,escarpins, bottines, pantoufles, bottes de pluie et sandales. Une boucle infinie peut faire ressortir les sous-catégories talons et chaussures plates ensemble parce qu’une des variables de sous-catégories qui génère du contenu dynamique et qui change l’URL est mal programmée dans le Template.

En fonction du contenu créé par ces variables dynamiques, ce qui résulte de la page peut être parfaitement pertinent ou n’avoir aucun sens. Mais, les pages sont fortement reliées par le thème et reliées sémantiquement (chaussures, talons, escarpins, bottines, pantoufles).

Exemples d’URLs imaginaires :
https://www.exemple.com/chaussures/talons/bottines/[suite-de-l'URL]
https://www.exemple.com/chaussures/bottines/escarpins/[suite-de-l'URL]
https://www.exemple.com/chaussures/escarpins/pantoufles/[suite-de-l'URL]

On dirait que c’est un sérieux problème, non?

Oui, ce genre de crawler traps peuvent torpiller un site à la longue. C’est aussi grave que ça.

Pourquoi donc?

La raison est la suivante : Google à tendance à reconnaître un crawler trap standard assez rapidement en fonction des modèles de crawlers traps les plus connus et réduira le temps des nouvelles visites passé sur les chemins dévoyés qui ont été créés. L’exception ici, c’est que Google ne le fait pas rapidement lorsque les pages ont des paramètres logiques mais incorrectes.

Parfois Google commence même par visiter les pages aux paramètres logiques mais incorrectes plus que le contenu que vous voulez qu’il visite et pourrait indexer votre contenu en fonction.

Comment ça fonctionne en pratique?

Vous pouvez distinguer deux phases dans la détection des crawler traps :

Phase 1:

Les types de paramètres bien connus ont tendance à être crawlés pendant un moment, et ensuite le crawl ralenti d’un coup une fois que les paramètres et les URLs générés commencent à développer des patterns vraisemblablement reconnaissables par les Googlebots (ou d’autres parties du système de programmation de crawl).

Phase 2:

Ensuite le paramètre apparaît dans Google Search Console en-dessous de Crawl > Paramètres d'URL pour que l’on puisse dire à Google si ces paramètres sont représentatifs (pour des raisons de tracking) ou des paramètres actifs (qui changent le contenu ou l’ordre du contenu). Les paramètres représentatifs contiennent généralement dans leurs lignes des patterns comme ?utm_ et ainsi de suite. Les paramètres actifs incluent des identificateurs comme par exemple les sous-catégories, les tailles, les couleurs, et ainsi de suite. Tous ces paramètres changent le contenu, ou changent l’ordre de ce contenu. On peut penser à l’option de tri en fonction des prix, des meilleurs notes, par ordre croissant ou décroissant, etc…

La gestion de paramètre d’URL, c’est en gros Google qui demande : “Hé, on a trouvé ce chemin un certain nombre de fois. Êtes-vous certains que c’est l’itinéraire que vous voulez nous faire prendre?”. On peut donner des indices à Google sur les différentes directions à prendre, tout particulièrement pour les sites avec beaucoup de permutations pour le même article.

Mais ce n’est pas le cas avec des paramètres logiques mais incorrectes. En général, on ne les retrouve pas dans Google Search Console parce qu’ils ne sont pas reconnus comme étant des crawler traps.

Pourquoi Google ne les reconnaît pas comme étant des crawler traps?

Googlebot étant un crawler “sans jugement”s au début, il continuera à faire des boucles au sein des URLs et l’indexer continuera d’indexer ces pages tirées de paramètres “logiques” (mais incorrectes), parce que le contenu de ces pages est souvent créé sur le moment et dépend des même variables qui sont tirées des URLs.

Titres, sous-titres, appels à l’action et ainsi de suite obtiennent des résultats différents pour construire la page en plusieurs parties.

Comment Googlebot est-il supposé savoir qu’il est fort improbable que les gens cherchent des bottines à escarpins ?

Donc, il est probable de se retrouver avec des pages indexées pour des bottines à escarpins potentiellement à travers toutes les autres variantes (taille/couleur), et ainsi de suite. Si vous pensiez que les paramètres normaux pour les sites de eCommerce sont mauvais car ils font gonfler l’index, multipliez ça par 10 000.

Finalement (cela peut durer longtemps), Google se rendra compte que les pages qui sont créées avec des paramètres illogiques ont une faible valeur et le taux de téléchargement (taux de crawl) de ces URL finira par plonger.

Après tout, qui recherche des bottines à escarpins ?

Cependant, certaines de ces pages engendrées par les différentes variables ont du sens. On peut s’attendre à voir des escarpins et des talons ensembles par exemple, mais ces pages ne sont toujours pas celles que vous aviez l’intention de faire indexer.

À propos, ces pages n’apparaîtront probablement jamais dans les paramètres d’URL sur Google Search Console. Vous les retrouverez sous forme de données analytiques étranges dans le journal du serveur.

Vous risquez de ne pas le remarquer pendant un bout de temps, et vous risquez de recevoir un peu de trafic provenant de ça au début, parce que vous aurez plus de pages indexées qui se retrouvent avec des formulations de requêtes plus longues.

Mais au final, le taux de crawl plonge de plus en plus bas dès lors que les patterns indiquent que ces pages n’ont aucune valeur.

Vous devez littéralement défaire votre site (ou des paries de votre site), et c’est un travail colossal. Vous avez disséminé vos forces, et vous devez tout reconstruire. Bon courage, parce ça peut prendre du temps.

Soumettre des XML sitemaps à grande échelle tirés de paramètres incorrectes (mais logiques) ne fait qu’envenimer la situation.

Comment apparaissent ce type de crawler traps?

Ils viennent en général d’un problème généré par la programmation qui puise dynamiquement dans les mauvaises variables au sein d’un Template. Cela empire lorsqu’il y a une tonne de liens internes vers ces pages dans la navigation ou les XML sitemaps. Si c’est le cas, les crawlers tournent en rond tout en ajoutant toutes les variantes possibles (et tous les résultats de page possibles). Fondamentalement, on se retrouve avec un nombre infini d’URLs avec ce qui ressemble à du contenu logique.

Que conseillez-vous de faire pour régler ça?

Vérifiez toujours les paramètres d’URL, et toujours, toujours vérifier quelles pages sont générées par les variables programmées dans les Template.

Et qu’est ce qu’il faut en retenir?

Gardez toujours un œil sur les anomalies et vérifiez à plusieurs reprises tout ce qui est automatiquement programmé et implémenté, en particulier lorsque cela impacte des éléments dynamiques.

Steven van Vessum
Steven van Vessum

Steven est le Chef de l’expérience client dans l’entreprise ContentKing. Cela signifie qu’il s’occupe de tout lié avec les clients et avec l’inbound marketing. C’est là où il veut être. Il aime améliorer le référencement des sites web dans les moteurs de recherche et parler de l’inbound marketing.

Commencer votre essai gratuit de 14 jours

Vous pouvez commencer en 20 secondes

Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).
  • La carte de crédit n'est pas requise
  • Aucune installation requise
  • Sans engagement