Crawl & Indexation pour les gros sites

23 avril 2020
John Morabito

Beaucoup de sites utilisant la navigation à facettes se reposent uniquement sur la canonique pour pointer vers la page de départ de la recherche dans la catégorie. Le problème, c’est que très souvent, ces pages ne sont pas similaires et ne sont plus appropriées pour l’utilisation de la balise canonique. A la place, ces pages devraient avoir une balise noindex.

Salut John ! Peux-tu nous parler un peu de toi ?

Je m’appelle John Morabito et je suis Directeur du SEO chez Stella Rising. Nous sommes une agence marketing et média, proposant des services allant de la recherche à la réalisation pour des marques dans les domaines de la beauté, de la santé, de la vente au détail, de l’industrie des biens de consommation vendus sous emballage et des entreprises B2B.

Vous pouvez me suivre sur le blog Stella Rising ou sur des sites comme Search Engine Watch et SEMRush.

Je recherche toujours à partager et à apprendre. Si votre marque lutte avec le SEO, n’hésitez pas à nous contacter ; nous offrons une opportunité d’analyse gratuite.

Quel est le plus grand challenge lorsqu’il s’agit de faire en sorte que les gros sites soient correctement crawlés et indexés, et comment s’attaquer à cela ?

Pour faire simple, ce sont des grandes quantités de pages de faible qualité qu’un site génère pour une raison ou une autre. J’ai vu de nombreux cas où la navigation à facettes est le problème, cependant, les choses comme les profils d’utilisateurs ou les pages d’étiquettes sur les sites de presse peuvent également causer des problèmes.

Durant notre audit de crawl et d’indexation, nous regardons le nombre de pages indexables qui peuvent être crawlées sur un site puis nous les comparons au nombre de pages dans Google Search Console, à une recherche de type site: requête, et à nos sitemaps XML. Cela nous donne quatre points de données différents pour mieux comprendre un possible désalignement entre ce que nous mettons en avant comme “le site” et ce que Google saisit.

Après avoir été crawlée une page est transférée aux indexeurs.
Après avoir été crawlée une page est transférée aux indexeurs.

Très souvent nous voyons des choses comme une canonique qui est complètement ignorée, et des problèmes sur la façon dont les canoniques sont implémentées pour la pagination.

Dans le cas de canoniques ignorées, cela peut engendrer un crawl moins fréquent des pages, car Google peut accéder à un nombre quasi-infini d’URL.

Beaucoup de sites utilisant la navigation à facettes se reposent uniquement sur la canonique pour pointer vers la page de départ de la recherche dans la catégorie. Le problème, c’est que très souvent, ces pages ne sont pas similaires et ne sont plus appropriées pour l’utilisation de la balise canonique. A la place, ces pages devraient avoir une balise noindex. Le problème avec ça, c’est que si quelqu’un fait un lien vers ces pages, l’équité sera éventuellement perdue, avec ou sans l’attribut de lien “follow”. Pour cette raison, nous recommandons de scanner périodiquement votre profil de liens entrants pour des URL dynamiques, et recréer celles-ci en pages statiques, si assez de personnes font des liens vers elles.

Dans un exemple récent, nous avons trouvé un site d’immobilier qui avaient deux problèmes majeurs avec la pagination.

Tout d’abord, les liens vers les pages après la première étaient dans un menu déroulant JavaScript, que les crawlers, même en ayant affiché le DOM, ne pouvaient pas voir.

En plus de ça, ils avaient une canonique sur chaque page après la première, qui pointait vers la première de la série. Les canoniques paginées devraient toujours s’auto-référencer, et lorsque nous avons mis cela en place, en plus de montrer la pagination d’une manière accessible pour les crawlers, nous avons vu une augmentation massive du nombre de pages indexées, ce qui était notre objectif ultime.

Communiquer les relations hiérarchiques entre les pages fait également partie des choses les plus difficiles à traiter sur des gros sites.

Souvent, nous analysons des choses comme la profondeur de clic pour atteindre une propriété particulière (en reprenant l’exemple du site immobilier). Pour cette niche, le trafic vient surtout des pages de destination pour une zone donnée, mais les personnes qui vendent la maison, aussi bien l’agence que le vendeur, veulent toujours que la page de l’annonce se classe parmi les premiers résultats de recherche.

Le problème est qu’il y a souvent des centaines ou des milliers de ce type d’annonces sur le site. Généralement, les pages de destination par région sont triées par prix ou récence sur le marché. Il peut donc être difficile de déterminer où se trouve une annonce individuelle dans l’architecture du site. Cela pourrait être le cas des produits sur un grand site e-commerce également, ou d’articles de blog sur un site de presse.

Notre solution est souvent de créer des pages de destination qui peuvent être crawlées et qui sont “inversées”, où nous trions à l’opposé du tri de base ; c’est à dire par prix croissant par exemple.

En outre, nous ajoutons plus de liens internes à la pagination en plus de la “page suivante”. Généralement, nous recommandons d’ajouter des liens vers quatre ou cinq pages de chaque côté de la page sur laquelle se trouve le robot. Cela permet d’aplanir l’architecture et de fournir plus de chemins de crawl vers chaque annonce.

Ressources utiles

Cela pourrait également vous intéresser :

En quoi l’annonce de Google en 2019 sur le fait qu’ils n’utilisent pas les attributs de pagination vous a impactée ainsi que les recommandations que vous faites ?

D’une certaine façon, oui, cela a changé la façon dont nous traitons la priorité de cet attribut, mais généralement seulement s’il n’est pas présent, ou qu’il est faux.

Du fait que les autres moteurs de recherche utilisent toujours ces attributs, nous recommandons toujours de les utiliser pour la plupart de nos clients. Parfois, les sites avec lesquels nous travaillons les ont déjà implémentés, donc nous continuons à les utiliser pour renforcer la façon dont le site est actuellement crawlé et indexé.

Cela étant dit, la pagination ne se limite pas qu’aux attributs de lien. Essayer de réduire la profondeur de clic grâce à des tunnels de pagination plus plats est plus productif qu’être obsédé par les attributs de lien.

Es-tu partisan d’utiliser le robots.txt pour empêcher les moteurs de recherche d’accéder à certaines sections du site ? Si oui, pourquoi ?

Il y a beaucoup de bonnes utilisations du disallow dans le robots.txt et je l’utilise souvent comme solution, cependant il est parfois mieux de regarder la façon dont les robots atteignent ces coins sombres de votre site. Puis de travailler à résoudre le problème à la source.

Dans quelles situations utilises-tu l’attribut de lien nofollow sur les liens internes ?

Cela est de plus en plus complexe. Google a déjà indiqué qu’ils pourraient potentiellement continuer à crawler des liens utilisant cet attribut. Cependant, cela va sans doute continuer à être un outil utile. L’attribut nofollow, selon moi, peut être utile pour contrôler les facettes ou les “spider traps”. La meilleure réponse aux deux scénarios est de ne pas créer des pages de faible qualité dès le départ, mais ce n’est pas toujours la réalité, n’est-ce pas ?

Dans Shopify, il n’y a pas de contrôle sur le robots.txt, donc le nofollow est un outil qui peut être utilisé sur les filtres afin de les empêcher d’être crawlés dans la plupart des cas.

En plus du nofollow sur le lien vers la page, un noindex, follow sur la page elle-même est idéal. L’équité sera perdue après un certain temps, mais garder le follow en vaut la peine. Comme je l’ai dit précédemment, vous devriez scanner vos liens entrants pour trouver des liens vers des pages bloquées et, soit les débloquer, soit les recréer en tant que pages statiques. Cela est assez rare cependant, donc généralement je ne m’inquiète pas de l’équité depuis des pages créées avec filtres.

Comment gères-tu des pages produit ou d’annonces discontinués, à grande échelle ?

Ca dépend, mais j’ai deux réponses :

  1. En général, si l’URL n’a pas de trafic, de lien entrant ou de mots clés pour lesquels elle se positionne, une 404 est appropriée et une 410 encore mieux. La 410 dit que la “page n’est vraiment plus disponible”.
  2. Si la page avait de la valeur, voici ce que nous faisons pour :

Détaillant d’électronique

Dans le monde de l’électronique, par exemple, les lignes de produit reviennent chaque année avec de nouvelles unités de stock et numéros de modèle. Ce sont de bons candidats pour des redirections 1-1, où l’ancien produit est redirigé vers le nouveau. Je recommanderais l’affichage d’un message pour faire savoir aux utilisateurs qu’ils sont arrivés sur une ancienne URL et sont désormais sur une nouvelle unité de stock, mais la plupart des sites n’ont pas besoin de ça.

Détaillant de vêtements

Pour les détaillants de vêtements qui ont des collections saisonnières et beaucoup de produits qui passent en rupture de stock, nous essayons de trouver un produit similaire vers lequel rediriger, mais souvent, nous avons le choix entre une redirection vers une catégorie ou laisser la page produit avec une notification. Notre approche dépend du client et de notre capacité à mettre en place la solution. Dans certains cas, nous recommandons de prendre les emails des clients depuis la fiche produit.

Immobilier

Nous recommandons, en général, de laisser l’ensemble des annonces en ligne à tout moment, même si une maison n’est plus à vendre. Pour une période, nous faisons un lien vers elles depuis la section “vendues”. Ensuite, nous enlevons les liens vers ces pages afin qu’elles ne consomment pas de budget crawl, mais les gardons en tant que pages indexables. Cela permet de les ramener à la vie un peu plus facilement si elles reviennent sur le marché, ainsi que d’obtenir un peu de trafic grâce aux recherches d’adresse exacte.

Comment vois-tu l’évolution dans le temps du crawl et de l’indexation ?

De beaucoup de manières, le futur est déjà pour certains sites. Actuellement, Google propose une API d’indexation qui ne peut être utilisée qu’avec des données structurées JobPosting ou des BroadcastEvent integrés dans un VideoObject.

Je m’attends à ce qu’ils autorisent d’autres utilisations de cette API, mais je ne suis pas sûr qu’ils la déploie dans toutes les filières. S’ils le font, l’API est assez facile à utiliser et je peux imaginer que les SEO avancés commenceront à l’adopter à la place des XML. Utiliser l’API requiert un peu de programmation.

Dernière question : quelle est ton astuce numéro un pour améliorer le crawl et l’indexation des gros sites ?

Réfléchissez profondément à l’architecture du site et la profondeur de clic pour chaque section du site.

En règle générale, nous pouvons faire progresser les choses en ajoutant plus de pages catégories/destination/recherche, etc., qui font des liens vers d’autres pages du site telles que des pages produits/articles/propriétés.

Souvent, il est problématique d’indexer/positionner du contenu qui se trouve à plusieurs centaines de clics dans ces sites. Réfléchissez à la façon d’aplanir l’architecture du site, sans la rendre trop plate.

Comme la plupart des choses dans la vie, il s’agit de trouver l’équilibre !

Poursuivre la lecture d’entretiens approfondis avec des spécialistes en SEO

Poursuivre la lecture d’entretiens approfondis avec des spécialistes en SEO
Steven van Vessum
Steven van Vessum

Steven est le Chef de l’expérience client dans l’entreprise ContentKing. Cela signifie qu’il s’occupe de tout lié avec les clients et avec l’inbound marketing. C’est là où il veut être. Il aime améliorer le référencement des sites web dans les moteurs de recherche et parler de l’inbound marketing.

Commencer votre essai gratuit de 14 jours

Vous pouvez commencer en 20 secondes

Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).
  • La carte de crédit n'est pas requise
  • Aucune installation requise
  • Sans engagement