Le crawling et l'indexation en quelques mots

Manipulez les processus de crawling et d'indexation sur votre site en communiquant vos préférences aux moteurs de recherche.

Vous les aiderez ainsi à comprendre sur quelles parties de votre site ils doivent se concentrer et lesquelles ignorer. Il y a de nombreuses façon de faire, alors quelle méthode appliquer à quel moment ?

Dans cet article, nous verrons quand utiliser chaque méthode en soulignant les avantages et inconvénients.

Les moteurs de recherche parcourent des milliards de pages tous les jours mais ils n'en indexent pas autant et en affichent encore moins dans leurs résultats. Votre but, c'est que vos pages se trouvent parmi elles. À ce moment-là, comment pouvez-vous influencer ce processus et améliorer votre référencement ?

Pour répondre à cette question, il faut d'abord voir comment se déroulent le crawling et l'indexation. Nous verrons ensuite les méthodes possibles pour prendre le contrôle du processus.

Comment fonctionne le crawling?

Les crawlers, parfois appelés "robots d'indexation", sont chargés de trouver et d'explorer autant d'URL que possible. Ils vérifient qu'un contenu s'y trouve effectivement. Ces URL peuvent être de nouvelles comme des anciennes que les crawlers connaissent déjà. Les nouvelles URL sont découvertes en explorant des pages déjà connues. Après la phase d'exploration, les résultats sont envoyés pour l'indexation. En anglais, les pages que les moteurs de recherche peuvent explorer sont dites crawlable.

Comment fonctionne l'indexation?

Les indexers, ou "robots d'indexation" en français, reçoivent le contenu des URL des crawlers. Les indexers essaient alors de dégager un sens de ces contenus en les analysant (y compris les liens, s'il y en a). L'indexer traite les URL canoniques et détermine l'autorité de chaque URL. L'indexer détermine aussi si une page doit être indexée. Les pages que les moteurs de recherche peuvent indexer sont dites indexable, terme anglais repris en français.

Après avoir été explorée, la page est envoyée à l'indexer.

Les indexers affichent également le rendu des pages et exécutent JavaScript. Si des liens sont trouvés, ils sont renvoyés au crawler.

Comment influencer le crawling et l'indexation

Vous pouvez contrôler le crawling et l'indexation en indiquant clairement vos préférences aux moteurs de recherche. De cette façon, vous les aidez à comprendre quelles sections de vos sites sont les plus importantes pour vous.

Dans ce chapitre nous verrons toutes les méthodes et lesquelles doivent être utilisées à tel ou tel moment. Nous avons également conçu un tableau pour illustrer ce que chaque méthode peut ou ne peut pas faire.

Commençons par expliquer quelques concepts:

  • Navigable: crawlable en anglais; les moteurs de recherche peuvent-ils explorer l'URL ?
  • Indexable: les moteurs de recherche sont-ils incités à indexer l'URL?
  • Empêcher le contenu dupliqué: est-ce que cette méthode empêche l'apparition de problèmes liés au contenu dupliqué ?
  • Consolider les signaux: les moteurs de recherche sont-ils incités à consolider la pertinence de votre page et l'autorité de L'URL, selon le contenu de l'URL et les liens?

Surtout, il est important de comprendre ce qu'est le budget crawl. Le budget crawl correspond au temps que les crawlers des moteurs de recherche vont passer sur votre site. Votre but, c'est qu'ils dépensent ce temps intelligemment, et pour ça, vous pouvez leur donner des instructions.

Thomas Cubel
Thomas Cubel

Savoir gérer correctement le crawl et l’indexation d’un site est quelque chose de primordial lorsque nous sommes dans les optimisations techniques d’un site. Cela permet au moteur comme à l’utilisateur d’avoir affaire à du contenu unique et de qualité sans être perturbé par des doublons ou des pages inutiles.

Personnellement, quand j’accompagne mes clients, j’ai pour habitude de systématiquement relever les contenus inutiles en faisant un « site:domaine.com », en regardant la Search Console, Google Analytics, les logs ou toute autre source de données pouvant me remonter des pages. A chaque fois que je vois une page vide, un doublon ou toute autre chose de peu intéressant pour le moteur et l’utilisateur, je mène mon enquête pour savoir si j’indexe ou pas et si ça peut perturber le crawl.

Faites donc bien attention à vos directives liées à l’indexation et au crawl (surtout canonical et nofollow). On en a pour bloquer ou non l’indexation, mais déclarer des versions alternatives du site (hreflang par exemple), annoncer comment s’imbriquent les pages de pagination entre-elles, etc… sont tout autant de systèmes permettant à un moteur de comprendre les liens logiques de vos pages et comment les parcourir, les indexer, etc.

Les méthodes pour contrôler le crawling et l'indexation

Navigable Indexable Evite le contenu dupliqué Consolide les signaux
Robots.txt no no yes no
Directives des robots
(Meta et header HTTP)
yes no yes no
Canonique
(Lien et header HTTP)
yes no yes yes
Attribut Hreflang yes yes yes no
Attribut pagination yes yes yes yes
Attribut mobile yes yes yes no
Outils du webmaster no no yes yes
HTTP authentication no no yes no
Barry Adams
Barry Adams

Pour des sites de grande taille, s'assurer que les moteurs de recherche consacrent suffisamment d'efforts à explorer et indexer les bonnes pages sans pour autant en bloquer trop peut être un équilibre délicat à trouver. Le mieux est de bien penser la structure de son site en amont pour éviter les problèmes de crawling mais l'utilisation du robots.txt, certes moins subtile, peut parfois servir. J'aime aussi utiliser rel=nofollow sur certains liens que je ne veux pas que les moteurs de recherche explorent, comme la recherche à facettes.

Robots.txt

Controlling crawling and indexing with robots.txt.

Le fichier robots.txt est une base de données qui fournit des règles basiques pour les crawlers. Nous appelons ces règles des directives. Si vous voulez empêcher les crawlers d'explorer certains URL, le robots.txt est le meilleur moyen d'y parvenir.

Si les crawlers ne sont pas autorisés à explorer un URL et enregistrer son contenu, l'indexer ne pourra jamais analyser son contenu et ses liens. Cela peut vous permettre d'éviter le contenu dupliqué, mais ça signifie aussi que l'URL en question ne sera jamais classé. Les moteurs de recherche ne pourront pas non plus consolider les signaux de pertinence et d'autorité puisqu'ils ne savent pas ce qui se trouve sur cette page. Ces signaux se perdront donc.

L'antisèche ultime sur le Crawling et l'Indexation

Trouver comment contrôler les moteurs de recherche vous prend la tête ? Gagnez du temps avec les bonnes méthodes!

Veuillez entrer une adresse mail valide.

Exemple d'utilisation de robots.txt
La section administrateur d'un site est un bon exemple d'emplacement pour appliquer le fichier robots.txt et empêcher les crawlers d'y accéder. Supposons que la section administrateur se trouve à cette adresse: https://www.exemple.fr/admin/.

Empêchez les crawlers d'accéder à cette section en utilisant la commande suivante dans votre robots.txt:

Disallow /admin

Vous ne pouvez pas modifier votre fichier robots.txt ? Appliquez la directive robots noindex dans la section /admin.

Remarques importantes
Notez que les URL dont l'accès est interdit aux crawlers peuvent toujours apparaître dans les résultats de recherche. Cela arrive quand les URL sont accessibles depuis d'autres pages ou quand les moteurs de recherche les connaissaient déjà avant d'en interdire l'accès avec robots.txt. Les moteurs de recherche afficheront donc un message tel que celui-ci:

Page is inaccessible through robots.txt

Le robots.txt ne peut pas résoudre des problèmes de contenu dupliqué déjà existants. Les moteurs de recherche n'oublieront pas un URL simplement parce qu'ils ne peuvent pas y accéder.

Ajouter un URL canonique ou une balise meta robots noindex à un URL bloqué par robots.txt ne va pas le désindexer. Les moteurs de recherche ne seront jamais au courant de votre demande de désindexation car votre fichier robots.txt les empêche de la voir.

Le fichier robots.txt est un outil essentiel pour optimiser le budget crawl de votre site. En utilisant robots.txt, vous pouvez indiquer aux moteurs de recherche quelles parties de votre site ne leurs sont pas utiles et ne doivent donc pas être explorées.

Ce que va faire le fichier robots.txt:

  • Empêcher les moteurs de recherche d'explorer certaines parties de votre site, économisant ainsi le budget crawl.
  • Empêcher les moteurs de recherche d'indexer certaines parties de votre site, si aucun lien n'y mène.
  • Empêcher l'apparition de problèmes de contenu dupliqué.

Ce que le fichier robots.txt ne va pas faire:

  • Consolider les signaux de pertinence et d'autorité.
  • Supprimer du contenu déjà indexé*.

* Bien que Google supporte la directive noindex et supprimera effectivement le contenu, nous ne vous recommandons pas d'utiliser cette méthode car non-officiellement approuvée. Seul Google la supporte et son efficacité n'est pas garantie à 100%. Ne l'utilisez que si vous ne pouvez pas utiliser les directives des robots ou les URL canoniques.
Vous voulez en savoir plus sur robots.txt?
Jetez un œil au guide de référence du fichier robots.txt.

Directives des robots

Controlling crawling and indexing with Meta Robots noindex.

Les directives des robots indiquent aux moteurs de recherche comment indexer les pages tout en gardant lesdites pages accessibles aux visiteurs. Elles sont souvent utilisées pour indiquer aux moteurs de ne pas indexer certaines pages. Du point de vue de l'indexation, c'est un signal plus fort que celui envoyé par l'URL canonique.

Implémenter la balise meta robots dans certaines pages se fait généralement en l'intégrant directement à la source. Pour les autres types de documents comme les PDF ou les images, il faut utiliser l'en-tête HTTP X-robots-tag.

Exemple d'utilisation des directives des robots
Supposons que vous ayez dix pages de destination pour Google AdWords traffic. Vous avez copié le contenu d'autres pages en ne les modifiant que légèrement. Ces pages ne doivent pas être indexées car cela entraînerait l'apparition de problèmes de contenu dupliqué. À ce moment-là, vous intégrez la directive des robots avec l'instruction noindex.

Remarque importante
Les directives des robots vous aident à empêcher l'apparition de contenu dupliqué mais elles n'ajoutent aucune valeur en terme de pertinence ou d'autorité à un URL.

En plus d'indiquer aux moteurs de recherche de ne pas indexer la page, l'instruction noindex de la balise meta robots les dissuade également de l'explorer. Vous économisez ainsi du budget crawl.

Contrairement à ce que son nom indique, la directive robots nofollow n'a aucune influence sur le crawling d'une page possédant cet attribut. Cependant, lorsque la directive des robots nofollow attribute est placée, les crawlers des moteurs de recherche n'utiliseront plus les liens de cette page pour explorer d'autres pages. Par conséquent, aucune autorité ne sera transférée vers ces autres pages.

Ce que font les directives robots:

  • Empêcher les moteurs de recherche d'indexer certaines parties de votre site.
  • Empêcher les problèmes de contenu dupliqué.

Ce que les directives robots ne font pas:

  • Empêcher les moteurs de recherche d'explorer certaines parties de votre site et économiser le budget crawl.
  • Consolider les signaux de pertinence et d'autorité.

Vous voulez en savoir plus sur les directives robots?
Jetez un œil au guide ultime de la balise meta robots.

URL canonique

Controlling crawling and indexing with Canonical URLs.

Une URL canonique indique aux moteurs de recherche la version canonique de la page, les encourageant ainsi à indexer cette version en particulier. L'URL canonique peut faire référence à lui-même ou à d'autres pages. Si vous voulez que les visiteurs puissent avoir accès à différentes versions d'une même page mais aussi que les moteurs de recherche les traitent comme une seule version, l'URL canonique est ce qu'il vous faut. Quand une page fait référence à une autre grâce à un URL canonique, l'essentiel de sa pertinence et de son autorité est transmise à l'URL cible.

Exemple d'utilisation d'un URL canonique
Supposons que vous ayez un site d'eCommerce avec trois catégories d'un produit. Le produit est accessible à partir de trois URL différents. Tout cela est très bien pour les visiteurs, mais il est préférable pour les moteurs de recherche d'explorer et indexer une seule URL. Choisissez une catégorie comme étant la principale et canonisez les deux autres d'après la première.

Remarques importantes
Assurez-vous d'appliquer la redirection 301 sur les URL qui ne sont d'aucune utilité pour les visiteurs par rapport à la version canonique. Cela vous permet de transférer toute leur autorité et leur pertinence à la version canonique. Cela vous aidera aussi à faire en sorte que les autres sites redirigent leurs visiteurs vers la version canonique.

Un URL canonique est un guide plus qu'une directive. Les moteurs de recherche peuvent décider de l'ignorer.

Appliquer un URL canonique ne permettra pas d'économiser du budget crawl puisqu'il n'empêche pas les moteurs de recherche d'explorer les pages. Il empêche ces pages d'être affichées en cas de requête de recherche car elles sont liées à la version canonique de l'URL.

Ce que fait une URL canonique:

  • Empêcher les moteurs de recherche d'indexer certaines parties de votre site.
  • Empêcher l'apparition de problèmes de contenu dupliqué.
  • Consolider la plupart des signaux de pertinence et d'autorité.

Ce qu'un URL canonique ne fait pas:

  • Empêcher les moteurs de recherche d'explorer certaines parties de votre site et donc économiser du budget crawl.

Vous voulez en savoir plus sur les URL canoniques?
Jetez un oeil au guide de référence des URL canoniques.

Attribut hreflang

Contrôler le crawling et l'indexation avec Hreflang.

L'attribut rel=“alternate” hreflang=“x”, ou attribut hreflang pour faire court, est utilisé pour communiquer aux moteurs de recherche le langage utilisé pour votre contenu et à quelle région géographique il est destiné. Si vous ciblez plusieurs régions avec un seul contenu ou des contenus semblables, l'attribut hreflang est fait pour vous. Il vous permet d'être classé dans chaque marché avec un même contenu et d'éviter le contenu dupliqué.

Il n'empêche cependant pas le contenu dupliqué. Présenter exactement le même contenu au Royaume-Uni et aux Etats-Unis peut être vu comme du contenu dupliqué. En plus du contenu dupliqué, il faut vous assurer que votre contenu soit adapté à votre public. Assurez-vous que votre contenu lui semble familier. Pour cela, apporter quelques modifications aux textes et aux images pour les faire correspondre soit au Royaume-Uni soit aux Etats-Unis est recommandé.

Exemple d'utilisation de l'attribut hreflang
Vous ciblez plusieurs marchés anglophones en utilisant un sous-domaine pour chaque marché. Le contenu est le même pour chaque sous-domaine:

  • www.exemple.com pour le marché américain (des Etats-Unis)
  • ca.exemple.com pour le marché canadien
  • uk.exemple.com pour le marché britannique
  • au.exemple.com pour le marché australien

Pour chaque marché, vous voulez être référencé avec le même contenu et éviter le contenu dupliqué. C'est là qu'intervient hreflang.

Ce que fait l'attribut hreflang:

  • Cibler plusieurs publics différents avec un seul contenu.
  • Eviter les problèmes de contenu dupliqué.

Ce que l'attribut hreflang ne fait pas:

  • Empêcher les moteurs de recherche d'explorer certaines parties de votre site et donc économiser le budget crawl.
  • Empêcher les moteurs de recherche d'indexer certaines parties de votre site.
  • Consolider les signaux de pertinence et d'autorité.

Vous voulez en savoir plus sur l'attribut hreflang?
Jetez un œil au guide ultime de l'attribut hreflang.

Attributs pagination

Controlling crawling and indexing with rel=“prev” and rel=“next”.

Les attributs rel=“prev” et rel=“next” ou attributs pagination pour faire court, sont utilisés pour indiquer aux moteurs de recherche les relations au sein d'une série de pages. Pour des séries de pages similaires, telles que les pages d'archives paginées d'un blog ou les pages pour les différentes catégories d'un produit, elles aussi paginées, il est préférable d'utiliser l'attribut pagination. Les moteurs de recherche comprendront que les pages se ressemblent beaucoup, ce qui évitera les problèmes de contenu dupliqué.

La plupart du temps, les moteurs de recherche ne classeront pas d'autres pages que la première page paginée de la série.

Ce que font les attributs pagination:

  • Eviter les ploblèmes de contenu dupliqué.
  • Consolider les signaux de pertinence et d'autorité.

Ce que les attributs pagination ne feront pas:

  • Empêcher les moteurs de recherche d'explorer certaines parties de votre site et donc économiser du crawl budget.
  • Empêcher les moteurs de recherche d'indexer certaines parties de votre site.

Vous voulez en savoir plus sur les attributs pagination?
Jetez un œil au guide ultime de la pagination.

Attribut mobile

Controlling crawling and indexing with rel=“alternate” mobile attribute.

L'attribut  rel=“alternate” mobile, ou attribut mobile en abrégé, communique les relations entre les versions ordinateurs et mobiles d'un site aux moteurs de recherche. Il aide les moteurs de recherche à reconnaître quel site est le bon pour tel appareil et évite les problèmes de contenu dupliqué pendant le processus.

Ce que fait l'attribut mobile:

  • Eviter les problèmes de contenu dupliqué.
  • Consolider les signaux de pertinence et d'autorité.

Ce que l'attribut mobile ne fait pas:

  • Empêcher les moteurs de recherche d'explorer certaines parties de votre site et économiser le budget crawl.
  • Empêcher les moteurs de recherche d'indexer certaines parties de votre site.

Vous voulez en savoir plus sur l'attribut mobile?
Jetez un oeil au guide ultime de l'attribut mobile.

Manipulation des paramètres dans la Google Search Console et Outils pour Webmaster de Bing

Controlling crawling and indexing with Webmaster Tools.

Si vous ne pouvez pas faire de changements rapides sur votre site, vous pouvez modifier la gestion des paramètres dans la Google Search Console et les Outils du Webmaster de Bing. La gestion des paramètres définit de quelle façon les moteurs de recherche doivent interagir avec les URL qui contiennent un paramètre. Grâce à cela, vous pouvez indiquer à Google et Bing de ne pas explorer et/ou indexer certains URL.

Pour modifier la gestion des paramètres, il vous faut des URL identifiables par un format. La gestion des paramètres ne doit être utilisée qu'en certaines occasions, par exemple pour trier, filtrer, traduire et sauvegarder des données.

Remarque importante
Gardez à l'esprit que configurer tout cela pour Google et Bing n'affectera pas la façon dont les autres moteurs de recherche exploreront votre site.

Ce que fait la gestion des paramètres:

  • Empêcher les moteurs de recherche d'explorer certaines parties de votre site, économisant ainsi du budget crawl.
  • Empêcher les moteurs de recherche d'indexer certaines parties de votre site.
  • Eviter les problèmes de contenu dupliqué.
  • Consolider les signaux de pertinence et d'autorité.

Ce que la gestion des paramètres ne fait pas:

  • Vous laisser configurer l'exploration et l'indexation pour des URL individuels.

Authentification

Controlling crawling and indexing with HTTP authentication.

L'authentification HTTP oblige les utilisateurs ou les machines à se connecter pour accéder à un site ou à une portion de site.

Authentification requise

Sans un nom d'utilisateur et un mot de passe, il sera impossible pour vous (ou pour un robot) de dépasser l'écran de connexion et d'accéder à quoi que ce soit. L'authentification HTTP est un excellent moyen d'empêcher les visiteurs indésirables, que ce soit des humaines ou les crawlers des moteurs de recherche, de pénétrer, par exemple, dans un environnement de test. Google recommande d'ailleurs d'utiliser l'authentification HTTP pour empêcher les crawlers d'accéder à de tels environnements.

Si vous ne souhaitez pas que du contenu confidentiel ou privé s'affiche dans les résultats de recherche Google, la façon la plus simple et la plus efficace de bloquer l'affichage d'URL privées est de les enregistrer dans un répertoire protégé par mot de passe sur le serveur de votre site. Googlebot et tous les autres robots d'exploration ne peuvent pas accéder au contenu qui se trouve dans des répertoires protégés par mot de passe.

Ce que fait l'authentification HTTP:

  • Empêcher les moteurs de recherche d'explorer certaines parties de votre site, économisant ainsi du budget crawl.
  • Empêcher les moteurs de recherche d'indexer certaines parties de votre site.
  • Eviter les problèmes de contenu dupliqué.

Ce que l'authentification HTTP ne fait pas:

  • Consolider les signaux de pertinence et d'autorité.

Questions fréquentes sur l'exploration et l'indexation

  1. Est-ce que Google explore souvent mon site ?
  2. Puis-je ralentir les crawlers lorsqu'ils explorent mon site?
  3. Comment puis-je empêcher les moteurs de recherche d'explorer un site ou une page?
  4. Que signifie indexer un site?
  5. Mon site peut-il être indexé par les moteurs de recherche?
  6. Est-ce que Google indexe souvent mon site?
  7. Combien de temps cela va-t-il prendre à Google pour indexer mon site?
  8. Comment puis-je empêcher les moteurs de recherche d'indexer un site ou une page?

L'antisèche ultime sur le crawling et l'indexation

Trouvez rapidement la bonne méthode pour régler les problèmes de crawling et d'indexation!

Veuillez entrer une adresse mail valide.

Explorer comme les moteurs de recherche: se mettre à leur place

Comment les crawlers des moteurs de recherche voient vos pages et qu'est-ce que vos pages leur apportent? Mettez vous à leur place avec l'outil "Explorer et afficher".
La fonction "Explorer comme Google" en est l'exemple le plus connu. Elle est situé dans la Google Search Console et vous permet de créer une URL sur votre site et Google vous indiquera ce que voient ses crawlers sur cette URL et ce qu'elle affiche. Vous pouvez faire cela pour les versions ordinateurs et mobiles. Vous pouvez voir ci-dessous à quoi cela ressemble :

Explorer une URL

Affichage d'une URL

C'est très pratique pour vérifier que les URL répondent correctement, mais aussi pour forcer l'indexation des URL ("Demande d'indexation"). En quelques secondes, votre URL est explorée et indexée. Cela ne veut pas dire que son contenu est immédiatement traité et classé, mais cela vous permet d'accélérer le processus d'exploration et d'indexation.

D'autres situations ou la fonction Explorer comme Google se révèle pratique

Explorer comme Google n'est pas seulement utile pour accélérer le processus d'exploration et d'indexation d'une URL individuelle, cette fonction vous permet aussi:

  1. D'accélérer la découverte de nouvelle sections de votre site
    Explorer l'URL qui renvoie aux nouvelles sections, et cliquez sur "Requête d'indexation" avec l'option "Explorer cette URL et ses liens directs"
  2. D'obtenir un audit de l'expérience utilisateur sur la version mobile:
    Explorer l'URL en tant que "Mobile: smartphone".
  3. De vérifier que les redirections-301 fonctionnent correctement.
    Recopier l'URL et vérifier ce que répond le header.

Notes:

  • Le troisième cas est encore plus facile à faire sur des URL groupées avec ContentKing.
  • Google vous autorise à demander l'indexation de 500 URL par mois.
  • Google ne vous autorise que 10 URL à indexer par mois si vous demander que toutes les URL liées soient explorées aussi.
  • Bing propose un outil similaire appelé "Explorer comme Bingbot".

 

1. Est-ce que Google explore souvent mon site?

La console de Google Search partage ses données d'exploration avec vous. Pour y accéder:

    1. Connectez-vous à la console de Google Search et sélectionnez un site.
    2. Cliquez sur “Exploration” > “Statistiques d'exploration” et vous trouverez à quelle fréquence Google explore votre site.

Si vous vous y connaissez un peu, vous pouvez savoir si Google explore souvent votre site en analysant les fichiers log de votre site.

Il est intéressant de noter que Google détermine la fréquence des visites sur votre site en se basant sur le budget crawl alloué à votre site.

2. Puis-je ralentir les crawlers lorsqu'ils explorent mon site?

Bien que cela ne soit pas recommandé pour Google et Bing, vous pouvez utiliser la directive robots.txt crow-delay. Nous ne vous le recommandons pas pour Google et Bing car les crawlers sont suffisamment malins pour savoir quand votre site n'est pas au mieux de sa forme, et ils reviendront plus tard pour revérifier.

3. Comment puis-je empêcher les moteurs de recherche d'explorer un site ou une page?

Il y a plusieurs façons d'éviter que les moteurs de recherche ne viennent explorer certaines parties de votre site ou juste quelques pages:

  • Robots.txt: peut être utilisé pour empêcher les moteurs de recherche d'explorer un site, certaines parties ou des pages individuelles.
  • La gestion des paramètres: peut être utilisé pour empêcher l'exploration d'URL contenant un certain paramètre.
  • L'authentification HTTP: peut être utilisé pour empêcher l'exploration de tout un site, de certaines parties ou de pages individuelles.

4. Que signifie indexer un site?

L'indexation est le processus par lequel l'opérateur d'un moteur de recherche essaie de dégager un sens d'un site afin qu'il puisse ensuite être trouvé en passant par les moteurs de recherche.

5. Mon site peut-il être indexé par les moteurs de recherche?

La meilleure façon de répondre à cette question est de vous créer un compte sur ContentKing pour évaluer à quel point votre site peut être indexé par les moteurs de recherche. Comme vous avez pu le lire plus haut, il y a de nombreuses façons d'influencer la façon dont les moteurs de recherche indexent votre site.

6. Est-ce que Google indexe souvent mon site?

Autant de fois que Google explore votre site. Les crawlers transmettent tout ce qu'ils trouvent aux indexeurs, lesquels se chargent d'indexer votre sites.

7. Combien de temps cela va-t-il prendre à Google pour indexer mon site?

Il y a plusieurs réponses à cette question car elle dépend de la promotion dont bénéficie le site nouvellement créé. Le promouvoir accélère le processus d'exploration et d'indexation. En vous y prenant bien, un site de petite taille peut être indexé en une heure. A côté de ça, cela peut parfois prendre des mois pour indexer complètement un nouveau site.

Notez qu'avoir votre site référencé par les moteurs de recherche ne signifie pas que votre page va apparaître parmi les premiers résultats en un claquement de doigts. Atteindre le haut du panier prend, beaucoup, beaucoup plus de temps.

8. Comment puis-je empêcher les moteurs de recherche d'indexer un site ou une page ?

Il est possible d'empêcher les moteurs de recherche d'indexer un site ou une page de plusieurs façons:

  • La balise meta robots noindex: c'est un signal très fort envoyé aux moteurs de recherche pour qu'ils n'indexent pas la page. Elle ne transmet pas de signaux de pertinence ou d'autorité aux autres pages.
  • Un URL canonique: c'est un signal de force modérée pour indiquer aux moteurs de recherche quelle page indexer et également pour attribuer des signaux de pertinence et d'autorité.
  • L'authentification HTTP: elle empêchera uniquement l'exploration et l'indexation de nouvelles pages de point de vue de la SEO. Cela dit, elle reste, de façon générale, le meilleur moyen d'empêcher des moteurs de recherche ou des visiteurs indésirables d'accéder à un environnement test.
  • Robots.txt: peut être utilisé pour empêcher l'exploration ou l'indexation de nouvelles pages.
  • Gestion des paramètres: peut être utilisée pour empêcher l'exploration ou l'indexation d'URL contenant un certain paramètre.

Commencer votre essai gratuit de 14 jours

Vous pouvez commencer en 20 secondes

Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).
  • La carte de crédit n'est pas requise
  • Aucune installation requise
  • Sans engagement