Que pouvez-vous attendre de cet article

Les balises meta robots donnent des instructions aux moteurs de recherche qui précisent ce que vous voulez indexer et comment. Cet article fournit un aperçu complet et approfondi de certaines des complexités de cette balise, et plus important encore, comment le mettre en place aujourd’hui.

Qu’est ce qu’une balise meta robots ?

Cette balise vous permet essentiellement d’affiner quels types de contenu les moteurs de recherche devraient indexer et afficher aux utilisateurs dans leurs SERP (pages de résultat d’un moteur de recherche, acronyme de l’anglais search engine result pages). La balise meta robots peut être trouvée dans le code source de page, et probablement doit ressembler à cela :

<meta name="robots" content="noindex,follow" />

La balise meta dans notre exemple dit aux moteurs de recherche qu'ils n'indexent pas la page, mais qu'ils suivent ses liens et qu'ils leur donnent l'autorité. Les instructions (noindex,follow) s'appellent directives et elles seront expliquées plus tard.

Pourquoi vous devriez vous intéressez à la balise meta robots

Qu’importe que vous soyez le propriétaire d’un site web ou un spécialiste SEO, vous devez être capable de signaler clairement aux moteurs de recherche comment vous voulez que votre site soit indexé. Les balises meta robots rendent cela possible.

Même si les moteurs de recherche ont beaucoup progressé dans leur compréhension des sites internet, quand ça vient à l’indexation vous ne voulez pas donnez l’autorisation à leurs algorithmes de déterminer quelles pages doivent être indexées et lesquelles ne doivent pas l’être. Ce seul motif est une raison suffisante pour faire des balises meta robots une partie essentielle de votre boîte à outils du SEO.

La balise meta robots est souvent utilisée pour lutter contre le contenu dupliqué (pages identiques ou très similaires disponibles à travers de multiples URL). Cela donne des signaux contradictoires aux moteurs de recherche, les rendant surtout confus (ce qui n’est jamais une bonne chose).

Il faut mentionner qu'il y a d'autres moyens (et encore meilleurs) pour éviter les problèmes avec le contenu dupliqué : les URL canoniques et le fichier robots.txt. La balise meta robots est surtout utilisée dans les cas spéciaux que nous verrons plus tard. Maintenant voyons la liste des directives disponibles.

Les directives de la balise meta robots

Une chose qui rend les balises meta robots si efficaces est leur niveau de versatilité. Voici une liste de toutes les directives que vous avez à votre disposition pour signaler vos préférences aux moteurs de recherche.

noindex

La directive noindex signale aux robots des moteurs de recherche de ne pas renvoyer une page dans les résultats de recherche lorsqu'ils sont interrogés.

nofollow

La directive nofollow indique aux robots des moteurs de recherche que les liens à l’intérieur d’une page ne peuvent pas être suivis et ne peuvent pas porter aucune autorité.

none

La directive none signale aux robots des moteurs de recherche que cette page doit être tout simplement ignorée. C’est parfois utilisé comme un raccourci pour les directives noindex et nofollow.

Conseil : lorsque vous utilisez soit la directive none soit noindex,nofollow, c’est également recommandé d'empêcher l’accès à toutes ces pages en utilisant votre fichier robots.txt.

noarchive

La directive noarchive prévient les moteurs de recherche de présenter une version en cache de la page spécifiée.

nosnippet

La directive nosnippet prévient les moteurs de recherche d’afficher des extraits dans les SERP et empêche en outre les moteurs de recherche de mettre en cache la page.

noodp

Historiquement, la directive noodp était utilisée pour empêcher les moteurs de recherche d’extraire la description du DMOZ (un répertoire de contenu ouvert des liens étant gérés par des bénévoles) comme l'extrait de votre page dans les SERP. Depuis le mai 2017, DMOZ a fermé ses portes. Cette directive de la balise meta robots ne peut donc plus être utilisée.

notranslate

La directive notranslate indique aux moteurs de recherche de ne pas offrir une version traduite de la page dans les SERP.

unavailable_after

La directive unavailable_after indique aux moteurs de recherche de ne pas présenter la page après un certain temps. La date/heure doit être formatée dans le format RFC 850.

index et all

Les directives index et all signalent aux robots des moteurs de recherche que vous aimeriez qu’ils indexent cette page. Vous n’avez pas besoin, habituellement, d’ajouter cette directive, vu que les moteurs de recherche indexent les pages et suivent leurs liens par défaut (si ce n'est pas interdit par une autre directive).

follow et all

Les directives follow et all indiquent aux moteurs de recherche de suivre les liens sur la page et de leur donner l'autorité. Ils le font par défaut (similaire à la directive index), il ne faut donc pas le spécifier.

Situations dans lesquelles vous voudriez utiliser la balise meta robots

Même si la balise meta robots est un moyen puissant d'instruire les moteurs de recherche comment traiter votre contenu, il y en a d'autres et habituellement plus convenables. Si vous ne voulez pas que les robots indexent une page, utilisez plutôt l'URL canonique ou empêcher complètement l'accès à la page dans votre fichier robots.txt. Utilisez la balise meta robots pour éviter les problèmes avec le contenu dupliqué seulement s'il n'est pas possible utilisez ces deux moyens.

Un cas spécial d'utilisation de la balise meta robots est sur les pages provisoires. Si vous avez une page qui n'est pas encore finie et dont contenu est pour l'instant un peu maigre, vous pouvez empêcher son indexation par la balise meta robots et prévenir ainsi les problèmes avec le contenu dupliqué.

Combinaisons des directives de la balise meta robots

Il est assez normal de vouloir donner plusieurs commandes aux robots des moteurs de recherche qui visitent votre page. Et combiner les directives de la balise meta robots est de loin la meilleure solution pour faire cela. Vous pouvez commencer en créant une instruction multidirectionnelle, en utilisant les directives meta robots qui autorisent plusieurs actions en même temps.

Exemple :

<meta name="robots" content="noindex,nofollow” />

Ensuite, il existe des situations qui exigent la signalisation de différentes directives pour différents robots. La balise ci-dessous, par exemple, donne des directives noindex,nofollow, lorsque la page est crawlée par Google, mais Bing va choisir d’ignorer la directive noindex.

<meta name="robots" content="nofollow" /> <meta name="googlebot" content=“noindex" />

Si un scénario se présente dans lequel il y a des directives opposées, les robots d'exploration suivront par défaut la directive la plus restrictive (similaire au fichier robots.txt).

L’entête HTTP X-Robots-Tag

Lorsque vous avez à faire à d'autres fichiers que HTML (des images, des fichiers PDF,...) que vous ne voulez pas avoir indexés par les moteurs de recherche, l'entête X-Robots-Tag est votre meilleure option. Quand le serveur web répond à la demande du navigateur ou du moteur de recherche, il n'envoie pas seulement le contenu, mais aussi les entêtes HTTP. Lors de l’entête X-Robots-Tag vous pouvez communiquer vos préférences d’indexation aux moteurs de recherche même pour les fichiers non-HTML.

Par exemple, si vous utilisez le serveur web Apache et vous aimeriez ajouter un X-Robots-Tag noindex,nofollow à la réponse HTTP pour tout vos fichiers PDF, vous le ferez ainsi :

<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex,nofollow" </Files>

Vous pouvez également faire le même pour les fichiers images png, jpg et gif :

<Files ~ “\.(png|jpe?g|gif)$"> Header set X-Robots-Tag "noindex" </Files>

Notez que paramétrer l'en-tête de la balise X-Robots demande généralement de modifier la configuration de votre serveur. Si quelque chose est mal fait, cela peut négativement affecter votre site tout entier. A moins que vous ne vous sentiez vraiment à l'aise, nous vous déconseillons de modifier la configuration de votre serveur vous-même. Laissez plutôt cela à votre administrateur serveur.

Balise meta robots ou entête X-Robots-Tag ou fichier robots.txt

Ainsi, il y a plusieurs façons pour montrer aux moteurs de recherche vos préférences en rapport avec l’indexation, et chacune a sa propre utilité. Cependant, quand faut-il utiliser chacune d’entre eux ? Pour répondre au mieux à cette question, voici un petit résumé de chaque méthode (la balise meta robots, l’entête X-Robots-Tag et le fichier robots.txt) et où c’est le plus censé de l’utiliser.

La balise meta robots : utilisez la balise meta robots pour signaler vos préférences au tour de l’indexation de vos pages. En se basant sur cela, les robots des moteurs de recherche peuvent ignorer entièrement ou même déterminer quels liens à suivre et quels liens ne pas suivre à l’intérieur de ce site en utilisant cette balise.

L'entête X-Robots-Tag : il est similaire à la balise meta robots, mais au lieu d'instruire les moteurs de recherche à travers le code HTML, vous spécifiez vos préférences au niveau du serveur web. Pour les fichiers non HTML comme les images ou les fichiers PDF, c’est le seul moyen de signaler vos préférences d’indexation, donc c’est pourquoi cet entête est le plus souvent utilisé.

Robots.txt : le fichier robots.txt est utilisé pour signaler vos préférences au tour de l’accès à vos pages pour les moteurs de recherche. C’est important de comprendre que si vous empêchez l’accès à ces pages, les moteurs de recherche ne seront jamais capable d’indexer correctement ce contenu.

Questions fréquentes

Voici certaines des questions qui sont le plus fréquemment posées à propos des balises meta robots :

  1. Que se passe-t-il s’il n’y a pas d’espace entre chaque commande dans la balise meta robots ?
  2. Que se passe-t-il s’il n’y a pas de virgule dans la balise meta robots ?
  3. Est-ce que les commandes sont sensibles à la casse ?
  4. Comment je peux voir l’entête X-Robots-Tag ?
  5. Est-ce que les moteurs de recherche continueront de crawler les pages qui ont la balise meta robots ?

1. Que se passe-t-il s’il n’y a pas d’espace entre chaque commande dans la balise meta robots ?

N'ayez pas peur, tous les moteurs de recherche principals omettent automatiquement les espaces dans les commandes. Cela signifie que ce n’est pas problème (voir l’exemple ci-dessous) :

<HEAD> <meta name=”robots” content=”noarchive,noodp,noydir” /> </HEAD>

c'est exactement la même chose que :

<meta name=”robots” content=”noarchive, noodp, noydir” />

2. Que se passe-t-il s’il n’y a pas de virgule dans la balise meta robots ?

C’est mieux d’utiliser les virgules dans les balises meta robots. Bing a indiqué que pour eux ça n'avait pas forcément d’importance, mais pour Google les virgules sont importantes. Et si c’est important pour Google, c’est une raison valable pour les utiliser (voici un exemple à NE PAS FAIRE) :

<meta name=”robots” content=”noarchive noodp noydir” />

3. Est-ce que les commandes sont sensibles aux majuscules ?

Non. Google, Yahoo et Bing peuvent reconnaître ce qui est inscrit dans la directive, peu importe que ce soit écrit en minuscule ou en majuscule. Voici des exemples :

<meta name=”ROBOTS” content=”NOODP” /> <meta name=”robots” content=”noodp” /> <meta name=”Robots” content=”NoOdp” />

4. Comment je peux voir l’entête X-Robots-Tag ?

L’entête X-Robots-Tag est visible parmi les entêtes HTTP, mais ce n'est pas très facile de les trouver dans votre navigateur. Pour cet objectif vous pouvez utiliser un outil comme ContentKing.

5. Est-ce que les moteurs de recherche continueront de crawler les pages qui ont la balise meta robots ?

Oui, sauf si vous placez une directive dans votre fichier robots.txt indiquant aux robots de ne pas crawler certaines pages à l’intérieur de votre site.

En conclusion…

La balise meta robots est un des moyens de lutter contre le contenu dupliqué. Néanmoins, à moins que vous n'utilisiez des pages provisoires, il vaut mieux d'utiliser les URL canoniques ou placer la directive dans le fichier robots.txt. Toutefois, si ce n'est pas possible, utiliser la balise meta robots est un bon moyen pour garder le contrôle sur la façon dont les moteurs de recherche indexent et présentent votre site internet.

Commencer votre essai gratuit de 14 jours

Vous pouvez commencer en 20 secondes

Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).
  • La carte de crédit n'est pas requise
  • Aucune installation requise
  • Sans engagement