Le fichier robots.txt en quelques mots

Un fichier robots.txt contient des directives pour les moteurs de recherche que vous pouvez utiliser pour empêcher les moteurs de recherche d’explorer certaines parties de votre site.

En implémentant le robots.txt, gardez les conseils suivants à l’esprit:

  • Attention lorsque vous modifiez le robots.txt: ce fichier peut potentiellement rendre inaccessible de vastes sections de votre site.
  • Le fichier robots.txt doit préférablement être placé à la racine de votre site (par exemple: http://www.exemple.fr/robots.txt).
  • Le fichier robots.txt n’est valide que pour le domaine dans lequel il réside, y compris le protocole (http ou https).
  • Les différents moteurs de recherche interprètent les directives différemment. Par défaut, la première directive correspondante est appliquée. Mais avec Google et Bing, la précision règne.
  • Évitez autant que possible d’utiliser la directive crawl-delay pour les moteurs de recherche.

Qu’est-ce que c’est le fichier robots.txt ?

Un fichier robots.txt indique aux moteurs de recherche les règles de votre site relatives à l’engagement.

Le fichier robots.txt indique aux moteurs de recherche les URL auxquelles ils ne doivent pas accéder.
Le fichier robots.txt indique aux moteurs de recherche les URL auxquelles ils ne doivent pas accéder.

Les moteurs de recherche vérifient régulièrement le fichier robots.txt d’un site à la recherche d’instructions concernant l’exploration du site. Ces instructions sont appelées “directives”.

S’il n’y a pas de fichier robots.txt, ou s’il y en a mais sans directives applicables, les moteurs de recherche explorent tout le site web.

Si la plupart des grands moteurs de recherche respectent le fichier robots.txt, certains peuvent décider d’ignorer toutes ou une partie des directives. Bien que celles-ci représentent un signal fort envoyé aux moteurs de recherche, il est important de se souvenir que le fichier robots.txt est un ensemble de directives optionnelles plutôt qu’une obligation.

Kevin Indig
Kevin Indig

Le fichier robots.txt est le plus sensible de la galaxie SEO. Un seul caractère peut détruire tout un site.

La terminologie du fichier robots.txt

Le fichier robots.txt est l’implémentation du robots exclusion standard, aussi appelé robots exclusion protocol (ou protocole d’exclusion des robots).

Pourquoi faut-il s’occuper de fichier robots.txt ?

Un fichier robots.txt joue un rôle essentiel dans l’optimisation pour les moteurs de recherche (SEO). Il indique aux moteurs de recherche comment explorer votre site web.

En utilisant un fichier robots.txt vous pouvez aider les moteurs de recherche à explorer votre site web intelligemment, interdire l’accès à certaines parties de votre site web et prévenir des problèmes avec le contenu dupliqué.
Soyez cependant prudent lorsque vous effectuez des changements sur le robots.txt: ce fichier a la capacité de rendre de larges portions de votre site inaccessibles aux moteurs de recherche.

L’immense majorité des problèmes liés au fichier robots.txt se divise en quatre catégories: 1) une mauvaise utilisation des caractères génériques. Il est assez courant de voir bloquées des sections de site qui ne devraient pas l’être. Parfois, si vous n’êtes pas attentif, des directives peuvent entrer en conflit. 2) Quelqu’un, un développeur par exemple, a changé quelque chose sans prévenir (souvent en instaurant un nouveau code) et a modifié le robots.txt par inadvertance sans que vous soyez au courant. 3) L’inclusion de directives qui ne sont pas faites pour faire partie du fichier robots.txt. Le robots.txt est un standard qui peut parfois se montrer limité. Je vois souvent des développeurs inventer des directives qui ne peuvent tout simplement pas marcher (en tout cas pour la majorité des crawlers). C’est parfois inoffensif, parfois non.

Exemple

Prenons un exemple pour l’expliquer :

Vous avez un site de commerce en ligne et vos visiteurs peuvent utiliser un filtre pour une recherche rapide. Ce filtre génère des pages avec un contenu qui n’est pas tout à fait unique. C’est pratique pour les visiteurs, mais en même temps cela produit de contenu dupliqué. Mieux vaut que les moteurs de recherche n’indexent pas ces pages filtrées et ne gaspillent pas leur précieux temps sur ces URL. Ces pourquoi il est préférable d’établir une interdiction, afin que les moteurs de recherche n’accèdent pas à ces pages de produits filtrés.

Pour prévenir des problèmes avec le contenu dupliqué vous pouvez utiliser aussi des URL canoniques ou une balise meta robots, mais cela n’empêche pas les crawlers d’explorer certaines pages. Utiliser une URL canonique ou une balise méta robots empêchera seulement les moteurs de recherche d’afficher ces pages dans les résultats. Comme les moteurs de recherche ont un temps limité pour explorer chaque site web, il vaut mieux qu’ils passent ce temps sur des pages prévues pour être visualisées dans les résultats de recherche.

Votre robots.txt travaille-t-il contre vous?

Un robots.txt mal paramétré peut diminuer vos performances SEO. Vérifiez donc si c’est le cas pour votre site!

Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).

La forme de fichier robots.txt

Voici un exemple d’un fichier robots.txt simple d’un site web de WordPress :

User-agent: *
Disallow: /wp-admin/

Voyons un peu l’anatomie du fichier robots.txt en nous basant sur l’exemple ci-dessus :

  • User-agent : user-agent indique les moteurs de recherche qui devraient suivre les directives.
  • * : cela signifie que les directives se réfèrent à tous les moteurs de recherche.
  • Disallow : cette directive indique à user-agent le contenu qui ne devrait pas être accessible à l'user-agent.
  • /wp-admin/ : c’est le chemin qui ne devrait pas être accessible pour user-agent.

En résumé, ce fichier robots.txt dit à tous les moteurs de recherche de ne pas accéder au répertoire /wp-admin/.

User-agent

Chaque moteur de recherche devrait s’identifier avec un user-agent. Le robot d’exploration de Google s’appelle Googlebot, le robot de Yahoo Slurp et le robot de Bing BingBot etc.

user-agent marque le début d’un groupe des directives. Toutes les directives entre le premier user-agent et le suivant user-agent appartiennent au premier user-agent.

Les directives peuvent être destinées à un user-agent concret, mais aussi à tous les user-agent. Dans le deuxième cas vous pouvez vous servir du signe générique : User-agent: *.

Disallow

La directive Disallow est utilisée pour interdire l’accès à certains fichiers, certaines pages ou certaines sections de votre site web. Elle est suivie par le chemin qui ne devrait pas être accessible. Si le chemin manque, la directive est ignorée.

Exemple

User-agent: *
Disallow: /wp-admin/

Dans cet exemple, tous les moteurs de recherche devraient éviter le répertoire /wp-admin/.

Thomas Cubel
Thomas Cubel
SEO Consultant

Si j’avais un conseil à donner sur le robots.txt, c’est de ne pas l’utiliser à torts et à travers pour le crawl ET l’indexation. En effet, le fichier robots.txt n’est pas fait pour contrôler l’indexation à la base, il n’a pas été conçu pour cela. Je vois encore trop de personnes mettre des « Disallow » partout et ce n’est vraiment pas recommandé si vous voulez contrôler ce qui est dans l’index. Veillez bien à utiliser ce fichier pour les bonnes raisons !

Allow

La directive Allow s’oppose à la directive Disallow. Elle est supportée par Google et Bing. En utilisant en même temps la directive Allow et la directive Disallow vous pouvez indiquer aux moteurs de recherche qu’ils peuvent accéder à une page ou à un fichier concret dans le répertoire qui est interdit par la directive Disallow. La directive Allow est suivie par un chemin qui devrait rester accessible. Si le chemin manque, la directive est ignorée.

Exemple

User-agent: *
Allow: /media/conditions.pdf
Disallow: /media/

Dans cet exemple, tous les moteurs de recherche devraient éviter le répertoire /media/ sauf le fichier /media/conditions.pdf.

Important : en utilisant en même temps la directive Allow et la directive Disallow, évitez les signes génériques, parce qu’ils peuvent provoquer des conflits.

Exemple de directives conflictuelles

User-agent: *
Allow: /repertoire
Disallow: /*.html

Les moteurs de recherche ne sauront pas que faire avec l’URL http://www.domaine.fr/repertoire.html. Ils ne sauront pas s’ils peuvent y accéder.

Les consignes Disallow d’un site sont extrêmement puissantes, maniez les donc avec précaution. Pour certains sites, empêcher les moteurs de recherche d’accéder à des URL précises est crucial pour permettre aux bonnes pages d’être explorées et indexées. Mais un mauvais usage des consignes disallow peut sérieusement endommager la SEO d’un site.

Une ligne pour chaque directive

Chaque directive devrait avoir sa propre ligne. Avoir plusieurs directives sur une même ligne peut provoquer des problèmes pour les moteurs de recherche.

Exemple d’un fichier robots.txt incorrect

Éviter des fichiers robots.txt comme celui-ci :

User-agent: *
Disallow: /repertoire-1/ Disallow: /repertoire-2/ Disallow: /repertoire-3/

Utilisation des signes génériques *

Le signe générique * ne s’utilise pas seulement pour définir le user-agent, mais aussi pour les URL. Le signe générique est supporté par Google, Bing, Yahoo et Ask.

Exemple

User-agent: *
Disallow: /*?

Dans cet exemple, tous les moteurs de recherche devraient éviter les URL contenant le signe d’interrogation (?).

Utilisation du signe $ pour marquer la fin d’une URL

Pour marquer la fin d’une URL vous pouvez utiliser le signe du dollar ($) à la fin du chemin.

Exemple

User-agent: *
Disallow: /*.php$

Dans cet exemple, les moteurs de recherche devraient éviter toutes les URL qui finissent par .php. Les URL avec paramètres, comme https://exemple.fr/page.php?lang=fr ne seront pas interdites, car l’URL ne se termine pas après .php

Sitemap

Le but essentiel du fichier robots.txt est d’indiquer aux moteurs de recherche les pages qu’ils ne devraient pas explorer. Le fichier est néanmoins aussi utile pour mener les moteurs de recherche à votre sitemap XML. C’est supporté par Google, Bing, Yahoo et Ask.

Le sitemap XML devrait être référencé comme une URL absolue. Cette URL ne doit pas se trouver sur un même hôte que le fichier robots.txt. Le référencement de votre sitemap XML dans le fichier robots.txt est une des meilleures pratiques. Nous recommandons de le faire, même si vous avez déjà envoyé votre sitemap XML à Google Search Console ou à Bing Webmaster Tools, parce qu’il y a plus de moteurs de recherche.

Vous pouvez référencer plus d’un sitemap XML dans votre fichier robots.txt.

Exemples

Plusieurs sitemap XML :

User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.exemple.fr/sitemap1.xml
Sitemap: https://www.exemple.fr/sitemap2.xml

Dans cet exemple, le fichier robots.txt indique à tous les moteurs de recherche qu’il faut éviter le répertoire /wp-admin/ et que les sitemap XML se trouvent sur https://www.exemple.fr/sitemap1.xml et sur https://www.exemple.fr/sitemap2.xml.

Sitemap XML unique :

User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.exemple.fr/sitemap_index.xml

Dans cet exemple, le fichier robots.txt indique à tous les moteurs de recherche qu’il faut éviter le répertoire /wp-admin/ et que le sitemap XML se trouve sur https://www.exemple.fr/sitemap_index.xml.

Commentaires

Les commentaires sont précédés par le signe #. Ils peuvent être placés en début de la ligne ou après une directive. Tout ce qui se trouve après le # sera ignoré. Ces commentaires sont destinés aux humains, non aux machines.

Exemple 1

# Empêcher tous les robots d'accéder au répertoire /wp-admin/.
User-agent: *
Disallow: /wp-admin/

Exemple 2

User-agent: * #Pour tous les robots
Disallow: /wp-admin/ #Interdire l'accès au répertoire /wp-admin/.

Les deux exemples communiquent le même message.

Crawl-delay

Crawl-delay est une directive non officielle utilisée pour prévenir le risque de la surcharge des serveurs à cause de trop nombreuses demandes. S’il y a un risque de surcharge provoquée par les moteurs de recherche, la directive Crawl-delay dans votre fichier robots.txt ne peut vous aider que temporairement. Dans ce cas-là, le problème est l’hébergement de site web sur un hôte faible et il faut le fixer le plus tôt possible.

Chaque moteur de recherche traite la directive Crawl-delay différemment. Nous allons expliquer maintenant comment la traitent les moteurs de recherche les plus courants.

Google

Google ne supporte pas la directive Crawl-delay. Vous pouvez néanmoins ajuster la vitesse d’exploration dans Google Search Console. Voici comment le faire :

  1. Inscrivez-vous dans Google Search Console.
  2. Choisissez le site web pour lequel vous voulez ajuster la vitesse d’exploration.
  3. Cliquez sur l’icône en forme de roue dentée et choisissez « Paramètres du site ».
  4. Dans la section « Vitesse d’exploration » vous pouvez modifier la vitesse. La vitesse d’exploration par défaut est : « Laisser Google optimiser la vitesse d’exploration en fonction de mon site (recommandée) ».

Modification de la vitesse d'exploration dans Google Search Console

Bing, Yahoo et Yandex

Bing, Yahoo et Yandex supportent la directive Crawl-delay pour ralentir l’exploration de site. Leur interprétation du crawl-delay est toutefois différente, n’hésitez donc pas à consulter leur documentation.

La directive Crawl-delay doit être placée après la directive Disallow ou Allow.

Exemple

User-agent: BingBot
Disallow: /prive/
Crawl-delay: 10

Baidu

Baidu ne supporte pas la directive Crawl-delay. Pour ce but il faut créer un compte sur Baidu Webmaster Tools où vous pouvez contrôler la vitesse d’exploration. C’est pareil que dans Google Search Console.

Quand faut-il utiliser un fichier robots.txt ?

Nous recommandons de toujours l’utiliser. Il ne peut pas faire de mal, au contraire il peut aider les moteurs de recherche à explorer votre site web intelligemment.

Les meilleures pratiques pour le fichier robots.txt

The best practices for robots.txt files are categorized as follows:

Emplacement et nom d’un fichier

Le fichier robots.txt devrait toujours être placé à la racine de votre site web (dans le répertoire de plus haut niveau de l’hôte) et avoir le nom robots.txt, par exemple : https://www.exemple.fr/robots.txt. L’URL d’un fichier robots.txt est sensible à la casse, comme toutes les autres URL.

Si votre fichier robots.txt n’est pas dans l’emplacement par défaut, les moteurs de recherche en tirent la conclusion qu’il n’existe pas et ils exploreront tout le site web.

Ordre de préséance

Chaque moteur de recherche traite le fichier robots.txt différemment. Par défaut, la première directive vainc.

Néanmoins dans le cas de Google et de Bing cela fonctionne autrement. Ce sont les directives les plus spécifiques qui vainquent. Par exemple : la directive Allow est décisive si elle est plus longue que la directive Disallow.

Exemple

User-agent: *
Allow: /sur/entreprise/
Disallow: /sur/

Dans cet exemple, tous les moteurs de recherche, Google et Bing y compris, devraient éviter le répertoire /sur/, sauf le sous-répertoire /sur/entreprise/.

Exemple

User-agent: *
Disallow: /sur/
Allow: /sur/entreprise/

Dans cet exemple, tous les moteurs de recherche, sauf Google et Bing, devraient éviter le répertoire /sur/, y compris le sous-répertoire /sur/entreprise/.

Google et Bing peuvent accéder au sous-répertoire /sur/entreprise/, parce que la directive Allow est plus longue que la directive Disallow.

Un seul groupe de directives par robot

Pour chaque moteur de recherche vous pouvez écrire seulement un groupe des directives. Avoir plusieurs groupes des directives provoquerait des problèmes.

Soyez aussi précis que possible

En créant des directives Disallow il convient d’être autant spécifique que possible pour prévenir le risque de l’interdiction non intentionnelle d’accès aux fichiers.

Exemple

User-agent: * Disallow: /repertoire

Dans cet exemple, les moteurs de recherche ne peuvent pas accéder à :

  • /repertoire
  • /repertoire/
  • /repertoire-nom-1
  • /repertoire-nom.html
  • /repertoire-nom.php
  • /repertoire-nom.pdf

Directives destinées à tous les robots, contenant des directives spécifiques pour certains robots

Pour chaque robot seulement une groupe des directives est valide. Si des directives destinées à tous les robots sont suivies par des directives pour des robots concrets, les directives générales seront ignorées par ces robots concrets. Si vous voulez qu’ils les suivent, vous devez les répéter.

Voici un exemple qui l’explique :

Exemple

User-agent: *
Disallow: /secret/
Disallow: /pas-encore-lance/

User-agent: googlebot
Disallow: /pas-encore-lance/

Dans cet exemple, les moteurs de recherche, sauf Google, ne peuvent pas accéder aux répertoires /secret/ et /pas-encore-lance/. Seul Google ne peut pas accéder au répertoire /pas-encore-lance/, par contre il lui est possible d’accéder au répertoire /secret/.

Si vous voulez que Google ne puisse pas accéder ni à /secret/ ni à /pas-encore-lance/, il faut répéter ces directives pour googlebot :

User-agent: *
Disallow: /secret/
Disallow: /pas-encore-lance/

User-agent: googlebot
Disallow: /secret/
Disallow: /pas-encore-lance/

Notez que votre fichier robots.txt est accessible à tout le monde. Interdire d’accès certaines sections de votre site grâce à lui peut en faire des cibles pour des personnes mal intentionnées.

Le fichier robots.txt peut être dangereux. Vous n’indiquez pas seulement aux moteurs de recherche où ils ne doivent pas aller, vous indiquez aussi aux gens où se cachent vos petits secrets.

Un fichier robots.txt pour chaque domaine ou sous-domaine

Les directives d’un fichier robots.txt ne peuvent être appliquées qu’à l’hôte où le fichier est hébergé.

Exemples

http://exemple.fr/robots.txt est applicable pour http://exemple.fr, mais pas pour http://www.exemple.fr ni pour https://exemple.fr.

Il est généralement conseillé de n’avoir qu’un seul fichier robots.txt de disponible par domaine ou sous-domaine. Si vous avez plusieurs fichiers robots.txt, assurez-vous de leur appliquer des redirections-301 vers le fichier robots.txt canonique.

Directives contradictoires : robots.txt vs Google Search Console

Si votre fichier robots.txt entre en conflit avec des paramètres définis dans Google Search Console, Google préfère le plus souvent les paramètres dans Google Search Console au détriment des directives du fichier robots.txt.

Surveillez votre fichier robots.txt

Il est important de surveiller votre fichier robots.txt en cas de changments. Chez ContentKing, nous voyons beaucoup de problèmes, parfois très graves pour la SEO, provoqués par des directives incorrectes ou des changements inattendus du fichier robots.txt. Cela se révèle particulièrement vrai en cas de lancement de nouvelles fonctionnalités ou d’un nouveau site préparé sur un environnement test, car ils contiennent souvent le fichier robots.txt suivant:

User-agent: *
Disallow: /

Nous avons créé l’historique des modifications du robots.txt pour cette raison.

ContentKing - historique des modifications

Que faites-vous lorsque votre robots.txt change?

Nous voyons ça tout le temps: des changements des fichiers robots.txt sans que l’équipe marketing ne le sache. Ne vous faites pas avoir. Commencez à surveiller votre fichier robots.txt dès maintenant et recevez des alertes en cas de changements!

Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).

N’utilisez pas noindex dans votre fichier robots.txt

L’utilisation de la directive noindex dans le fichier robots.txt n’est pas un standard officiel et Google ne la recommande pas. La raison n’est pas clairement donnée, mais nous préférons (pour cette fois) suivre sérieusement leur recommandation. Cela parait raisonnable, car:

  • Il est difficile de garder une trace des pages qui ne doivent pas être indexées si vous utilisez différentes façon d’empêcher l’indexation.
  • La directive noindex n’est pas infaillible. Considérez que Google ne la suivra pas à 100%.
  • Nous ne connaissons que Google qui utilise la directive noindex les autres moteurs de recherche ne la suivront pas.

Le meilleur moyen d’indiquer aux moteurs de recherche de ne pas indexer une page est d’utiliser les balise meta robots ou balise X-Robots. Si vous ne pouvez pas utiliser celles-ci, et que la directive robots.txt noindex directive est votre dernier recours, vous pouvez l’utiliser mais n’en espérez pas trop. Ainsi vous ne serez pas déçu.

Exemples des fichiers robots.txt

Dans ce chapitre nous présenterons une vaste gamme des exemples des fichiers robots.txt.

Tous les robots peuvent explorer tout

Il y a plusieurs façons de dire aux moteurs de recherche qu’ils peuvent accéder à tous les fichiers :

User-agent: *
Disallow:

Ou avoir un fichier robots.txt vide ou ne pas en avoir.

Aucun robot ne peut accéder nulle part

User-agent: *
Disallow: /

Important : un caractère de plus peut tout changer.

Aucun robot de Google ne peut accéder où que ce soit

User-agent: googlebot
Disallow: /

Si vous interdisez l’accès pour Googlebot, il sera interdit pour tous les Googlebots, y compris les robots qui cherchent des actualités (googlebot-news) et des images (googlebot-images).

Aucun robot de Google, sauf Googlebot news, ne peut accéder nulle part

User-agent: googlebot
Disallow: /

User-agent: googlebot-news
Disallow:

Googlebot et Slurp ne peuvent accéder nulle part

User-agent: Slurp
User-agent: googlebot
Disallow: /

Aucun robot ne peut accéder à deux répertoires

User-agent: *
Disallow: /admin/
Disallow: /prive/

Aucun robot ne peut accéder à un fichier concret

User-agent: *
Disallow: /repertoire/quelque-chose-pdf.pdf

Googlebot ne peut pas accéder à /admin/ et Slurp ne peut pas accéder à /prive/

User-agent: googlebot
Disallow: /admin/

User-agent: Slurp
Disallow: /prive/

Fichier robots.txt pour WordPress

Le fichier robots.txt suivant est optimisé particulièrement pour WordPress :

  • La section d’administrateur ne devrait pas être explorée.
  • Les pages de résultats de recherche internes ne devraient pas être explorées.
  • Les tag pages et les pages d’auteur ne devraient pas être explorées.
  • Les pages avec le code du statut 404 ne devraient pas être explorées.
User-agent: *
Disallow: /wp-admin/ #interdire l'accès à la section d'administrateur
Disallow: /wp-login.php #interdire l'accès à la section d'administrateur
Disallow: /search/ #interdire l'accès aux page de résultats de recherche internes
Disallow: *?s=* #interdire l'accès aux page de résultats de recherche internes
Disallow: *?p=* #interdire l'accès aux pages dont les permaliens ne marchent pas
Disallow: *&p=* #interdire l'accès aux pages dont les permaliens ne marchent pas
Disallow: *&preview=* #interdire l'accès aux pages précédentes
Disallow: /tag/ #interdire l'accès aux tag pages
Disallow: /author/ #interdire l'accès aux pages d'auteur
Disallow: /404-error/ #interdire l'accès aux pages avec le code du statut 404
Sitemap: https://www.exemple.fr/sitemap_index.xml

Ce fichier robots.txt marche bien dans la plupart des cas, vous devriez quand même l’ajuster chaque fois pour la situation concrète et le tester.

Où sont les limites de fichier robots.txt ?

Fichier robots.txt contient des directives

Bien que les moteurs de recherche suivent habituellement les fichiers robots.txt, ce sont seulement des directives et pas des ordres.

Les pages apparaissent toujours dans les résultats de recherche

Les pages qui ne sont pas accessibles pour les moteurs de recherche en raison d’un fichier robots.txt, mais qui en même temps ont des liens entrants, peuvent toujours être visualisées dans les résultats de recherche (si les moteurs de recherche explorent des pages contenant des liens vers ces pages bloquées). Voici un exemple :

Description de Google n'est pas disponible en raison de robots.txt

Pro tip: il est possible de supprimer ces URL de Google en utilisant l’Outil de suppression d’URL de Google Search Console. Ces URL seront néanmoins supprimées seulement temporairement. Si vous ne voulez plus qu’elles apparaissent dans les résultats de recherche, il faut répéter cette action régulièrement après 90 jours.

Fili Wiese
Fili Wiese

Utilisez le robots.txt pour bloquer les liens retours indésirables et potentiellement nuisibles. Ne l’utilisez pas pour empêcher les moteurs de recherche d’indexer du contenu car cela échouera inévitablement. Utilisez plutôt la directive noindex si nécessaire.

Mise en cache

Google a annoncé qu’un fichier robots.txt est généralement mis en cache pour 24 heures. Il convient d’en tenir compte en faisant des changements dans votre fichier robots.txt.

La façon dont les autres moteurs de recherche effectuent la mise en cache des fichiers robots.txt n’est pas claire, mais il est généralement préférable de ne pas effectuer la mise en cache de votre fichier robots.txt pour éviter que les moteurs de recherche ne prennent plus de temps que nécessaire à repérer les changements.

La taille de fichier

Google supporte actuellement la taille de 500 kb pour les fichiers robots.txt. Tout contenu se trouvant hors de cette taille maximale peut être ignoré.

Il n’est pas clair si les autres moteurs de recherche ont une taille maximale pour les fichiers robots.txt.

Questions fréquentes sur les fichiers robots.txt

  1. L’utilisation d’un fichier robots.txt empêche-t-elle les moteurs de recherche de visualiser les pages bloquées dans les résultats de recherche ?
  2. Dois-je être prudent lors de l’utilisation d’un fichier robots.txt ?
  3. Les moteurs de recherche peuvent-ils ignorer le fichier robots.txt en explorant un site web ?
  4. Les moteurs de recherche explorent-ils mon site web si je n’ai pas de fichier robots.txt ?
  5. Puis-je utiliser Noindex au lieu de Disallow dans mon fichier robots.txt ?
  6. Quels moteurs de recherche respectent les fichiers robots.txt ?
  7. Comment puis-je empêcher les moteurs de recherche d’indexer les pages de résultats sur mon site web WordPress ?

1. L’utilisation d’un fichier robots.txt empêche-t-elle les moteurs de recherche de visualiser les pages bloquées dans les résultats de recherche ?

Non, elle ne l’empêche pas. Voici un exemple :

Description de Google n'est pas disponible en raison de robots.txt

Important : Si une page est bloquée par un fichier robots.txt et en même temps contient <meta name="robots" content="noindex,nofollow">, elle restera dans les indices des moteurs de recherche, parce qu’ils ne se rendront jamais compte de <meta name="robots" content="noindex,nofollow"> en raison de l’accès interdit à cette page.

2. Dois-je être prudent lors de l’utilisation d’un fichier robots.txt ?

Oui, il faut être prudent, mais cela ne devrait pas vous décourager de son utilisation. C’est un très bon outil pour aider les moteurs de recherche à explorer votre site web intelligemment.

3. Les moteurs de recherche peuvent-ils ignorer le fichier robots.txt en explorant un site web ?

Théoriquement oui. Des fichiers robots.txt ne sont que des directives optionnelles.

4. Les moteurs de recherche explorent-ils mon site web si je n’ai pas de fichier robots.txt ?

Oui. Si les moteurs de recherche ne trouvent pas de fichier robots.txt dans la racine de votre site web (dans le répertoire de plus haut niveau de l’hôte), ils pensent qu’il n’y en a pas et explorent tout le site web.

5. Puis-je utiliser Noindex au lieu de Disallow dans mon fichier robots.txt ?

Non, ce n’est pas une bonne idée.

Google recommande de ne pas utiliser la directive noindex dans les fichiers robots.txt.

6. Quels moteurs de recherche respectent les fichiers robots.txt ?

Nous savons avec certitude que les moteurs de recherche suivants respectent les fichiers robots.txt :

7. Comment puis-je empêcher les moteurs de recherche d’indexer les pages de résultats sur mon site web WordPress ?

Pour empêcher les moteurs de recherche d’indexer les pages de résultats sur votre site web WordPress, il faut ajouter les directives suivantes dans votre fichier robots.txt :

User-agent: *
Disallow: /?s=
Disallow: /search/

Lectures complémentaires

ContentKing Academy Content Team
Steven van Vessum
Steven van Vessum

Steven est le Chef de l’expérience client dans l’entreprise ContentKing. Cela signifie qu’il s’occupe de tout lié avec les clients et avec l’inbound marketing. C’est là où il veut être. Il aime améliorer le référencement des sites web dans les moteurs de recherche et parler de l’inbound marketing.

Vojtěch Zach
Vojtěch Zach

Vojtěch is ContentKing’s Customer Support & Localization Manager. He is the one who will answer your questions when you reach out to us. He is a studied translator, so apart from making our users happy, he also loves to take on our localization challenges.

Vincent van Scherpenseel
Vincent van Scherpenseel

Vincent est le directeur en chef de ContentKing. Le management de produit le passionne et il aime particulièrement son travail lorsque le design, le développement et le commerce s’entremêlent. Ce qui fait de ContentKing un challenge idéal pour lui.

Commencer votre essai gratuit de 14 jours

Vous pouvez commencer en 20 secondes

Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).
  • La carte de crédit n'est pas requise
  • Aucune installation requise
  • Sans engagement