Sitemap XML en résumé

Un sitemap XML est un document spécial qui liste tous les pages d’un site internet et apporte aux moteurs de recherches de tout votre contenu disponible. Il est fortement recommandé d’implémenter un sitemap XML, surtout pour les grands sites internet (plus de 500 pages).

Respectez les bonnes pratiques suivantes lorsque vous incorporez votre sitemap XML :

  • Gardez votre sitemap XML à jour en fonction du contenu de votre site.
  • Assurez-vous que tout doit correct : seulement les pages indexables doivent être incluses.
  • Référencez le sitemap XML dans votre fichier robots.txt.
  • Ne listez pas plus de 50 000 URL dans un seul sitemap XML.
  • Assurez-vous que la taille du fichier (non-compressée) ne dépasse pas plus de 50MB.
  • Ne soyez pas obsédé par les propriétés lastmod, priority et changefreq.

Qu’est-ce qu’un sitemap XML ?

Un sitemap XML est un document spécial qui liste toutes les pages d’un site et qui est destiné aux moteurs de recherche. Comparez-le à la liste de contact sur votre téléphone : il indique aux moteurs de recherche quel contenu est disponible et comment l’atteindre. De plus, certaines informations peuvent être indiquées, comme quel contenu a été mise à jour dernièrement et quel est le niveau d’importance de votre contenu.

Les sitemap XML sont très utile pour les moteurs de recherche, vu qu’ils leurs donnent en un instant l’ensemble de votre contenu disponible. C’est utile pour les moteurs de recherche car ils servent de point de départ pour leur première visite sur leur site, et leur permet également de découvrir rapidement le nouveau contenu ajouté.

Ce qui est important de voir c’est la distinction entre les sitemap XML et les sitemaps “normaux” (aussi appelé “sitemap HTML”). Ces sitemap sont destiné pour les visiteurs pour qu’ils puissent voir où est le contenu sur votre site, alors que les sitemaps XML sont destinés aux moteurs de recherche.

Pourquoi devriez-vous prêter attention aux sitemap XML ?

Les sitemaps XML aident les moteurs de recherche à évaluer le contenu de votre site, et c’est un mécanisme pour les notifier le nouveau contenu ou celui mis à jour. De plus, c’est recommandé de les implanter dès que c’est réalisable, et surtout pour les grands sites, qui ont plus de 500 pages, ils deviennent incontournables.

A quoi un sitemap XML ressemble ?

Un sitemap XML est destiné aux moteurs de recherche, et donc ils sont écrits dans une langue qui est facile à comprendre pour les ordinateurs : le XML. Heureusement,le XML est aussi assez lisible pour les humains également, donc regardons ensemble un exemple :

<?xml version=”1.0″ encoding=”UTF-8″?>
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>https://www.contentking.fr/</loc>
<lastmod>2017-06-14T19:55:25+02:00</lastmod>
</url>
<url>
<loc>https://www.contentking.fr/blog/</loc>
<lastmod>2016-06-24T10:23:20+02:00</lastmod>
</url>
</urlset>

Maintenant, pour comprendre ce qui se passe, coupons-le en plusieurs part individuelle !

Entête XML

<?xml version=”1.0″ encoding=”UTF-8″?>

Cet entête indique que le contenu est structuré en accord avec la version 1.0 des standards XML et décrit les caractères d’encodage. Cela informe les moteurs de recherche ce qu’ils doivent attendre basiquement du fichier.

Définition de l’URL set

<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

Cette définition de l’urlset regroupe tout les URL contenus dans ce sitemap et décrit quelle version du sitemap XML standard est utilisé. Notez que cet urlset est fermé qu’à la fin du document.

</urlset>

Définition des URL

<url>
<loc>https://www.contentking.fr/</loc>
<lastmod>2017-06-14T19:55:25+02:00</lastmod>
</url>

Finalement nous sommes devant la partie la plus importante : la définition des URL individuelles à travers la balise url.Chaque définition de l’URL se doit de contenir au moins la balise loc ( c’est-à-dire la localisation). La valeur de cette balise doit être l’URL complète de la page, qui inclut le protocole (par exemple : “http://”)

En plus de ça, chaque définition d’URL doit contenir les propriétés optionnelles suivante :

  • lastmod : la date à laquelle le contenu de cet URL a été modifié pour la dernière fois. La date se trouve dans le format “W3C datetime”.
  • priority : la priorité de l’URL relative à votre propre site sur une échelle comprise entre 0.0 et 1.0.
  • changefreq : à quelle fréquence le contenu de cet URL est amené à changer. Les valeurs possibles sont toujours, toutes les heures, quotidiennement, hebdomadairement, mensuellement, annuellement ou jamais.

Où dois-je placer mon XML sitemap ?

Tout comme pour les pages de votre site internet, le sitemap XML possède sa propre URL. Habituellement, l’URL d’un sitemap XML est /sitemap.xml et il est recommandé de suivre cette convention pour le rendre plus facilement trouvable pour les moteurs de recherche.

Cependant, si pour n’importe quelle raison ce n’est pas possible, vous pouvez choisir une autre localisation ou un autre nom, du moment que vous le référencer dans votre fichier robots.txt grâce aux directives sitemap :

Sitemap:
http://www.exemple.fr/lieualternatif/nomalternatif.xml

Y a-t-il des limitations pour le sitemap XML ?

Les sitemap XML ont deux limitations à garder en mémoire :

  • Ils ne doivent pas contenir plus de 50.000 URL maximum.
  • La taille de fichier est limité à 50 MB (pas compressé).

Si votre sitemap XML dépasse ces limites vous devez le diviser en plusieurs sitemap XML et utiliser un index de sitemap XML.

Qu’est-ce qu’un index de sitemap XML ?

Dès que vous passez une des limitations pour avoir un seul sitemap XML vous devez le diviser en plusieurs sitemap XML séparé et les réunir dans un index de sitemap XML. Cet index est un fichier XML séparé qui référence plusieurs sitemap XML.

Regardons ensemble un exemple :

<sitemapindex xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

<sitemap>
<loc>http://www.exemple.fr/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.exemple.fr/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>

</sitemapindex>

Cet index de sitemap XML référence deux sitemap XML : sitemap1.xml.gz et sitemap2.xml.gz. Voyons cela ensemble !

Entête XML

<?xml version=”1.0″ encoding=”UTF-8″?>

Rien de nouveau ici, tout comme pour le fichier XML nous définissons tout d’abord le fichier est un format XML et quel caractère d’encodage spécial est utilisé.

Définition de l’index de sitemap

<sitemapindex xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

Ensuite, au lieu d’une définition de l’urlset, nous avons une définition du sitemapindex. Cette définition englobe tous les sitemaps contenu dans l’index du sitemap et indique une fois de plus quel standard de XML sitemap est utilisé. Tout comme pour la définition de l’urlset, la définition du sitemapindex se ferme à la fin du document.

</sitemapindex>

Définition des sitemaps

<loc>http://www.exemple.fr/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>

Et du coup, voici le plus important : la définition actuelle du sitemap individuelle. Tout comme pour les URL, chaque définition de sitemap doivent contenir au moins la balise loc, qui contient l’URL complet de chaque sitemap XML.

En plus de cette définition le sitemap peut éventuellement contenir une définition de lastmod. La date à laquelle le XML sitemap a été dernièrement mis à jour. Une nouvelle fois dan un format “W3C datetime”.

Où dois-je mettre mon index de sitemap XML ?

De même que pour le sitemap XML, il y a une convention pour la localisation et le nom de votre index de sitemap XML : /sitemap_index.xml. Une nouvelle fois vous êtes libre de vous en sortir, du moment que vous le référencer dans le fichier robots.txt :

Sitemap:
http://www.exemple.fr/lieualternatif/nomalternatif.xml

Bonnes pratiques pour le sitemap XML

Lorsque vous incorporer les sitemap XML il est essentiel de suivre les bonnes pratiques.

Gardez votre sitemap XML à jour

Assurez-vous que votre sitemap XML fournissent un tableau mis à jour de votre site. Lorsqu’une page est supprimé, elle doit être également supprimé de votre sitemap XML. Si vous utilisez la balise optionnelle lastmod, faite en sorte de mettre à jour l’heure à laquelle la page a été modifié.

Incluez seulement les pages indexable dans votre sitemap XML.

Votre sitemap XML doit seulement contenir les pages indexables. Cela signifie que vous devez ignorer toutes les URL menant à des redirections (par exemple des status code 301) et des pages introuvable (par exemple des status code 404).

De plus, ces pages doivent être indexable, ce qui signifie qu’elles doivent être accessible aux moteurs de recherche (pas d’exclusion dans le fichier robots.txt) et qu’il n’y ai aucune autre directive indiquant aux moteurs de recherche de ne pas indexer la page (tel que les meta robots, les URL canoniques ou les balises x-robots).

Gardez la localisation et le nom par défaut

Lorsque c’est possible, garder toujours la localisation et le nom de fichier par défaut pour votre sitemap XML (/sitemap.xml) et votre index de sitemap XML (/sitemap_index.xml). Cela rend les choses plus simple pour les moteurs de recherche.

Référencez le sitemap XML dans votre fichier robots.txt

Lorsque vous quitter le carcan des conventions pour les URL de votre sitemap XML ou de l’index de votre sitemap XML vous devez le référencer dans votre fichier robots.txt. Cependant, même si vous gardez les URL standard , c’est recommandé d’y inclure une référence dans votre fichier robots.txt pour assurer sa découverte par les moteurs de recherche.

Ne tenez pas rigueur aux lastmod, priority et changefreq

Même si pour chaque URL vous devez définir les priorités lastmod,priority et changefreq, cela est purement optionnel. Les définir ne peut pas faire de mal, et il doit y avoir une infime chance que les moteurs de recherche vont utiliser cette information, mais c’est généralement compris pour que les moteurs de recherche ne fassent pas (trop) attention à eux.

Restez dans les limites du sitemap XML

Assurez-vous que votre sitemap XML ne contient pas plus de 50 000 URL et que la taille du fichier non-compressé est limité à 50MB. A partir du moment où vous dépassez une de ces limites vous devez découper le sitemap XML et utiliser l’index de sitemap.

Questions fréquentes à propos du sitemap XML

  1. Que signifie l’extension .gz ?

1. Que signifie l’extension .gz ?

L’extension .gz est ajoutée au nom de fichier lorsque le sitemap XML est compressée (via gzip compression). Les sitemap XML contenant beaucoup d’URL augmentent généralement jusqu’à des tailles de fichier importantes, et grâce à l’utilisation de la compression, l’impact de cela sur le stockage et les temps de transfert peuvent être réduit.

Êtes-vous prêt à essayer ContentKing ?

Découvrez ce qui se passe sur votre site web.
Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).