Le contenu dupliqué en quelques mots

Le contenu dupliqué correspond à la présence de différents contenus très similaires, voire d’un seul et même contenu, sur plusieurs pages. Gardez à l’esprit que :

  • Le contenu dupliqué n’a que peu, voire pas d’intérêt pour vos visiteurs et perturbe les moteurs de recherche.
  • Il est préférable d’éviter le contenu dupliqué car il peut être préjudiciable aux performance de votre SEO.
  • Le contenu dupliqué peut venir de problèmes techniques ou de contenu copié manuellement
  • Il existe des moyens efficaces pour empêcher les deux cas ci-dessus de s’aggraver. Nous reviendrons dessus dans cet article.

Qu’est-ce que le contenu dupliqué ?

Le contenu dupliqué correspond, au sens stricte du terme, à du contenu que l’on retrouve de façon identique ou quasiment identique sur plusieurs pages, que ce soit sur votre site ou sur d’autres.

Plus largement, tout ce qui n’a que peu, voire pas de valeur pour le visiteur est considéré comme du contenu dupliqué. C’est pourquoi les pages avec peu ou pas de contenu propre sont aussi considérées comme dupliquées.

Etant donné que le contenu dupliqué perturbe les moteurs de recherche et peut affecter les performances de votre stratégie SEO, mieux vaut éviter d’en avoir.

Le contenu dupliqué perturbe les moteurs de recherche.
Le contenu dupliqué perturbe les moteurs de recherche.

Pourquoi le contenu dupliqué est-il mauvais pour votre stratégie SEO ?

Le contenu dupliqué est nuisible pour deux raisons :

  1. Lorsqu’il existe plusieurs versions d’un même contenu, les moteurs de recherches ont du mal à déterminer quelle version doit être indexée et donc affichée dans les résultats de recherche. Ceci diminue les performances de toutes les versions de ce contenu puisqu’elles entrent en concurrence les unes contre les autres.
  2. Les moteurs de recherches risquent d’avoir du mal à établir les métriques (autorité, pertinence et confiance) pour ce contenu, surtout si d’autres sites présentent plus d’une version de ce contenu.

Que dit l’expert à propos du Contenu Dupliqué ?

Thomas Cubel
Thomas Cubel
SEO Consultant

Les moteurs de recherche comme Google ont autre chose à faire que de crawler et recrawler sans cesse les mêmes contenus. Cela leur coûte cher, favorise les problèmes de compréhension et cela n’aidera pas non plus un site à se valoriser et à se faire considérer comme unique et pertinent.

Le contenu dupliqué, c’est comme lorsque vous rangez votre maison. Si vous avez une, deux, trois, dix fois la même facture, pourquoi toutes les garder ?

A moins d’avoir de réelles intentions ou de faire partie d’une exception, les moteurs de recherche ont besoin d’informations fraîches et pertinentes. Ils ont besoin de savoir de quoi vous traiter précisément sur chaque page et chaque section de votre site.

Si vous ne contrôlez pas bien votre indexation et que vous vous retrouvez avec X fois les mêmes pages ou mêmes blocs de contenus, les textes/title/h1/ciblages… finiront par s’empiéter les uns sur les autres faute de la trop grande similarité présente. Aussi, le crawl de votre site ne sera pas optimisé et le moteur pourra penser que vous avez une trop grosse proportion de pages de mauvaise qualité.

Par exemple, si sur un site, il y a 4 fois la même page, cela veut dire que mathématiquement parlant, vous avez 25% de votre site qui est unique et intéressant pour le moteur ou l’utilisateur. Google pourra indexer ces 4 versions à chaque fois, mais laquelle positionner ? Lui-même ne sait même pas sur quel pied danser dès le départ. De la même manière, vu que les moteurs parcourent le web à la recherche d’informations continuellement, si vous copiez ou vous faites copiez votre contenu, vous risquez gros à passer pour un voleur ou un volé. Encore une fois, comment je fais pour positionner une page que j’ai déjà vu X fois ?

Pour solutionner le contenu dupliqué, évitez les templates et systèmes automatisés qui affichent du contenu interne ou externe sur votre site. Soyez toujours proche du 100% unique et ne brodez pas du contenu pour broder. Créez quelque chose.”

Votre site souffre de problèmes de Contenu Dupliqué ?

Il est possible que du contenu dupliqué amoindrisse vos performances SEO. Pourquoi ne pas vérifier si votre site présente du contenu dupliqué ?

Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).

Existe-t-il des pénalités en cas de contenu dupliqué ?

La présence de contenu dupliqué peut desservir les performances de votre SEO, mais cela ne vous vaudra pas une pénalité de Google tant que vous ne copiez pas volontairement le contenu du site de quelqu’un d’autre.

Copiez allègrement sur le contenu de quelqu’un d’autre et vous vous exposerez à de sérieux risques. Voici ce que dit Google à ce sujet:

“La présence de contenu dupliqué sur un site n’est pas passible de sanctions à moins que ledit contenu ne soit manifestement utilisé afin de tromper et manipuler les résultats des moteurs de recherche. Si votre site rencontre des problèmes liés à du contenu dupliqué et que vous n’avez pas suivi les conseils ci-dessus, nous nous chargeons nous-mêmes de choisir quelle version du contenu afficher.”

Causes fréquentes de contenu dupliqué

Le contenu dupliqué est souvent provoqué par un serveur ou un site mal paramétré. Nous parlons ici de problèmes techniques qui ne donneront vraisemblablement pas lieu à des pénalités de la part de Google. Cependant, ils peuvent sérieusement nuire à votre référencement, c’est pourquoi il est important de les régler le plus rapidement possible.

Mais en plus de ces problèmes techniques, le facteur humain peut aussi être en cause. Par exemple, en copiant volontairement du contenu publié ailleurs. Comme nous l’avons vu, ceci peut vous valoir une pénalité si cela part d’une mauvaise intention.

Contenu dupliqué provoqué par des problèmes techniques

Pas de www contre www et HTTP contre HTTPs
Supposons que vous utilisiez le sous-domaine www et le HTTPs. Dans ce cas, le meilleur moyen d’accéder à votre contenu se fait via https://www.exemple.fr. Ceci est votre domaine canonique.

Si votre serveur est mal configuré, votre contenu peut aussi être trouvé avec :

Contenu dupliqué provoqué par différents domaines canoniques.
Contenu dupliqué provoqué par différents domaines canoniques.

Il vous faut choisir le chemin de référence pour accéder à votre contenu et implémenter des redirections 301 sur les autres afin qu’ils mènent vers la référence : https://www.exemple.fr.

Structure d’URL : casse et barres obliques
Les URL sont sensibles à la casse, ce qui veut dire que https://exemple.com/url-a/ et https://exemple.com/url-A/ sont deux URL différents. Quand vous créez des liens, il est facile de faire une faute de frappe et ainsi d’indexer les deux versions de l’URL.

Une barre oblique (/) en fin d’URL est appelé trailing slash en anglais. On la désigne soit par ce terme, soit simplement en tant que “barre oblique de fin d’URL”. Les URL sont le plus souvent accessibles quelque soit la variante utilisée. Que ce soit https://exemple.com/url-a ou https://exemple.com/url-a/.

Contenu dupliqué provoqué par un manque de cohérence dans l'utilisation de la casse et des barres obliques.
Contenu dupliqué provoqué par un manque de cohérence dans l'utilisation de la casse et des barres obliques.

Choisissez, là encore, une structure de référence pour votre URL et implémentez des redirections 301 sur les autres URL vers la référence.

Pages index (index.html, index.php)
Sans que vous le sachiez, votre page d’accueil peut très bien être accessible via plusieurs URL parce que votre serveur internet est mal configuré. En plus de https://www.exemple.com, votre page d’accueil peut être accessible depuis :

  • https://www.exemple.com/index.html
  • https://www.exemple.com/index.asp
  • https://www.exemple.com/index.aspx
  • https://www.exemple.com/index.php

Choisissez un chemin de référence vers votre page d’accueil et implémentez des redirections 301 depuis les autres chemins vers la référence.

Paramètres de filtrage
Les sites utilisent souvent des paramètres dans les URL afin de pouvoir filtrer certaines fonctionnalités. Prenez cet URL par exemple :

https://www.exemple.com/jouets/voitures?couleur=noire

Cette page montrera toutes les voitures jouets de couleur noire

Tout cela est très bien pour les visiteurs mais peut aussi être source de dysfonctionnements majeurs pour les moteurs de recherche. Les filtres génèrent souvent un nombre de combinaisons quasiment infini dès qu’il y a plus d’un filtre disponibles car les paramètres peuvent être d’autant plus modifiés.

Ces deux URL vont afficher exactement le même contenu:

Contenu dupliqué provoqué par un changement d'ordre des paramètres.
Contenu dupliqué provoqué par un changement d'ordre des paramètres.

Implémentez des URL canoniques — un pour chaque page sans filtre — pour empêcher l’apparition de contenu dupliqué et consolider l’autorité de la page affichée après application des filtres.

Taxonomies
Une taxonomie est une méthode de classification de contenu. Elles sont souvent utilisées dans les Systèmes de Gestion de Contenu (généralement appelés CMS) pour accompagner les catégories ou balises.

Supposons que vous ayez un billet sur un blog divisé en trois catégories. Le billet est accessible par ces trois URL:

  • https://www.exemple.com/categorie-a/topic/
  • https://www.exemple.com/category-b/topic/
  • https://www.exemple.com/category-c/topic/
Contenu dupliqué provoqué par la présence de pages dans plusieurs catégories.
Contenu dupliqué provoqué par la présence de pages dans plusieurs catégories.

Assurez-vous que l’une de ces catégories soit la principale et redirigez les autres vers celle-ci en utilisant l’URL canonique.

Pages dédiées aux images
Certains Systèmes de Gestion de Contenu créent une page séparée pour chaque image. Cette page affiche généralement l’image sur un fond blanc. Puisque cette page n’a aucun autre contenu, elle est très similaire aux autres pages présentant une image et s’ajoute donc au contenu dupliqué.

Implémentez donc un URL canonique sur ces pages-images redirigeant vers la page sur laquelle cette image est utilisée.

Pages de commentaires
S’il est possible de mettre des commentaires sur votre site, ils seront automatiquement paginés au-delà d’un certain nombre. La section commentaire paginée montrera le contenu premier, seuls les derniers commentaires seront différents.

Par exemple, l’URL d’un article montrant les commentaires 1 à 20 pourra être https://www.exemple.com/categorie/sujet/, tandis que https://www.exemple.com/categorie/sujet/commentaires-2/ affichera les commentaires 21 à 40 et https://www.exemple.com/categorie/sujet/commentaires-3 affichera les commentaires 41 à 60.

Utilisez la relation entre les liens paginés pour indiquer qu’il s’agit d’une série de pages paginées.

Localisation
Dès qu’il s’agit de localisation, les problèmes de contenu dupliqué peuvent survenir alors que vous utilisez exactement le même contenu, en ciblant des gens habitant différentes régions du monde et parlant la même langue. Par exemple : vous avez un site pour le marché canadien et un autre pour le marché américain. Les deux sont en anglais et vous risquez d’avoir une grande quantité de contenu dupliqué.

Utilisez l’attribut hreflang pour signaler que ces deux pages sont destinées à des publics différents.

Pages de résultats de recherche indexées
Beaucoup de sites permettent aux utilisateurs d’effectuer des recherches au sein même du site. Les pages affichant les résultats sont toutes très similaires et ne sont, la plupart du temps, d’aucune utilité pour les moteurs de recherche. C’est pourquoi il est préférable qu’elles ne soient pas indexées.

Vous pouvez empêcher les moteurs de recherche d’indexer les pages de résultats en utilisant la balise méta-robot noindex. C’est également la meilleure méthode, la plupart du temps, pour ne pas rediriger vers les pages de résultats.

Site test indexé
Passer par des sites test pour éditer et tester de nouvelles fonctionnalités est, selon toute vraisemblance, la meilleure façon de procéder. Mais il arrive souvent que ces sites soient involontairement accessibles et indexés par les moteurs de recherche.

Contenu dupliqué provoqué par la présence de plusieurs environnements accessibles publiquement.
Contenu dupliqué provoqué par la présence de plusieurs environnements accessibles publiquement.

Utilisez l’authentification HTTP pour empêcher l’accès aux sites test. Autre avantage : vous empêcherez aussi les mauvaises personnes de tomber dessus.

Évitez de publier du contenu en cours d’édition
Quand vous créez une nouvelle page avec peu de contenu, sauvegardez la sans la publier car elle sera souvent d’une utilité réduite, voire nulle pour votre référencement.

Sauvegardez les pages inachevées en tant que brouillon. S’il vous faut vraiment publier une page avec un contenu limité, empêchez les moteurs de recherche de les indexer en utilisant la balise méta-robot noindex.

Paramètres utilisés pour le traçage
Les paramètres sont généralement utilisés à des fins de traçage. Par exemple, en partageant des URL sur Twitter, la source est ajoutée à l’URL, ce qui occasionne plus de contenu dupliqué. Prenez par exmple cet URL twitté en utilisant Buffer:

https://www.contentkingapp.com/academy/ecommerce-link-building/?utm_content=buffer825f4&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer

La meilleure chose à faire est d’implémenter des URL canoniques dirigés vers eux-mêmes sur les pages. Si vous l’avez déjà fait, le problème est réglé. Tous les URL présentant des paramètres utilisés comme traceurs sont mis sous forme canonique par défaut vers la version sans paramètre.

Identificateurs de session
Les sessions stockent les informations des visiteurs pour mesurer l’audience du site. Si un identificateur de session est attaché à chaque URL recherché par un utilisateur, cela entraîne l’apparition de beaucoup de contenu dupliqué puisque le contenu des URL est exactement le même.

Par exemple, si vous souhaitez atteindre une version localisée de notre site, nous ajoutons comme variable une session Google Analytics telle que : https://www.contentking.fr/?_ga=2.41368868.703611965.1506241071-1067501800.1494424269. Le contenu affiché est exactement le même, mais sur une URL différente.

Là encore, la meilleure chose à faire est d’implémenter des URL canoniques dirigés vers eux-mêmes sur les pages. Si vous l’avez déjà fait, le problème est réglé. Tous les URL présentant des paramètres utilisés comme traceurs sont mis sous forme canonique par défaut vers la version sans paramètre.

Version imprimable
Si une page possède une version imprimable sur un URL séparé, vous avez concrètement deux version d’un même contenu. Imaginez quelque chose comme ça : https://www.exemple.fr/some-page/ and https://www.exemple.com/print/some-page/.

Implémentez un URL canonique de la version imprimable vers la version normal de la page.

Contenu dupliqué provoqué par du contenu copié

Pages de renvoi pour contenu sponsorisé
Les contenus sponsorisés exigent des pages de renvoi spécifiques qui ciblent des mots-clés bien précis. Les pages de renvoi sont souvent des copies de pages originales, lesquelles sont déjà optimisées pour cibler ces mots-clés. Puisque ces pages sont très semblables, elles entraînent l’apparition de contenu dupliqué si elles sont indexées par les moteurs de recherche.

Contenu dupliqué provoqué par des différences trop minimes entre des pages de renvoi.
Contenu dupliqué provoqué par des différences trop minimes entre des pages de renvoi.

Vous pouvez empêcher les moteurs de recherche d’indexer les pages de renvoi en implémentant la balise méta-robot noindex. C’est généralement le meilleur moyen pour ne pas renvoyer vers vos pages de renvoi ni les inclure dans vos sitemaps XML.

Quelqu’un d’autre a copié votre contenu
Le contenu dupliqué peut aussi apparaître si d’autres copient votre contenu et le publient ailleurs. C’est surtout problématique si votre site présente une faible autorité de domaine et que le site copiant votre contenu a une autorité de domaine plus élevée car il peut être pris pour l’auteur du contenu et ainsi être mieux référencé.

Assurez-vous que vous soyez crédité du contenu par les autres sites. Pour cela, exigez qu’ils implémentent un URL canonique redirigeant vers votre page et un lien vers votre page. S’ils refusent, vous pouvez envoyer une requête DMCA à Google et/ou entreprendre une action en justice.

Trouver du contenu dupliqué

Trouver du contenu dupliqué sur votre propre site

En utilisant ContentKing, vous pouvez facilement trouver le contenu dupliqué en vérifiant que vos pages n’aient qu’un seul titre, méta-description et balise de titre H1. Pour voir tout cela, rendez-vous dans la section Problèmes et ouvrez les onglets “Métadonnées” et “Titres”. Vérifiez qu’il n’y ait aucun problème en cours concernant :

  • “Titre de la page non-unique”
  • “Meta-description non-unique”
  • “Balise H1 non-unique”

Trouver du contenu dupliqué en dehors de votre propre site

Si votre site n’est pas très grand, vous pouvez essayer de chercher des phrases entre guillemets sur Google. Par exemple, si vous voulez voir s’il existe d’autres versions de cet article, je vous recommande de chercher “En utilisant ContentKing, vous pouvez facilement trouver le contenu dupliqué en vérifiant que vos pages n’aient qu’un seul titre, méta-description et balise de titre H1.”

Sinon, en cas de site plus grand, vous pouvez utiliser des services comme Copyscape. Copyscape parcourt internet en cherchant plusieurs versions similaires ou quasi-similaires d’un même contenu.

Questions fréquentes sur le contenu dupliqué

  1. Puis-je recevoir une pénalité en cas de contenu dupliqué ?
  2. Est-ce que résoudre mes problèmes de contenu dupliqué améliorera mon référencement ?
  3. Dans quelle mesure le contenu dupliqué est-il acceptable ?

1. Puis-je recevoir une pénalité en cas de contenu dupliqué ?

Si vous n’avez pas copié volontairement le site de quelqu’un d’autre, il est très peu probable que vous receviez une pénalité pour contenu dupliqué. En revanche, copiez allègrement sur le contenu de quelqu’un d’autre et vous vous exposerez à de sérieux risques. Voici ce que dit Google à ce sujet :

“La présence de contenu dupliqué sur un site n’est pas passible de sanctions à moins que ledit contenu ne soit manifestement utilisé afin de tromper et manipuler les résultats des moteurs de recherche. Si votre site rencontre des problèmes liés à du contenu dupliqué et que vous n’avez pas suivi les conseils ci-dessus, nous nous chargeons nous-mêmes de choisir quelle version du contenu afficher.”

Source: https://support.google.com/webmasters/answer/66359?hl=en

2. Est-ce que résoudre mes problèmes de contenu dupliqué améliorera mon référencement ?

Tout à fait, car en réglant les problèmes de contenu dupliqué vous indiquez aux moteurs de recherche quelles pages doivent vraiment être recherchées, indexées et référencées.

Vous éviterez également aux moteurs de recherche de dépenser tout le budget crawl alloué à votre site sur des pages sans intérêt. Ainsi, ils peuvent se concentrer sur le contenu unique de votre site, celui que vous voulez avoir de référencé.

3. Dans quelle mesure le contenu dupliqué est-il acceptable ?

Il n’y a aucune bonne réponse à cette question. Cela dit :

Si vous voulez référencer une page, il faut que celle-ci présente un contenu digne d’intérêt et unique à vos visiteurs.

Ressources

Google: Duplicate content
Search Engine Land: The myth of the duplicate content penalty

ContentKing Academy Content Team
Steven van Vessum
Steven van Vessum

Steven est le Chef de l’expérience client dans l’entreprise ContentKing. Cela signifie qu’il s’occupe de tout lié avec les clients et avec l’inbound marketing. C’est là où il veut être. Il aime améliorer le référencement des sites web dans les moteurs de recherche et parler de l’inbound marketing.

Vojtěch Zach
Vojtěch Zach

Vojtěch is ContentKing’s Customer Support & Localization Manager. He is the one who will answer your questions when you reach out to us. He is a studied translator, so apart from making our users happy, he also loves to take on our localization challenges.

Vincent van Scherpenseel
Vincent van Scherpenseel

Vincent est le directeur en chef de ContentKing. Le management de produit le passionne et il aime particulièrement son travail lorsque le design, le développement et le commerce s’entremêlent. Ce qui fait de ContentKing un challenge idéal pour lui.

Commencer votre essai gratuit de 14 jours

Vous pouvez commencer en 20 secondes

Insérez un nom de domaine valide, s'il vous plaît (www.exemple.fr).
  • La carte de crédit n'est pas requise
  • Aucune installation requise
  • Sans engagement