Comprendre le principe de contenu dupliqué en SEO

Tout savoir sur le contenu dupliqué en référencement naturel : comment l'identifier, comment l'éviter, comment Google pénalise.

contenu dupliqué seo

Si vous avez déjà rédigé du contenu pour un ou plusieurs sites web, il est plus que probable que vous ayez déjà entendu parler du principe de contenu dupliqué. Pour autant, savez-vous concrètement de quoi il s'agit et quel est son impact sur le référencement naturel ? Est-il toujours mauvais d'en user et quelles sont les bonnes pratiques pour éviter les pénalités algorithmiques ? Nous décryptons pour vous aujourd'hui les mystères de ce sujet.

Qu'est-ce que le duplicate content ?

Définition SEO

Le contenu dupliqué désigne du contenu qui aurait été répété plusieurs fois sur le web. Comme son nom l'indique, il s'agit de contenu et ne fait pas forcément référence à du texte comme beaucoup pourraient le penser. On peut citer tout un tas d'exemples :

  • Le texte
  • Les images
  • Les vidéos
  • Les tableaux
  • ...etc

La principale problématique est de savoir à quel moment on peut considérer un contenu comme étant dupliqué. Contrairement à la croyance commune, il n'est pas obligatoire de faire un véritable copier-coller à 100% d'un contenu pour qu'il soit vu comme dupliqué. En effet, il peut tout à fait s'agir d'un pourcentage plus faible de copie, voire d'inspiration. Pour faire bref, vous pouvez très bien faire l'objet de soupçons de contenus dupliqués pour des écrits que vous auriez copié-collé seulement en partie ou pour lesquels vous auriez pris une inspiration externe.

Les 2 types de contenus dupliqués

Il existe 2 grandes catégories de contenus dupliqués.

La première est interne à un même site internet, c'est-à-dire que vous utilisez plusieurs fois, sur plusieurs pages, un contenu identique ou similaire. La plupart du temps, cette action est volontaire de la part du propriétaire du site. Il peut y avoir plusieurs raisons de dupliquer un même contenu sur un même site web :

  • Gagner du temps pour certaines thématiques proches. Par exemple, vous rédigez plusieurs articles de blog sur une même thématique mais répondant à une question différente. Il se peut que vous repreniez parfois certains paragraphes pour les répéter, comme une introduction. Vous ne voyez pas le mal, vous vous contentez simplement d'utiliser certains arguments déjà exploités sur votre site web.
  • Pour rédiger certaines pages spécifiques, comme des pages produits. Il est très commun que des e-commerce réutilisent les mêmes paragraphes car ils vendent des produits très similaires où seules quelques caractéristiques changent. Il est vrai qu'il devient parfois difficile de trouver de l'inspiration pour obtenir un contenu tout à fait original sur plusieurs pages qui possèdent les mêmes attributs.

La seconde catégorie de contenu dupliqué est externe : on utilise sur un site web du contenu comme du texte qui provient d'un autre site qui existait avant le nôtre. Dans la majorité des cas, cette action est volontaire de la part du propriétaire du site. Ce dernier cherche à gagner du temps, par exemple lorsqu'il souhaite rédiger un article de blog, il va s'inspirer plus ou moins d'autres contenus présents en ligne et aller "piocher" des idées voire parfois des blocs de texte entiers. Certaines fois, les rédacteurs ne voient pas le mal car ils peuvent être contraints de s'inspirer d'autres sites. C'est notamment le cas de rédactions pour des partenaires ou collaborateurs. On peut également citer le cas d'un site qui revend des produits d'une grande marque qui possède elle-même un site qui vend ses produits. Il convient d'admettre que le revendeur ne peut se permettre de modifier les descriptions techniques et les caractéristiques de ce qu'il vend. Par conséquent, il est "forcé" de réutiliser tout ou une partie des textes rédigés sur d'autres pages web.

rédaction web seo

Comment identifier le contenu dupliqué sur un site ?

Si vous possédez un site avec au moins plusieurs mois d'ancienneté et avec plusieurs dizaines de pages, nous vous conseillons grandement de prendre le temps de mener un "audit" de plagiat. Vous pourrez alors déterminer si votre site peut être considéré comme possédant du contenu dupliqué et si vous risquez des pénalités de la part de Google. Selon nous, tous les sites devraient mener cette action, même si elles pensent ne pas être concernées. Certains pourraient être surpris ! En effet, il est possible que vous ne soyez pas conscient de la chose et que vous possédiez du contenu dupliqué avoir l'impression d'avoir déjà copié / collé du texte sur internet. Pire encore, il se peut que vous soyez irréprochable mais qu'un autre site est allé piocher dans vos propres contenus !

Pour identifier le duplicate contenu, distinguons ici les 2 types de duplicate : interne et externe.

  1. Identifier le duplicate au sein de votre site internet

C'est peut-être la partie la plus simple, sauf si vous possédez des milliers de pages sur votre site.

Vous pouvez premièrement vous servir d'un crawler pour analyser les pages de votre site. L'un des plus connus et des plus populaires est Screaming Frog. Il est très utilisé car il est l'un des seuls à posséder une version gratuite qui permet de crawler jusqu'à 500 URLs sans rien débourser. Il suffit de le télécharger sur votre PC et de lancer le nom de domaine de votre site dans la barre de recherche. Ensuite, il vous fournira un rapport détaillé sur certains éléments de votre site qui pourrait être répété plusieurs fois. Bien sûr, il se peut que cette répétition concerne le corps du texte, mais il est aussi possible que certains éléments plus précis et souvent insoupçonnés soient concernés. On peut citer les balises SEO comme les Meta Titre, Meta Description, H1 ou autres sous-titres. Sur l'outil, vous pouvez voir précisément le nombre de pages qui ont le même Meta Titre et exporter la liste. Vous aurez alors une base solide sur laquelle vous appuyer pour revoir les titres en question.

En réalité, tout type de crawler peut fonctionner à détecter certains aspects de répétition. C'est le cas de Sitebulb qui est un outil d'analyse intra-site. Si vous recherchez un outil gratuit, vous pouvez utiliser Siteliner qui vous aidera à trouver les pages qui ont un texte répété ou très similaire.

Si vous avez déjà en tête plusieurs URLs qui pourraient posséder un contenu similaire, par exemple plusieurs pages catégories sur lesquelles vous auriez rédigé un contenu proche, vous pouvez directement vous rendre sur diffchecker.com et entrer les 2 textes en question. L'outil pourra vous donner une estimation de proximité sémantique avec un pourcentage.

Sachez que les outils donnant des pourcentages ou des résultats sur le plagiat ne sont que des approximations et ne peuvent refléter à 100% le comportement ou l'avis des moteurs de recherche. N'hésitez pas à comparer plusieurs plateformes pour croiser les données.

  1. Identifier le duplicate entre plusieurs sites web

L'une des techniques les plus fréquemment utilisées est de se rendre sur Copyscape et d'entrer votre nom de domaine. L'outil recherchera pour vous les contenus qui peuvent être assimilés à du plagiat entre votre site et le reste de la SERP Google. Il existe une version gratuite et une version payante de l'application.

Une autre technique qui peut être un peu plus longue, mais qui est gratuite et redoutablement efficace : si vous avez d'ores et déjà un doute sur quelques pages de votre site (soit que vous avez réalisé vous-même du plagiat, soit qu'un autre site vous a copié), sélectionnez une partie du texte et entrez-le dans la barre de recherche sur Google. Google est le meilleur crawler qui existe ! Il vous ressortira les sites qui ont exactement le même contenu ou qui s'en rapproche. N'hésitez pas à multiplier les tentatives.

Il existe enfin quelques solutions qui sont adressées aux professionnels ou aux personnes qui ont un fort intérêt à détecter le plagiat, comme les professeurs à l'école (pour vérifier que les élèves ont produit un travail original et non inspiré du web) ou encore les copywriters SEO professionnels qui veulent prouver leur bonne foi auprès de leurs clients. C'est le cas de iThenticate qui se propose de valider ou non un texte d'un point de vue authenticité.

L'avis de Google et des moteurs de recherche sur le contenu dupliqué

Que pense Google du duplicate content sur un site web ?

Comme vous vous en doutez, Google comme les autres moteurs de recherche n'apprécient pas du tout le contenu dupliqué. Evidemment, il y a plusieurs degrés de détection et d'opposition à ces pratiques, selon le niveau de plagiat.

Savez-vous pourquoi Google rejette autant le contenu dupliqué ? Dans les critères EEAT de bonne conduite SEO, Google place dans les piliers du référencement le pilier du contenu et attend de plus en plus au fil des années que les sites web proposent des contenus originaux pour se démarquer de leurs concurrents et ranker au mieux sur les mots-clés désirés. S'il suffisait de faire un simple copier / coller d'un bon article à succès pour ranker TOP 1, cela serait beaucoup trop facile ! De plus, Google est tout à fait capable de détecter parmi 2 contenus lequel est le plus ancien. Autant vous dire qu'il privilégie toujours le contenu le plus ancien.

En plus de cette notion d'originalité et de différenciation vis-à-vis de la concurrence, avoir un contenu très proche d'autres sites peut également être le signe d'une entrave à certaines lois qui protègent les auteurs et propriétaires de contenus en France. Il existe un fort aspect juridique sur cette notion et même en dehors d'internet, vous n'êtes pas sans savoir qu'il n'est jamais apprécié de prendre une idée d'une autre entreprise ou d'une autre personne. Pour faire face à ces problématiques, plusieurs choses ont été mises en place, comme des brevets pour protéger les innovations, mais aussi sur internet les droits d'auteur pour garantir le droit à la propriété intellectuelle.

Google met à jour plusieurs fois par an son algorithme afin de perfectionner toujours plus sa détection de plagiat, au travers de ce que l'on appelle des Core Update. L'algorithme Panda est considéré comme la Police sur internet des bonnes pratiques du contenu. Il cherche à détecter les sites qui ont tendance à répéter de façon abusive leurs textes et à les pénaliser.

Quels sont les risques encourus en cas de détection ?

En parlant de pénalités, savez-vous exactement ce que vous risquez en possédant du contenu dupliqué ? Il est vrai que Google souhaite pénaliser lourdement les sites qui abusent de ce système afin de favoriser au mieux les bonnes pratiques en termes de référencement naturel. En clair, cela peut se concrétiser par des pénalités algorithmiques ou manuelles et vous risquez des chutes de trafic avec des pertes de positions sur des mots-clés à très court terme. Si cela advient sur votre site, il faut vous poser la question.

D'autres fois, les choses se font de manière plus indirecte. Les détections de contenu dupliqué peuvent avoir comme effet :

  • De désindexer plusieurs de vos pages : Google observe que plusieurs de vos pages ont un contenu similaire entre elles ou avec d'autres pages d'un autre site, il est perdu et ne sait plus laquelle mettre en avant dans les résultats de recherche. Par conséquent, il finit par en désindexer plusieurs.
  • Perte de PageRank pour plusieurs de vos pages : si plusieurs URLs ont un contenu très proche, Google diluera l'importance attribuée à chacune et ainsi elles perdront de l'importance au sein de votre site.
prénalités google seo

Nos conseils pour éviter le duplicate sur vos pages web

Si à l'une de ces précédentes étapes vous vous apercevez que plusieurs de vos URLs font l'objet de contenu dupliqué, ou si ce n'est pas le cas et que vous souhaitez anticiper les potentielles déconvenues, nous vous donnons ci-dessous plusieurs astuces pour vous en éloigner !

La première technique est la plus simple : celle de prioriser la rédaction de contenu original et authentique. Il est toujours préférable en SEO de privilégier la qualité à la quantité. Rédiger du bon contenu vous prendra certes plus de temps mais vous obtiendrez de bien meilleurs résultats ! Une problématique qui revient souvent chez les créateurs de contenu est d'avoir du mal à trouver des idées pour se réinventer et trouver toujours du contenu nouveau à rédiger. Comment faire dans ce cas ? Plusieurs options s'offrent à vous :

  • Diversifier vos sujets de rédaction. Vous pouvez aborder des thématiques voisines mais qui apporteront un angle de vue légèrement différent. Vous pouvez par exemple réfléchir à vous adresser à une cible différente, ou à voir vos offres sous un autre aspect. Par exemple, si vous vendez du papier pour du tirage photo, vous pouvez évidemment parler de la qualité du papier à choisir, mais aussi aborder d'autres sujets intéressants d'un point de vue commercial : idée cadeau pour Noël, idée déco pour un mariage...
  • Reformuler au maximum vos textes. Si parfois vous n'avez pas le choix que de répéter certains blocs de texte, nous vous invitons à reformuler autant que possible, que ce soit à la main ou pourquoi pas en utilisant un outil d'intelligence artificielle.

Si vous possédez d'ores et déjà des soucis de contenu dupliqué, l'une des bonnes pratiques est d'utiliser des URLs canoniques. La canonicalisation est très utile lorsque vous n'avez pas le choix de répéter du texte sur plusieurs pages, comme une page produit qui contiendrait plusieurs déclinaisons d'URLs en fonction de la couleur qu'on sélectionne. L'URL change mais le contenu de la page reste le même. Pour éviter de vous faire pénaliser, appliquer une canonique depuis votre back office. Ce peut aussi être le cas de vos pages blog qui réunissent tous vos articles. Lorsque vous avez rédigé beaucoup d'articles, vous finissez par avoir plusieurs pages d'accueil du  blog : page 1, page 2, page 3... Elles comporteront toutes le même Meta Titre, Description, H1...vous pouvez donc ici mettre une canonique.

Si vous avez créé sans le vouloir plusieurs pages trop proches, vous pouvez tout simplement en supprimer une ou créer une redirection depuis l'une vers l'autre.

Sachez que Google ne pénalise pas toujours ces comportements, notamment dans certains cas où vous n'avez tout simplement pas le choix. On citera ici ce qui a trait aux pages légales comme les Conditions Générales de Vente ou encore les Mentions Légales. Idem, une page "qui sommes-nous ?" qui est répétée sur 2 sites qui vous appartiennent (par exemple si vous êtes un groupe avec plusieurs entités) ne vous pénalisera pas. Tout est une question de ratio. Si vous avez quelques blocs répétitifs sur votre site, vous n'encourez aucun risque. Cependant, si plusieurs dizaines d'URLs révèlent des blocs copiés / collés, vous vous exposez à de réelles pénalités. Nous ne connaissons malheureusement pas aujourd'hui le pourcentage exact à partir duquel Google pénalise le contenu dupliqué, d'autant plus que ce pourcentage peut être amené à changer ces prochaines années avec les mises à jour algorithmiques. Gardez donc toujours en tête que le moins vous en faites, le moins de risques vous prenez !

Si vous avez d'autres questions ou besoin d'accompagnement sur votre SEO, notre équipe se tient à votre disposition. Contactez-nous : [email protected] .

A bientôt !