Analyse du contenu dupliqué

Analyse et meilleures pratiques pour éviter le contenu dupliqué et ne pas perdre le classement dans les moteurs de recherche

Contenu dupliqué

Comme Google l’a déclaré à plusieurs reprises, le contenu est l’un des éléments de classement les plus importants, et la gestion de toute duplication est l’une des activités à prendre en compte dans le cadre de l’optimisation du référencement.

Le contenu dupliqué est l’un des problèmes les plus courants qui entravent un projet et doit être réduit au minimum afin de ne pas gaspiller le budget d’exploration.

L’objectif d’un spécialiste en référencement ne doit pas se limiter à la compréhension et à l’optimisation de pages identiques, mais doit également se concentrer sur le contenu “similaire” susceptible de créer des conditions de “cannibalisation des requêtes”, créant ainsi une inefficacité absolue dans l’exploration par les moteurs de recherche.

Dans ce tutoriel, nous verrons comment Screaming Frog vous permet de trouver à la fois du contenu dupliqué exact (avec le même hachage) et du contenu similaire qui pourrait sembler avoir la même “intention de recherche” aux yeux de Google.

  • 1. > > Activez “Near Duplicates” via “Config Content Duplicates”.

Par défaut, Screaming Frog identifie automatiquement les pages en double exact (les pages en double ont le même “hash”), alors que pour identifier un contenu similaire, vous devez activer l’option “Enable Near Duplicates”. Une fois activé, Seo Spider considère que tout document dont la correspondance est d’au moins 90 % est une page “similaire”.

Ce seuil peut également être ajusté en fonction du raffinement le mieux adapté à votre projet.

funzionalità di Near Duplicates del seo spider per contenuti duplicati

Par défaut, le SEO Spider ne vérifie que les pages similaires ou dupliquées si elles sont “indexables” et non “canonisées” ; il est conseillé de décocher l’option “Vérifier uniquement les pages indexables pour les duplicatas”, car cela peut vous aider à trouver des zones de gaspillage potentiel du budget du Crawler.

Remarque : en règle générale, je vous conseille de fixer le seuil à 50-60 % pour les nouveaux projets, dans lesquels vous allez gérer toute la recherche clé, et à 70 % au minimum pour les projets ayant un certain historique, afin de vous assurer que l’intention de recherche est toujours unique et bien identifiée.

Grâce à la Search Console, vous pouvez vérifier périodiquement la relation requête-page d’atterrissage et, en cas de cannibalisation, choisir la page d’atterrissage la mieux adaptée (en vérifiant également les données de l’AG) à cette intention de recherche spécifique et renouveler le contenu des pages secondaires ou, dans certains cas, les supprimer.

  • 2. Définir le domaine de contenu à analyser

Pour cette tâche également, Screaming Frog est très flexible et vous permet de choisir l’accent à mettre sur la recherche de contenu dupliqué ou similaire.

<> Par défaut, le Seo Spider exclut automatiquement les éléments du nav et du
<> le pied de page pour se concentrer sur le contenu du corps principal. Cependant, tous les sites web ne sont pas construits avec ces éléments HTML5, mais Seo Spider vous permet d'”inclure” ou d'”exclure” certaines balises HTML, classes ou ID de votre analyse.

Par exemple, si vous parcourez le site web de Screaming Frog, vous remarquerez qu’il comporte un menu mobile en dehors de l’élément “nav”, mais que, par défaut, cet élément est néanmoins inclus dans l’analyse du contenu. Dans ce cas précis, vous pourriez définir la classe de menu (“mobile-menu__dropdown”) et l’exclure de l’examen afin de vous concentrer davantage sur le contenu principal.

Content area del seo spider
  • 3. Scannez le site web.
  • 4. Afficher les doublons dans l’onglet “Contenu”.

Dans l’onglet “Contenu”, vous disposez de deux filtres :

  • les “doubles exacts” (contenu identique).
  • les “quasi-doublons” (contenu similaire).

Pendant l’exploration, cet onglet s’enrichit de données au fur et à mesure que l’exploration progresse, mais ne présente que les “doublons exacts”.

  • 5. Configuration de l’analyse du crawl

Pour remplir le filtre “Near Duplicates”, les colonnes “Closest Similarity Match” et “No Near Duplicates”, vous devez configurer et exécuter l’analyse Crawl.

  • 6. Affichez l’onglet “Contenu” et les filtres “Exact” et “Proche”.

Après avoir effectué l’analyse post-crawl, le filtre “Near Duplicates”, les colonnes “Closest Similarity Match” et “No. Near Duplicates” seront remplis.

Seuls les URL dont le contenu est supérieur au seuil de similarité sélectionné contiendront des données, les autres resteront vides.

Dans le cas illustré ci-dessous, le site de Screaming Frog n’a que deux ressources avec un seuil de 92 % qui doivent être optimisées.

scheda con tasso di similarità tra diverse pagine

Pour une évaluation plus précise, vous pouvez trier les données en fonction des deux filtres :

  • Duplicatas exacts : identifie les pages dont le “hachage” est identique.
    Très utile pour gérer les pages principales et les pages à “canoniser”.
  • > > Near Duplicates: identifie les pages dont le seuil de “similarité” est supérieur à 90 % ou dont l’index est différent si vous l’avez modifié via l’option “Config Content Duplicates” (Configurer les duplicatas de contenu).

En résumé, dans la colonne “Correspondance la plus proche”, vous pouvez voir le pourcentage de similitude, et dans “Nombre de doublons”, le nombre de pages concernées par cette similitude.

  • 7. Affichez les URL dupliqués via l’onglet “Détails du duplicata”.

Pour les “doublons exacts”, passez simplement à la colonne “hachage” et triez-les en cliquant sur l’en-tête pour trouver toutes les correspondances.

Dans l’exemple du site de la BBC, chaque URL a un doublon exact parce qu’elle a deux versions, l’une avec le “/” et l’autre sans.

Pour en savoir plus sur les “doublons proches (similaires)”, il suffit de cliquer sur l’onglet “Détails du doublon” dans la fenêtre inférieure.

Dans le cas ci-dessus, en cliquant sur une URL dans la fenêtre supérieure, on obtient quatre pages qui dépassent le seuil de 90 % de similitude.

Le Seo Spider fournit également un aperçu du contenu presque dupliqué dans l’onglet “Duplicate Details” et permet une vue très intuitive des parties textuelles qui diffèrent des pages en cours d’examen.

  • 8. Exportation en masse des URL en double

Les doublons exacts et les quasi-doublons peuvent être exportés en masse.

> > Bulk Export Content Exact Duplicates/ Near Duplicates

  • 8. Exportation en masse des URL en double

Les doublons exacts et les quasi-doublons peuvent être exportés en masse.

> > Bulk Export Content Exact Duplicates/ Near Duplicates

esportazione delle pagine considerate duplicate

Onglets connexes: Contenu | Barre latérale | Rapport

Vidéo d’analyse du contenu dupliqué

Cannibalisation des requêtes

Seo Spider Tab