ONGLET CONTENU

Vérification du contenu en double, des pages similaires et des éléments de faible valeur.

INDEX :

Vérification du contenu en double, des pages similaires et des éléments de faible valeur.
Vue d’ensemble
Contenu de l’onglet
- Filtres dans l’onglet Contenu
- Analyse des erreurs grammaticales

Vue d’ensemble
Contenu de l’onglet

L’onglet « Contenu » présente des données sur le contenu des URL découverts au cours de l’analyse en termes de nombre de mots, de contenu dupliqué ou quasi dupliqué, et de fautes d’orthographe et de grammaire.

Adresse: l’adresse de l’URL.
Nombre de mots : cet indice identifie la somme de tous les « mots » scannés dans la balise body, à l’exclusion des balises HTML.
> > Le décompte est basé sur la zone de contenu définie par le Seo Spider, mais vous pouvez également la personnaliser à partir de « Config Content Area ».
<> <> Par défaut, les éléments nav et footer sont exclus.
Pour une analyse plus poussée, vous pouvez décider d’inclure ou d’exclure les éléments HTML, les classes et les ID. Il peut y avoir des divergences entre les valeurs rapportées par Screaming Frog et un calcul manuel de celles-ci. Ces incohérences sont dues au fait que l’analyseur syntaxique effectue certaines corrections lorsqu’il rencontre du HTML invalide. Ne sous-estimez pas les paramètres de rendu personnels qui peuvent également influencer le choix du code HTML. Screaming Frog compte un mot en prenant le texte et en le divisant par des espaces sans tenir compte de la visibilité du contenu (par exemple, le texte dans une div définie comme cachée).
Correspondance de similitude la plus proche: cette fonction vous permet de voir l’indice de similitude entre plusieurs pages et d’éviter les doublons. En utilisant les seuils par défaut, Seo Spider identifie un contenu « presque dupliqué » s’il a une correspondance de 90 % ou plus. > > > > Le seuil peut être personnalisé à partir de:Config Contenu Duplicatas Activer Seuil de similarité des quasi-doublons (définition d’un nouveau seuil) Pour remplir cette colonne, vous devez utiliser l' »Analyse Crawl ». Seules les URL dont le contenu est supérieur au seuil de similarité sélectionné contiendront des données, les autres resteront vides. En résumé, par défaut, cette colonne ne contiendra des données que pour les URL dont la similarité est égale ou supérieure à 90 %.
Non. Quasi-doublonsIdentifie le nombre d’URL en quasi-double découvert lors d’un crawl qui atteint ou dépasse le « seuil de similarité en quasi-double », qui est une correspondance de 90 % par défaut. > > Vous pouvez ajuster ce paramètre à partir de « Config Content Duplicates ». Pour remplir cette colonne, vous devez activer la fonction « Activer les quasi-doublons » et effectuer l' »Analyse Crawl ».
Total des erreurs linguistiques: le nombre total d’erreurs d’orthographe et de grammaire découvertes pour une URL. Pour que cette colonne soit remplie, les options « Activer la vérification orthographique » et/ou « Activer la vérification grammaticale » doivent être sélectionnées.

> > Contenu de la configuration Orthographe et grammaire

Erreurs d’orthographe : le nombre total d’erreurs d’orthographe découvertes pour une URL. Pour que cette colonne soit remplie, vous devez activer la fonction « Activer la vérification orthographique ».
Erreurs de grammaire : identifie le nombre total d’erreurs de grammaire découvertes pour une URL. Pour que cette colonne soit remplie, l’option « Activer la vérification grammaticale » doit être sélectionnée. Dans les paramètres, vous pouvez définir la langue de contrôle, les règles de grammaire et le dictionnaire de référence.
Pour rechercher les erreurs grammaticales et orthographiques dans l’onglet inférieur de Seo Spider, il suffit de sélectionner les URL dans la colonne dédiée de l’onglet « Interne » (fenêtre supérieure).
Excellente fonctionnalité pour le rédacteur, qui peut ainsi détecter les fautes de frappe ou l’utilisation abusive des règles de grammaire. Outre la liste des erreurs, vous trouverez des suggestions de correction et la section du site web où elles ont été trouvées, ainsi qu’un aperçu. Pour la langue italienne, il est encore peu fiable dans les suggestions mais très utile en termes d’erreurs de frappe grâce au dictionnaire.
Langue: indique la langue choisie pour les contrôles orthographiques et grammaticaux. Cet indice est basé sur l’attribut de langue défini dans le code HTML. La langue peut également être réglée via.

> > Contenu de la configuration Orthographe et grammaire

Hash: prend en compte la valeur de « hachage » de l’URL via l’algorithme MD5. Cet index vérifie la présence de contenu exactement dupliqué, contrairement à l’onglet « Correspondance de similitude la plus proche » où un seuil de similitude est explicité. Veuillez noter que si deux valeurs de hachage correspondent, les pages ont exactement le même contenu. S’il n’y a qu’une différence d’un seul caractère, ils ont des valeurs de hachage uniques et ne seront pas détectés comme du contenu dupliqué. > Les doublons exacts sont visibles sous la rubrique « Duplicata d’URL ».
Indexabilité: si l’URL est indexable ou non indexable.
Statut d’indexabilité: la raison pour laquelle une URL n’est pas indexable. Il peut être canonisé vers une autre URL ou comporter la balise « noindex ».

Filtres dans l’onglet Contenu

Les filtres suivants sont disponibles :

Duplicatas exacts: ce filtre affiche toutes les pages qui ont le même « hash » et qui pourraient être considérées comme des duplicatas par le moteur de recherche, ce qui détériorerait le PageRank.
Ce filtre vous permet d’isoler les pages dupliquées et de les optimiser en définissant correctement les versions canoniques et « canonisées ».
Quasi-doublons: ce filtre vous permet d’afficher toutes les pages similaires (et non identiques !) en fonction d’un seuil de similarité, fixé par défaut à 90 % et personnalisable dans les paramètres.

La colonne « Similitude la plus proche » indique le pourcentage le plus élevé de similitude avec une autre page.

La colonne « Nombre de doublons » indique le nombre de pages similaires à la page selon le seuil de similarité. L’algorithme est exécuté sur le texte de la page, et non sur l’ensemble du code HTML, comme c’est le cas pour les duplicatas exacts.

> > Le contenu utilisé pour cette analyse peut être configuré sous « Config Content Area ».

N’oubliez pas que les pages peuvent avoir une similitude de 100 %, mais n’être qu’un « quasi-double » en raison des arrondis, de sorte que 99,5 % ou plus seront affichés comme 100 %.

Pour remplir cette colonne, vous devez activer l’option « Activer les quasi-doublons » et effectuer l’analyse « Crawl ».

> > Config Content Duplicates

Pages à faible contenu : ce filtre met en évidence toutes les pages contenant moins de 200 mots. > > Le nombre de mots est basé sur les paramètres du domaine de contenu utilisé dans l’analyse, qui peut être configuré via « Config Content Area ».
Il n’y a pas de déclaration officielle du moteur de recherche concernant le nombre minimum de mots pour que le contenu soit considéré comme valide, mais si l’on considère la citation « Content is the King », le contenu descriptif est l’un des éléments les plus importants dans la perspective d’un classement organique.
Une excellente analyse que je recommande est de comparer les performances de la Search Console en termes d’impressions et le filtre « Low Content Pages » pour voir si les pages avec peu de contenu sont pénalisées et si le contenu doit être approfondi. Bien entendu, ces considérations dépendent du site web. Le commerce électronique n’a pas besoin de textes très longs et fonctionne même avec un contenu réduit.

Le seuil de définition des pages à faible contenu peut être ajusté via le « Nombre de mots à faible contenu ».

> > > Configurer les préférences de l’araignée Faible contenu Nombre de mots.

Erreurs d’ orthographe : ce filtre contient toutes les pages HTML contenant des erreurs d’orthographe.
Erreurs grammaticales: contient toutes les pages HTML contenant des erreurs grammaticales.

Analyse des erreurs grammaticales