Bloqué par Robots.txt ?

Découvrez comment analyser les effets des directives Robots.txt

Robots.txt et SEO

Le fichier robots.txt est essentiel pour le référencement, car il vous permet d’indiquer aux moteurs de recherche quelles pages de votre site doivent être exclues de l’indexation, optimisant ainsi la visibilité du contenu le plus pertinent. Une configuration correcte du fichier robots.txt peut influencer directement le classement d’un site dans les résultats de recherche, en permettant un meilleur contrôle de l’indexation et de l’exploration par les moteurs de recherche. Cependant, une mauvaise manipulation de ce fichier peut entraîner l’exclusion accidentelle de pages importantes, ce qui compromet le classement général du site. Ce scénario est très fréquent lors des migrations SEO, dans la phase ‘Staging’ où, trop souvent, il reste complètement fermé et inhibe complètement l’indexation des araignées.

Copy to Clipboard

Robots.txt et Screaming Frog

Comme nous l’avons déjà vu dans nos guides, Screaming Frog permet de vérifier minutieusement le fichier Robots.txt et de tester des “Path URLs” individuels directement à partir de la console.
Grâce à SEO Spider, il est possible de respecter (“Respecter Robots.txt”) ou d’ignorer Robots.txt (“Ignorer Robots.txt”) pendant l’exploration, en fonction de l’objectif de l’analyse.

configurazione custom robots txt con il seo spider

Grâce à la fonction précédente, il est possible de vérifier individuellement les dossiers ou les chemins pour voir si le fichier Robots.txt crée des blocages, mais il n’est pas possible d’effectuer une analyse “en vrac”.

Screaming Frog, grâce au filtre“Blocked by Robots.txt” de l’onglet“Status Code“, permet de visualiser toutes les URL affectées par le fichier et, grâce à l’exportation, il est possible de télécharger un document de référence en vue d’un contrôle ou d’une analyse éventuels.

Vous connaissiez probablement déjà cette option, mais vous n’avez peut-être jamais pensé à l’une des colonnes disponibles avec ce filtre, la“Ligne Robots.txt correspondante“.

Ligne Robots.txt correspondante

Lorsque vous analysez le fichier robots.txt, si tout est configuré correctement avec le filtre précédent, vous ne trouverez que les ressources que vous vouliez vraiment bloquer, mais que se passe-t-il si des pages importantes que vous vouliez indexer sont incluses ? Mais surtout, comment se dépêtrer dans le cas d’un e-commerce avec des centaines de milliers d’URLs pour trouver l’éventuel bug dans la compilation du fichier Robots.txt ?

Pour vous aider, Screaming Frog a mis à votre disposition la colonne “Ligne Robots.txt correspondante”, qui vous indique, pour chaque URL, la règle (ligne de directive dans le fichier) du fichier robots.txt qui bloque l’indexation.

Pour une vue très simplifiée, vous pouvez cliquer sur l’en-tête de la colonne et tout trier en fonction de la ligne de référence. Ainsi, même lors de l’analyse de grands sites web ou de commerce électronique, la résolution de toutes les configurations peut être grandement simplifiée.

Seo Spider Tab