Analyse de grands sites

Comment analyser de grands sites avec le mode "Stockage de base de données" et quelques astuces.

Mode de stockage de la base de données

Pour gérer l’analyse d’un site à partir de millions d’URL, le mode “Stockage en mémoire” avec stockage sur la RAM n’est pas le choix recommandé ; la première étape consiste donc à passer au mode “Stockage en base de données”.

metodo di archiviazione dei dati del crawl dello Seo Spider
schermata di selezione del database storage di screaming frog

Pour obtenir les meilleures performances de Seo Spider dans ce mode, vous devez prévoir une carte mémoire SSD interne ou externe si votre système supporte le mode UASP.

Allocation de mémoire

Après avoir choisi le mode “Stockage de la base de données”, la deuxième étape consiste à augmenter la mémoire allouée.

Vous trouverez ci-dessous une comparaison des performances en fonction du nombre maximum d’URL pouvant être explorés.

Ces exigences ne sont que des références, partez toujours de l’idée que plus la mémoire allouée est importante, meilleures seront les performances du Seo Spider.

Attributs à scanner

Il n’est pas toujours nécessaire de parcourir l’intégralité d’un site. Il est donc judicieux d’adapter le parcours à l’objectif spécifique de l’analyse en cours. N’oubliez pas que plus vous collectez de données, plus vous aurez besoin de mémoire vive.

Pour choisir les indicateurs à analyser et ceux à ne pas inclure, vous pouvez modifier directement les paramètres de Seo Spider.

> > Configuration Spider Crawl

En fonction du type d’analyse, vous pouvez choisir de désactiver l’analyse et l’archivage des éléments suivants :

  • Images* ;
  • CSS* ;
  • JavaScript* ;
  • SWF*.

*En termes de mémoire, il est logique de désactiver ces ressources, mais si vous utilisez le mode de rendu JavaScript, vous devrez les activer pour ne pas pénaliser le rendu.

  • Liens externes ;
  • Les normes canoniques ;
  • Pagination ;
  • Hreflang.
  • AMP.

Vous pouvez également désactiver l’extraction de certains éléments non essentiels tels que les “Meta Keywords” directement à partir de l’écran “Spider Configuration” ou d’autres attributs qui ne sont pas strictement nécessaires au moment de l’analyse en choisissant parmi les “Détails de la page” (par exemple, le titre de la page, le nombre de mots, les en-têtes, etc.

En plus des éléments ci-dessus, je vous recommande de désactiver la fonction de positionnement des liens dans Html.

> > Configurer la position du lien personnalisé

Une autre bonne pratique consiste à éviter d’analyser des fonctionnalités avancées telles que les suivantes, qui peuvent faire l’objet d’une seconde phase d’analyse :

  • Recherche personnalisée – Recherche personnalisée.
  • Extraction personnalisée.
  • Intégration de Google Analytics.
  • Intégration de Google Search Console.
  • Intégration de PageSpeed Insights.
  • Orthographe et grammaire – Orthographe et grammaire.
  • Intégration des mesures de liens (Majestic, Ahrefs et Moz).

Urls d’exclusion

Pour rendre l’exploration plus rationnelle et moins gourmande en mémoire, vous pouvez limiter l’exploration à des zones spécifiques du site web et exclure des éléments tels que le tri généré par la “navigation à facettes”, des paramètres particuliers sur les URL ou des URL infinies avec des répertoires répétés à l’aide de la fonction “exclure”.

Cette fonction, via les expressions RegEX, vous permet d’exclure les URL que vous ne souhaitez pas analyser. Notez toutefois que si les URL exclus contiennent des liens vers d’autres pages, celles-ci ne seront pas non plus explorées.

Pour mieux comprendre l’importance de la fonction “Exclure”, examinons un scénario réel, comme celui du site web de John Lewis.

En utilisant les paramètres par défaut de Seo Spider, en raison des nombreux tris, le crawl inclurait une série infinie d’URL, comme dans l’exemple ci-dessous :

https://www.johnlewis.com/browse/men/mens-trousers/adidas/allsaints/gant-rugger/hymn/kin-by-john-lewis/selected-femme/homme/size=36r/_/N-ebiZ1z13ruZ1z0s0la1.

Cette situation est très fréquente dans le commerce électronique, qui utilise la “navigation à facettes” pour les marques, les couleurs, la coupe des pantalons et d’autres éléments encore, ce qui crée des combinaisons infinies et alourdit inexorablement la navigation.

Dans ce cas précis, il vous suffit d’analyser un échantillon du site web pour détecter ce type de modèle d’URL paramétrée et l’exclure.

Sous-dossiers et sous-domaines

Si votre site web est très étendu, vous pouvez envisager d’analyser séparément les sous-domaines ou même d’analyser de manière plus granulaire certains sous-dossiers.

Par défaut, le SEO Spider n’analyse que le sous-domaine saisi, et tous les autres sous-domaines rencontrés sont traités comme des liens externes en apparaissant dans la fenêtre inférieure de l’onglet “Externe”.

Vous pouvez choisir d’analyser tous les sous-domaines, mais cela nécessitera évidemment plus de mémoire.

Le Seo Spider peut également être configuré pour analyser uniquement un sous-dossier en saisissant l’URL du “sous-dossier” avec son chemin d’accès et en désactivant les options “vérifier les liens en dehors du dossier de départ” et “explorer en dehors du dossier de départ”.

> > Configuration Spider Check links outside of start folder | Crawl outside of start folder

Supposons, par exemple, que vous ne souhaitiez parcourir que la zone des blogs du site Screaming Frog.

La première tâche consiste à identifier le sous-dossier et à lancer le crawler qui, dans notre cas, sera : https://www.screamingfrog.co.uk/blog/.

Remarque : pour analyser un sous-dossier, n’oubliez pas d’ajouter la barre oblique finale “/blog/“, sinon Seo Spider ne le reconnaîtra pas en tant que tel. Vous pouvez rencontrer le même problème si la version avec le ‘/’ est redirigée vers sa version sans le ‘/’.

Dans ce dernier cas, vous pouvez utiliser la fonction “include” et utiliser une règle RegEx pour l’analyse (par exemple ‘.*blog.*’).

La fonction comprend

Outre l’exclusion de zones et/ou la désactivation d’éléments de l’analyse et de l’archivage, vous pouvez opter pour la fonction “Inclure”, qui vous permet de limiter les URL à analyser à l’aide d’expressions RegEx.

Par exemple, si vous souhaitez analyser uniquement les pages contenant “search” dans la chaîne URL, il vous suffit d’inclure le RegEx ‘.*search.*’ dans la fonction “include”.

gestione della funzione Include in Screaming Frog

En consultant le site de Screaming Frog, vous obtiendrez les résultats suivants

Échantillonnage

Un autre moyen de gagner du temps et de rendre la numérisation moins gourmande en mémoire est de travailler sur l’échantillonnage du site web :

Limiter le total de l’exploration – Limiter le total de l’exploration : identifie le seuil maximum de pages à explorer au total.

Limiter la profondeur du crawl – Limiter la profondeur du crawl : limite la profondeur du crawl aux pages les plus proches en termes de clics de la page de départ (ou d’accueil) afin d’obtenir un échantillon de tous les modèles.

Limiter la longueur maximale de l’URI à explorer : limite l’exploration des URL à un nombre maximal de caractères dans la chaîne, ce qui permet d’éviter les URL très profondes.

Limiter la profondeur maximale du dossier – limite l’analyse en fonction de la profondeur du dossier.

Limiter le nombre de chaînes de requête – Limite le nombre de chaînes de requête. Si vous fixez la limite de la chaîne de requête à “1”, vous permettez à Seo Spider d’analyser les URL qui ont au maximum un seul paramètre (?=couleur par exemple) dans la chaîne et d’éviter les combinaisons infinies.

Parcourir de grands sites

Seo Spider Tab