Extraction de données personnalisées
Screaming Frog est un outil de référencement très polyvalent qui renvoie non seulement des données et des indicateurs prédéfinis, mais qui permet également des analyses avancées personnalisables. L’une d’entre elles est l' »extraction personnalisée », une fonction très puissante qui vous permet de collecter toutes les données à partir du code html de n’importe quelle page web (mode texte uniquement) ou des données rendues avec le « mode de rendu Javascript ».
Seo Spider propose 3 façons d’extraire des données avec ‘Custom Extraction’ :
- XPath: Sélecteurs XPath ;
- Chemin CSS ;
- Regex: pour une extraction de données plus avancée (plus loin : https://docs.oracle.com/javase/8/docs/api/java/util/regex/Pattern.html)
Si vous décidez de tirer parti des deux premières solutions « XPath » et « CSS Path », vous pouvez choisir les éléments à extrapoler :
- Extraire les éléments Html: permet de collecter des données à partir des éléments sélectionnés et de leur contenu interne (« Inner Html Content »).
- Extraire le HTML interne : permet d’extraire le contenu interne d’un élément sélectionné. Si l’élément Html contient d’autres éléments Html, les sous-éléments seront également disponibles.
- Extraire le texte : collecte le contenu textuel de l’élément sélectionné et le contenu textuel de ses sous-éléments.
- Valeur de la fonction: renvoie le résultat de la fonction fournie. <> Si, par exemple, vous utilisez une fonction telle que « count(//h1) », vous obtenez le nombre de h1 présents sur la page.
Une fois que vous avez sélectionné « Extraction personnalisée », il vous suffit de cliquer sur « Ajouter » et de saisir vos instructions d’extraction de données.
Vous pouvez également décider de cliquer sur ‘Crawl Config’ et de choisir parmi les onglets de la première colonne du popup proposé par le Seo Spider.

Les données obtenues sont disponibles dans l’onglet « Extraction personnalisée » et dans l’onglet « Interne » dans une colonne dédiée.
Maintenant que vous savez comment mettre en place une « Extraction personnalisée » et que vous comprenez son potentiel, examinons quelques exemples d’applications qui, je pense, pourraient vous être utiles lors de vos incursions dans le domaine du référencement technique.
Extraction avec X-Path
Vous trouverez ci-dessous quelques exemples d’extrapolations utilisant XPath.
Titres: par défaut, le Seo Spider ne collecte que les titres principaux de la page (H1 et H2), mais pour une analyse plus spécifique et plus complète, vous pouvez également avoir besoin de trouver des informations spécifiques sur les autres « titres » de la page.

Découvrir et collecter les différents types (« Types ») dans les données structurées.
Remarque : pour la validation des données structurées, il n’est pas nécessaire d’utiliser une « extraction personnalisée », mais vous pouvez visualiser les données dans l’onglet « Données structurées ».

Collecte des balises de médias sociaux, des balises Open Graph et des cartes Twitter:

Extraction d’adresses électroniques et/ou de numéros de téléphone à partir d’un site web

Extraction d’images particulières du site web, par exemple Google Tag Manager, vidéo YouTube.

Extraction du contenu de Divs ou Spans spécifiques en fournissant la classe (à remplacer par « exemple »)

Cet exemple recueille les titres et le nombre de commentaires des articles de blog (vous devrez adapter les classes spécifiques à votre site web pour qu’elles fonctionnent).

Extraction avec Regex
Les règles regex sont un outil très puissant pour collecter des données avec Screaming Frog ; examinons quelques exemples d’application que vous pouvez utiliser immédiatement lors de votre prochain audit de référencement :
Extraction de l’ID de Google Analytics et de Google Tag Manager:

Extraction de données structurées.
Pour extrapoler des données structurées, nous avons vu qu’il est également possible d’utiliser le mode XPath, mais si celles-ci ont un formatage JSON-LD, il est conseillé d’utiliser la syntaxe RegEX :






