Extraction personnalisée

Découvrez l'extraction personnalisée pour collecter des données personnalisées à partir du code html.

Extraction de données personnalisées

Screaming Frog est un outil de référencement très polyvalent qui renvoie non seulement des données et des indicateurs prédéfinis, mais qui permet également des analyses avancées personnalisables. L’une d’entre elles est l'”extraction personnalisée”, une fonction très puissante qui vous permet de collecter toutes les données à partir du code html de n’importe quelle page web (mode texte uniquement) ou des données rendues avec le “mode de rendu Javascript”.

Seo Spider propose 3 façons d’extraire des données avec ‘Custom Extraction’ :

  1. XPath: Sélecteurs XPath ;
  2. Chemin CSS ;
  3. Regex: pour une extraction de données plus avancée (plus loin : https://docs.oracle.com/javase/8/docs/api/java/util/regex/Pattern.html)

Si vous décidez de tirer parti des deux premières solutions “XPath” et “CSS Path”, vous pouvez choisir les éléments à extrapoler :

  • Extraire les éléments Html: permet de collecter des données à partir des éléments sélectionnés et de leur contenu interne (“Inner Html Content”).
  • Extraire le HTML interne : permet d’extraire le contenu interne d’un élément sélectionné. Si l’élément Html contient d’autres éléments Html, les sous-éléments seront également disponibles.
  • Extraire le texte : collecte le contenu textuel de l’élément sélectionné et le contenu textuel de ses sous-éléments.
  • Valeur de la fonction: renvoie le résultat de la fonction fournie. <> Si, par exemple, vous utilisez une fonction telle que “count(//h1)”, vous obtenez le nombre de h1 présents sur la page.
Voce del menu del seo spider per la custom extraction

Une fois que vous avez sélectionné “Extraction personnalisée”, il vous suffit de cliquer sur “Ajouter” et de saisir vos instructions d’extraction de données.

Vous pouvez également décider de cliquer sur ‘Crawl Config’ et de choisir parmi les onglets de la première colonne du popup proposé par le Seo Spider.

Cnfigurazione della funzionalità custom extraction del seo spider

Les données obtenues sont disponibles dans l’onglet “Extraction personnalisée” et dans l’onglet “Interne” dans une colonne dédiée.

Risultati della custom extraction con screaming frog

Maintenant que vous savez comment mettre en place une “Extraction personnalisée” et que vous comprenez son potentiel, examinons quelques exemples d’applications qui, je pense, pourraient vous être utiles lors de vos incursions dans le domaine du référencement technique.

Extraction avec X-Path

Vous trouverez ci-dessous quelques exemples d’extrapolations utilisant XPath.

Titres: par défaut, le Seo Spider ne collecte que les titres principaux de la page (H1 et H2), mais pour une analyse plus spécifique et plus complète, vous pouvez également avoir besoin de trouver des informations spécifiques sur les autres “titres” de la page.

Estrazioni dati attributo hreflang

Découvrir et collecter les différents types (“Types”) dans les données structurées.

Remarque : pour la validation des données structurées, il n’est pas nécessaire d’utiliser une “extraction personnalisée”, mais vous pouvez visualiser les données dans l’onglet “Données structurées”.

Collecte des balises de médias sociaux, des balises Open Graph et des cartes Twitter:

Extraction d’adresses électroniques et/ou de numéros de téléphone à partir d’un site web

Extraction d’images particulières du site web, par exemple Google Tag Manager, vidéo YouTube.

Extraction du contenu de Divs ou Spans spécifiques en fournissant la classe (à remplacer par “exemple”)

Cet exemple recueille les titres et le nombre de commentaires des articles de blog (vous devrez adapter les classes spécifiques à votre site web pour qu’elles fonctionnent).

estrazione dati customizzata con il seo spider

Extraction avec Regex

Les règles regex sont un outil très puissant pour collecter des données avec Screaming Frog ; examinons quelques exemples d’application que vous pouvez utiliser immédiatement lors de votre prochain audit de référencement :

Extraction de l’ID de Google Analytics et de Google Tag Manager:

Extraction de données structurées.

Pour extrapoler des données structurées, nous avons vu qu’il est également possible d’utiliser le mode XPath, mais si celles-ci ont un formatage JSON-LD, il est conseillé d’utiliser la syntaxe RegEX :

Estrazione dei dati strutturati tramite Regex e funzione seo spider

Extraction vidéo personnalisée

Seo Spider Tab