Web Scraping

Apprenez à utiliser le web scraping et l'extraction personnalisée pour des analyses avancées.

INDEX :

Web Scraping & Custom Extraction

Voyons comment vous pouvez utiliser Screaming Frog pour faire du Web Scraping en utilisant la fonction Custom Extraction (Recherche avancée).

Grâce à cette fonctionnalité, vous pouvez récupérer n’importe quelle donnée HTML d’une page web en utilisant CSSPath, XPath et RegEX.

L’extraction est effectuée sur le code HTML statique des URL analysées par le SEO Spider qui répondent avec un code de statut 200 “OK”.

Si vous souhaitez effectuer des extractions à partir de données rendues, vous pouvez activer le mode “Javascript Rendered”.

  • 1. Configuration de l’extraction personnalisée

> > Pour mettre en place votre recherche personnalisée, allez à Configuration Extraction personnalisée.

Cette fonction vous permet de définir jusqu’à 100 demandes d’extraction de données personnalisées.

funzione di custom extraction con screaming frog

Instructions Css, XPath et Regex

  • 2. Sélectionnez le chemin CSS, XPath ou Regex à utiliser pour le scraping.

Le Seo Spider offre trois possibilités pour récupérer des données sur les sites web :

  • XPath: grâce à XPath, vous pouvez sélectionner des nœuds dans un document pour les interroger à l’aide de sélecteurs XPath, y compris les attributs.
  • CSS Path: cette option est la plus rapide des méthodes mentionnées et permet le scraping à l’aide de sélecteurs CSS Path.
  • Regex: cette requête de données utilise des expressions régulières RegEx et est recommandée pour des utilisations avancées telles que l’extraction de commentaires HTML ou JavaScript en ligne.

En optant pour XPath ou CSS Path pour interroger le HTML, vous pouvez choisir parmi plusieurs filtres Seo Spider :

  • Extraire les éléments HTML: collecte les informations sur l’élément sélectionné et tout son contenu HTML interne.
  • Extraire le HTML interne : collecte le contenu HTML interne de l’élément sélectionné. Si, par exemple, l’élément sélectionné contient d’autres éléments HTML, ceux-ci seront également inclus.
  • Extraire le texte : collecte le contenu textuel de l’élément sélectionné et de son sous-élément.
  • Valeur de la fonction: renvoie le nombre total de l’élément demandé. Par exemple, si vous cherchez combien de h3 sont présents sur une page, vous pouvez utiliser “count(//h3)”.

Insertion de la syntaxe

  • 3. Saisissez votre syntaxe

Une fois que vous avez choisi le mode de scraping, il ne reste plus qu’à définir la syntaxe d’extraction. Pour trouver le CSS ou le Xpath correspondant, il vous suffit d’ouvrir la page web dans Chrome et d'”inspecter” l’élément souhaité, puis de cliquer avec le bouton droit de la souris et de copier le chemin de sélection correspondant.

Exemple :
Prenons l’exemple du blog Screaming Frog.

Ouvrez n’importe quel article de blog dans Chrome, faites un clic droit et “inspectez l’élément” sur le nom de l’auteur.

Cliquez avec le bouton droit de la souris sur la ligne HTML concernée (avec le nom de l’auteur), copiez le chemin CSS ou XPath correspondant et collez-le dans le champ correspondant du Seo Spider.

>Si la syntaxe saisie est valide (.author-details-social a), vous verrez une coche verte à côté de votre saisie, sinon un avertissement avec une croix rouge indiquera que la syntaxe n’est pas considérée comme correcte.

Une fois cette opération terminée, il vous suffit de cliquer sur le bouton “ok” et de lancer la recherche.

Pour en savoir plus sur les sélecteurs CSS et XPath, je vous recommande de suivre w3schools.

Scannez le site web

Une fois la syntaxe saisie et validée, il ne vous reste plus qu’à scanner le site web pour commencer le scraping.

Visualisez les données de scraping dans l’onglet “Extraction personnalisée”.

Les données du web scraping sont disponibles en temps réel pendant l’analyse, dans l’onglet “Extraction personnalisée” et dans l’onglet “Interne”.

Dans notre exemple, une analyse complète d’un site web a été lancée, mais si vous souhaitez faire du scraping à partir d’une liste spécifique d’URL, vous pouvez décider d’utiliser le mode d’analyse “Liste”.

Les champs d’application sont infinis et dépendent du type d’analyse effectuée. Cette fonctionnalité peut être très utile, par exemple, pour collecter des ID Analytics ou GTM, des métabalises sociales, des valeurs d’attributs Hreflang, des prix de produits de commerce électronique, des prix réduits, etc.

Récupération de l’intention de recherche

Récupération de “People Also Ask” (Les gens demandent aussi)

INDEX :

Seo Spider Tab