Qu’est-ce que le Web Scraping ?

Apprenez ce qu'est le web scraping et comment utiliser Screaming Frog pour récupérer des informations dans le SERP.

Récupération de données sur le Web

Le concept de web scraping trouve ses racines dans l’anglais “to scrape” et prend la forme d’une méthodologie particulière visant à collecter des données et des informations directement à partir de pages web ou du serveur afin de les cataloguer et de les stocker dans une base de données.

Dans certains cas, encore très fréquents, le web scraping est utilisé pour collecter des noms, des prénoms et des données sensibles afin de les utiliser comme bases de données pour le marketing, mais cette activité doit être considérée comme illégale.

Dans d’autres cas, cette activité peut être utilisée pour des campagnes d’hameçonnage, d’usurpation d’identité ou de violation des droits d’auteur.

Malgré ces excès dans son utilisation, le Web Scraping n’est pas considéré comme illégal et permet de trouver des données très importantes dans les analyses SEO et pour tout le Digital Marketing en général.

Marketing numérique et scraping

Après des années pendant lesquelles cette activité était subordonnée à des connaissances informatiques de niveau moyen à élevé, il existe aujourd’hui des outils sans code qui permettent d’obtenir des résultats remarquables en termes d’extraction de données.

A la base du Web Scraping se trouve un standard appelé XPath, qui permet de localiser et donc de gérer assez facilement les différents nœuds d’un document Html.

Web Scraping et SEO

Le web scraping offre plusieurs avantages pour l’optimisation des moteurs de recherche (SEO) :

  • Recherche de mots-clés: le web scraping permet de collecter une grande variété de données, y compris des données sur les mots-clés utilisés par les concurrents ou trouvés sur les pages web des sites les plus pertinents pour un secteur donné. Ces informations peuvent être utilisées pour identifier de nouvelles opportunités de mots-clés et améliorer la stratégie de référencement (analyse des rubriques, balises méta, etc.).
  • Surveillance des concurrents: grâce au web scraping, il est possible de surveiller en permanence les activités des concurrents, y compris les changements dans leurs stratégies de référencement, les nouveaux contenus publiés, les mises à jour algorithmiques de Google, etc. Ces informations peuvent s’avérer précieuses pour adapter et optimiser votre stratégie de référencement.
  • Mise à jour des données : l’utilisation consciencieuse de cette activité permet de maintenir à jour les données utilisées pour l’optimisation des moteurs de recherche. Par exemple, il est possible de surveiller en permanence les résultats de recherche et les mises à jour du classement pour certains mots clés, ainsi que de collecter des données sur les nouvelles tendances de recherche et le comportement des utilisateurs.
  • Analyse des liens retour: Le scraping web peut être utilisé pour extraire des informations sur les backlinks des sites web pertinents ou concurrents. Ces données peuvent être analysées afin d’identifier de nouvelles opportunités de création de liens et d’évaluer la qualité des liens existants (services tels que Semrush/Seozoom).
  • Récupération de contenu: lorsqu’elle est utilisée de manière éthique et conforme, la récupération de contenu sur le web peut vous permettre de rassembler du contenu pertinent à partir d’autres sources en ligne afin d’enrichir votre site web d’informations supplémentaires ou de créer un nouveau contenu de haute qualité en intégrant différentes sources.
    En résumé, le web scraping offre aux spécialistes du référencement un ensemble d’outils et de données utiles pour optimiser et améliorer les performances des sites web dans les moteurs de recherche. Toutefois, il est important d’utiliser ces informations de manière responsable et légale afin d’éviter les litiges juridiques ou la pénalisation par les moteurs de recherche.

Screaming Frog et Web Scraping

Après avoir compris l’importance du web scraping, voyons comment exploiter Screaming Frog et extraire des informations précieuses pour améliorer notre stratégie de marketing numérique.

Avec le SEO Spider, vous pouvez perfectionner votre capacité à collecter rapidement et efficacement des données à partir de pages web pour l’analyse de votre site web ou l’élaboration d’un benchmarking très avancé de vos concurrents.

Grâce àXPath et à l’extraction personnalisée, vos analyses ne seront plus jamais les mêmes. De plus, depuis la version 19 de Seo Spider, la fonction “Custom Scraping” est devenue encore plus simple et intuitive, et aucune connaissance préalable n’est nécessaire pour obtenir les résultats souhaités.

utilizzare la custom extraction di screaming frog

Une fois dans la fonction, il suffit de cliquer sur “ajouter” dans le coin inférieur droit et de saisir l’expression de raclage.

la funzione visual della custom extraction del Seo spider screaming frog

Si vous êtes déjà familier avec les expressions Xpath, vous pouvez les saisir directement dans la cellule ‘Enter Xpath’, ou vous pouvez opter pour la version ‘Visual’ de Seo Spider, qui vous permet de comprendre visuellement les informations à extraire en quelques clics grâce au navigateur interne de Screaming Frog.

Utilizzo del browser interno del seo spider per la custom configuration

Ensuite, en sélectionnant l’élément de la page que vous souhaitez extraire, SEO Spider mettra en évidence la zone de la page et créera une variété d’expressions suggérées (vous les trouverez à droite) et un aperçu de ce qui sera extrait sur la base du HTML brut ou rendu.

Esempio della visual extraction con screaming frog

Dans l’exemple ci-dessus, j’ai sélectionné les prix des produits (en cliquant sur les prix) et, comme vous pouvez le voir à droite, le SEO Spider a saisi la syntaxe correcte pour l’extraction.

Il y a essentiellement quatre extractions disponibles (“date”) :

  1. Extraire l’élément HTML : l’élément sélectionné et tout son contenu HTML interne.
  2. Extraire le HTML interne : Le contenu HTML interne de l’élément sélectionné. Si l’élément sélectionné contient d’autres éléments HTML, ceux-ci seront inclus.
  3. Extraire le texte: le contenu textuel de l’élément sélectionné et le contenu textuel de tout élément enfant.
  4. Valeur de la fonction: le résultat de la fonction fournie, par exemple count(//h1) pour connaître le nombre de balises h1 sur une page.
La scheda dedicata alla custom extraction sul seo spider

Une fois le crawl traité, les détails de l’extraction personnalisée se trouvent dans l’onglet prévu à cet effet ; s’il y a plus d’une extraction, vous pouvez utiliser les filtres pour passer d’une extraction à l’autre.

Récupération des SERP sur le web

Outre le web scraping interne ou vers des sites concurrents spécifiques, il est également possible d’effectuer des extractions sur des annuaires et sur le moteur de recherche lui-même. Cette activité, qui doit toutefois être menée avec prudence afin de ne pas être interdite, est très utile, par exemple, pour recueillir des données sur le classement de certains mots clés stratégiques.

Screaming Frog ne remplace pas des services tels que Semrush ou Seozoom, mais pour les mots-clés à classer, il peut être un bon outil pour vérifier le positionnement des concurrents, les caractéristiques des sites les plus performants, etc.

  • La première étape consiste à créer une URL de recherche Google qui sera analysée par le robot de recherche. Cette étape peut être réalisée simplement en utilisant le formulaire Google Spreadsheet suivant.
  • La deuxième étape consistera à configurer le SEO Spider de manière appropriée :
    • Utilisez le rendu JS.
    • Définissez ‘Ignorer Robots.txt’.
    • Utilisez l’agent utilisateur “Chrome”.
    • Diminuer la vitesse de balayage (Max Threads = 1 | Max URI/s = 0.5)

Il est conseillé d’enregistrer cette configuration en tant que nouveau “profil” pour l’utiliser en cas de besoin.

Comment créer un profil personnalisé avec Screaming Frog.

Grenouille hurlante SetUP

Après avoir terminé la phase de configuration technique de Screaming Frog, il est temps de définir la syntaxe pour l’extraction des données personnalisées du serp via un scan en mode ‘Liste’.

Modalità list per la scansione delle parole chiavi con il seo spider

Par défaut, en traitant un crawler avec les URLs générées en mode liste, vous obtiendrez déjà des résultats intéressants en regardant l’onglet inférieur ‘Outlinks’ dans lequel vous trouverez les URLs positionnées pour cette requête spécifique.[To] Comme vous le verrez, il y aura de nombreuses références à des liens Google. Il est donc conseillé d’utiliser le filtre dans l’onglet inférieur et de saisir la syntaxe “TO” ne contient pas Google (“Not Contains ‘Google'”).

uso dei filtri di Screaming Frog per trovare competitors in Serp con modalità List

En plus de cette fonction de base, nous pouvons élaborer des audits seo plus avancés du Serp à l’aide d’une extraction personnalisée, par exemple de ‘Also people Ask’, de featured snippets, de la présence de vidéos ou d’autres caractéristiques définissant le type de Serp. Vous pouvez trouver les syntaxes XPath en utilisant le navigateur interne de Seo Spider.

Web Scraping sur le terrain

L’objectif de ce test est d’extraire les données “People also Ask” du SERP. Notre question de référence sera :“Qu’est-ce que le référencement?

  • Nous entrons cette Url générée avec notre ‘Url generator : https://www.google.it/search?q=cose+la+seo.
  • > > Ouvrez Config Custom Custom Extraction et utilisez le navigateur interne.
Utilizzo della custom extraction con il Seo spider di una query in serp
  • Lancez l’analyse (mode liste) et consultez les données dans l’onglet Extraction personnalisée.

De la même manière, il sera possible d’extraire de manière très simplifiée toutes les autres caractéristiques de Google et d’obtenir une vue d’ensemble granulaire avancée pour nos audits Seo !

N’OUBLIEZ PAS : Le module que vous avez utilisé précédemment contient certaines syntaxes XPath déjà configurées, mais comme le moteur de recherche est constamment mis à jour, il se peut qu’elles ne renvoient pas des résultats fiables ; je vous conseille donc de toujours utiliser le navigateur interne pour ces analyses !

Seo Spider Tab