Cos’è il Web Scraping?

Scopri cos'è il web scraping e come utilizzare Screaming Frog per reperire informazioni dalla serp.

Web Scraping

Il concetto di web scraping affonda le radici nell’inglese “to scrape” e si configura come una metodologia particolare volta alla raccolta di dati e informazioni direttamente dalle pagine web o dalla serp per catalogarli e archiviarli in un database.

In alcuni casi, ancora molto frequenti, il web scraping viene utilizzato per raccogliere nomi, cognomi e dati sensibili da utilizzare come database per il marketing ma questa attività è da considerarsi illegale.

In altri casi questa attività può essere utilizzata per campagne di phishing, furti d’identità o violazioni del diritto d’autore.

Nonostante questi eccessi nel suo utilizzo il Web Scraping non è considerato illegale e permette di reperire dati molto importanti nelle analisi SEO e in generale per tutto il Digital Marketing.

Digital Marketing e Scraping

Dopo anni in cui questa attività è stata subordinata a conoscenze informatiche di livello medio alto, ora come ora esistono strumenti no-code che permettono risultati notevoli in termini di estrazione dati.

Alla base del Web Scraping c’è uno standard denominato XPath che permette di localizzare e, di conseguenza gestire i diversi nodi di un documento Html in modo alquanto agevole.

Web Scraping e SEO

Il web scraping offre diversi vantaggi per l’ottimizzazione sui Motori di Ricerca (SEO):

  • Ricerca di parole chiave: Il web scraping consente di raccogliere un’ampia varietà di dati, inclusi dati di parole chiave utilizzati dai concorrenti o presenti nelle pagine web dei siti web più rilevanti per un determinato settore. Queste informazioni possono essere utilizzate per identificare nuove opportunità di parole chiave e migliorare la strategia di SEO (analisi heading, meta tag etc.).
  • Monitoraggio dei concorrenti: attraverso il web scraping è possibile monitorare costantemente le attività dei concorrenti, inclusi cambiamenti nelle loro strategie di SEO, nuovi contenuti pubblicati, aggiornamenti algoritmici di Google e altro ancora. Queste informazioni possono essere preziose per adattare e ottimizzare la propria strategia di SEO.
  • Aggiornamento dei dati: un uso consapevole di questa attività consente di mantenere aggiornati i dati utilizzati per l’ottimizzazione dei motori di ricerca. Ad esempio, è possibile monitorare costantemente i risultati di ricerca e gli aggiornamenti di classifica per determinate parole chiave, nonché raccogliere dati su nuove tendenze di ricerca e comportamenti degli utenti.
  • Analisi dei backlink: Il web scraping può essere utilizzato per estrarre informazioni sui backlink provenienti da siti web rilevanti o concorrenti. Questi dati possono essere analizzati per identificare nuove opportunità di link building e valutare la qualità dei backlink esistenti (servizi come Semrush/Seozoom).
  • Scraping di contenuti: Se utilizzato in modo etico e conforme alle normative, il web scraping può consentire di raccogliere contenuti rilevanti da altre fonti online per arricchire il proprio sito web con informazioni aggiuntive o per creare nuovi contenuti di alta qualità integrando le diverse fonti.
    In sintesi, il web scraping offre agli specialisti SEO una serie di strumenti e dati utili per ottimizzare e migliorare le prestazioni dei siti web nei motori di ricerca. Tuttavia, è importante utilizzare queste informazioni in modo responsabile e rispettoso delle normative vigenti per evitare controversie legali o penalizzazioni da parte dei motori di ricerca.

Screaming Frog e Web Scraping

Compresa l’importanza del web scraping vediamo come sfruttare Screaming Frog ed estrarre informazioni preziose per migliorare la nostra strategia di marketing digitale.

Con il SEO Spider potrai affinare la tua capacità di raccogliere dati da pagine web in modo rapido ed efficiente per analisi del tuo sito web o elaborare analisi comparative dei competitors anche molto avanzate.

Attraverso l’XPath e la Custom Extraction le tue analisi non saranno più le stesse. In più, dalla versione 19 del Seo Spider la funzione di “Scraping personalizzato” è diventata ancora più semplice ed intuitiva e non servirà alcuna conoscenza pregressa per ottenere i risultati sperati.

utilizzare la custom extraction di screaming frog

Una volta entrato nella funzione sarà sufficiente cliccare su “add” in basso a destra ed inserire l’espressione di scraping.

la funzione visual della custom extraction del Seo spider screaming frog

Se hai già dimestichezza con le espressioni Xpath puoi inserirle direttamente nella cella “Enter Xpath” oppure puoi optare per la versione “Visual” del Seo Spider che ti permette in pochi click, di comprendere in modo visivo le informazioni da estrapolare utilizzando il browser interno di Screaming Frog.

Utilizzo del browser interno del seo spider per la custom configuration

Successivamente, selezionando l’elemento sulla pagina che desideri estrarre il SEO Spider evidenzierà quindi l’area sulla pagina e creerà una varietà di espressioni suggerite (le troverai a destra) e un’anteprima di ciò che verrà estratto in base all’HTML Raw o renderizzato.

Esempio della visual extraction con screaming frog

Nell’esempio sopra ho selezionato i prezzi dei prodotti (cliccato sui prezzi) e, come vedi a destra il SEO Spider ha inserito la corretta sintassi per l’estrazione.

Le estrazioni a disposizioni (“data”) sono essenzialmente 4:

  1. Estrai Elemento HTML: l’elemento selezionato e tutto il suo contenuto HTML interno.
  2. Estrai HTML Interno: il contenuto HTML interno dell’elemento selezionato. Se l’elemento selezionato contiene altri elementi HTML, saranno inclusi.
  3. Estrai Testo: il contenuto testuale dell’elemento selezionato e il contenuto testuale di eventuali elementi figlio.
  4. Valore della Funzione: il risultato della funzione fornita, ad esempio count(//h1) per trovare il numero di tag h1 in una pagina.
La scheda dedicata alla custom extraction sul seo spider

Una volta elaborato il crawl i dettagli della Custom Extraction la potrai trovare nella tab dedicata; nel caso ci fossero più di una estrazione potrai utilizzare i filtri per switchare tra le diverse estrazioni.

Web Scraping della SERP

Oltre al web scraping interno o verso siti specifici dei competitors è possibile fare estrazioni anche su directory e sullo stesso Motore di Ricerca. Questa attività, comunque da fare con una certa attenzione per non essere bannati l’IP, risulta molto utile ad esempio nella raccolta dati del posizionamento rispetto a certe parole chiavi strategiche.

Screaming Frog non sostituisce servizi come Semrush o Seozoom ma per parole chiavi da rankare può essere un buon strumento per verificare posizionamento dei competitors, caratteristiche dei siti più vincenti etc.

  • Il primo passo sarà quello di creare un “Google Search query” Url che dovrà essere scansionato dal Seo Spider. Questo passaggio può essere elaborato semplicemente utilizzando il seguente modulo di Google Spreadsheet.
  • Il secondo passaggio sarà quello di configurare il SEO Spider in modo opportuno:
    • Utilizzare il rendering JS.
    • Impostare “Ignore Robots.txt”.
    • Utilizzare lo user agent “Chrome”.
    • Diminuire la velocità di scansione (Max Threads = 1 | Max URI/s = 0,5)

Il consiglio è quello di salvare questa configurazione come nuovo “profilo” per utilizzarlo ogni volta necessario.

Come creare un profilo personalizzato con Screaming Frog.

Screaming Frog SetUP

Conclusa la fase di configurazione tecnica di Screaming Frog è tempo di definire la sintassi per l’estrazione dei dati personalizzati dalla serp attraverso una scansione in modalità “List”.

Modalità list per la scansione delle parole chiavi con il seo spider

Di default, elaborando un crawler con le Url generate con la modalità List, otterrai dei risultati già interessanti guardando la tab inferiore “Outlinks” nella quale troverai gli URL posizionati per quella specifica query.
Come potrai constatare ci saranno notevoli riferimenti a collegamenti Google, quindi il consiglio è utilizzare il filtro nella tab inferiore e inserire la sintassi “TO” non contiene Google ([To] Not Contains ‘Google”).

uso dei filtri di Screaming Frog per trovare competitors in Serp con modalità List

Oltre a questa funzione base possiamo elaborare dei seo audit delle serp maggiormente avanzati utilizzando la Custom Extraction ad esempio delle “Also people Ask”, le featured snippet, presenza di video o altro che definisce la tipologia di Serp. Le sintassi XPath le potrai trovare utilizzando il Browser interno del Seo Spider.

Web Scraping On Field

L’obiettivo di questo test sarà quello di estrarre i dati relativi a “People also Ask” dalla serp. La nostra query di riferimento sarà: “Cos’è la Seo“.

  • Inseriamo questa Url generata con il nostro “Url generator: https://www.google.it/search?q=cose+la+seo.
  • Apriamo Config > Custom > Custom Extraction e utilizziamo il browser interno.
Utilizzo della custom extraction con il Seo spider di una query in serp
  • Avviamo la scansione (modalità list) e consultiamo i dati nella tab Custom Extraction.

Nello stesso modo sarà possibile in modo molto semplificato estrarre tutte le altre features di Google ed ottenere una visione d’insieme e granulare avanzata per i nostri Seo Audit!

RICORDA: Il modulo che hai utilizzato precedentemente prevede alcune sintassi XPath già configurate ma essendo il Motore di Ricerca in continuo aggiornamento potrebbero non restituire risultati attendibili, il mio consiglio è utilizzare sempre il Browser interno per queste analisi!

Guide Correlate