Web scraping

Aprende a utilizar el web scraping y la extracción personalizada para realizar análisis avanzados.

Screaming Frog, Guide e tutorial avanzati

ÍNDICE:

Raspado web y extracción personalizada

Veamos cómo puedes utilizar Screaming Frog para hacer Web Scraping utilizando la función Extracción Personalizada (Búsqueda Avanzada).

Mediante esta funcionalidad puedes recuperar cualquier dato HTML de una página web utilizando CSSPath, XPath y RegEX.

La extracción se realiza sobre el HTML estático de las URL escaneadas por la Araña SEO que responden con un código de estado 200 ‘OK’.

Si quieres hacer extracciones a partir de datos renderizados, puedes activar el modo “Javascript renderizado”.

  • 1. Configurar la extracción personalizada

> > Para configurar tu búsqueda personalizada, ve a Configuración Extracción personalizada.

Mediante esta función puedes establecer hasta 100 solicitudes de extracción de datos personalizadas.

funzione di custom extraction con screaming frog

Instrucciones Css, XPath y Regex

  • 2. Selecciona la ruta CSS, XPath o Regex que se utilizará para el scraping

La Araña Seo ofrece tres oportunidades para raspar datos en sitios web:

  • XPath: mediante XPath puedes seleccionar nodos de un documento para consultarlos utilizando selectores XPath, incluidos los atributos.
  • Ruta CSS: esta opción es la más rápida de los métodos mencionados y permite el scraping utilizando selectores de Ruta CSS.
  • Regex: esta consulta de datos utiliza expresiones regulares RegEx y se recomienda para usos avanzados, como el raspado de comentarios HTML o JavaScript en línea.

Al optar por XPath o CSS Path para consultar el HTML, puedes elegir entre varios filtros Seo Spider:

  • Extraer elementos HTML: recoge la información del elemento seleccionado y todo su contenido HTML interno.
  • Extraer HTML interno: recoge el contenido HTML interno del elemento seleccionado. Si, por ejemplo, el elemento seleccionado contiene otros elementos HTML, éstos también se incluirán.
  • Extraer texto: recoge el contenido textual del elemento seleccionado y de su subelemento.
  • Valor de la función: devuelve el número total del elemento solicitado, por ejemplo, si buscas cuántos h3 hay en una página puedes utilizar “count(//h3)”.

Inserción sintáctica

  • 3. Introduce tu sintaxis

Una vez elegido el modo de raspado, sólo queda definir la sintaxis de extracción. Para encontrar la ruta CSS o Xpath correspondiente, sólo tienes que abrir la página web en Chrome e “inspeccionar” el elemento deseado, luego hacer clic con el botón derecho y copiar la ruta de selección correspondiente que se proporciona.

Ejemplo:
Echemos un vistazo al blog Screaming Frog.

Abre cualquier entrada de blog en Chrome, haz clic con el botón derecho del ratón e “inspecciona el elemento” en el nombre del autor.

Haz clic con el botón derecho del ratón en la línea HTML correspondiente (con el nombre del autor), copia la ruta CSS o XPath correspondiente y pégala en el campo correspondiente del Seo Spider.

>Si la sintaxis introducida es válida (.autor-detalles-social a) verás una marca verde junto a tu entrada, de lo contrario aparecerá una advertencia con una cruz roja identificando que la sintaxis no se considera correcta.

Una vez completado esto, simplemente pulsa el botón “ok” e inicia el rastreo.

Para aprender más sobre selectores CSS y XPath, te recomiendo que sigas w3schools.

Escanea el sitio web

Una vez introducida y validada la sintaxis, sólo tienes que escanear el sitio web para empezar a raspar.

Visualiza los datos de raspado en la pestaña “Extracción personalizada”.

Los datos de raspado web están a tu disposición en tiempo real durante el escaneado, en la pestaña “Extracción personalizada” y en la pestaña “Interna”.

En nuestro ejemplo, se inició un escaneo completo de un sitio web, pero si quieres hacer scraping de una lista específica de URLs, puedes decidir utilizar el modo de escaneo “Lista”.

Los campos de aplicación son infinitos y dependen del tipo de análisis que se realice; esta funcionalidad puede ser muy útil, por ejemplo, para recopilar ID de Analytics o GTM, metaetiquetas sociales, valores de atributos Hreflang, precios de productos de comercio electrónico, algunos precios con descuento, etc.

Pestaña relacionada: Extracción personalizada

Raspando la intención de búsqueda

Raspando ‘La gente también pregunta

Screaming Frog, Guide e tutorial avanzati

ÍNDICE:

Ficha Seo Spider