¿Qué es el Web Scraping?

Aprende qué es el web scraping y cómo utilizar Screaming Frog para recuperar información de la serp.

Raspado web

El concepto de web scraping tiene sus raíces en el inglés “to scrape” y adopta la forma de una metodología particular destinada a recoger datos e información directamente de las páginas web o de la serp para catalogarlos y almacenarlos en una base de datos.

En algunos casos, todavía muy frecuentes, el web scraping se utiliza para recopilar nombres, apellidos y datos sensibles para utilizarlos como bases de datos para marketing, pero esta actividad debe considerarse ilegal.

En otros casos, esta actividad puede utilizarse para campañas de phishing, robo de identidad o violación de derechos de autor.

A pesar de estos excesos en su uso, el Web Scraping no se considera ilegal y permite encontrar datos muy importantes en los análisis SEO y para todo el Marketing Digital en general.

Marketing Digital y Scraping

Tras años en los que esta actividad estaba supeditada a conocimientos informáticos de nivel medio-alto, ahora existen herramientas sin código que permiten obtener resultados notables en cuanto a la extracción de datos.

En la base del Web Scraping hay un estándar llamado XPath, que permite localizar y, por tanto, gestionar los distintos nodos de un documento Html con bastante facilidad.

Web Scraping y SEO

El raspado web ofrece varias ventajas para la optimización de motores de búsqueda (SEO):

  • Investigación de palabras clave: el web scraping permite recopilar una gran variedad de datos, incluidos los de las palabras clave utilizadas por los competidores o que se encuentran en las páginas web de los sitios más relevantes para un sector determinado. Esta información puede utilizarse para identificar nuevas oportunidades de palabras clave y mejorar la estrategia SEO (análisis de encabezados, metaetiquetas, etc.).
  • Monitorización de la competencia: mediante el web scraping, es posible monitorizar constantemente las actividades de los competidores, incluidos los cambios en sus estrategias SEO, los nuevos contenidos publicados, las actualizaciones algorítmicas de Google y mucho más. Esta información puede ser valiosa para adaptar y optimizar la propia estrategia SEO.
  • Actualización de datos: el uso concienzudo de esta actividad mantiene actualizados los datos utilizados para la optimización de los motores de búsqueda. Por ejemplo, es posible supervisar constantemente los resultados de las búsquedas y las actualizaciones de las clasificaciones de determinadas palabras clave, así como recopilar datos sobre nuevas tendencias de búsqueda y el comportamiento de los usuarios.
  • Análisis de backlinks: El web scraping puede utilizarse para extraer información sobre backlinks de sitios web relevantes o de la competencia. Estos datos pueden analizarse para identificar nuevas oportunidades de construcción de enlaces y evaluar la calidad de los backlinks existentes (servicios como Semrush/Seozoom).
  • Raspado de contenidos: Cuando se utiliza de forma ética y conforme a las normas, el raspado web puede permitirte recopilar contenidos relevantes de otras fuentes en línea para enriquecer tu sitio web con información adicional o crear nuevos contenidos de alta calidad integrando distintas fuentes.
    En resumen, el web scraping ofrece a los especialistas en SEO un conjunto de herramientas y datos útiles para optimizar y mejorar el rendimiento de los sitios web en los motores de búsqueda. Sin embargo, es importante utilizar esta información de forma responsable y lícita para evitar litigios o penalizaciones por parte de los motores de búsqueda.

Screaming Frog y Web Scraping

Una vez comprendida la importancia del web scraping, veamos cómo podemos explotar Screaming Frog y extraer información valiosa para mejorar nuestra estrategia de marketing digital.

Con la Araña SEO, puedes perfeccionar tu capacidad de recopilar datos de páginas web de forma rápida y eficaz para analizar tu sitio web o elaborar incluso análisis comparativos muy avanzados de la competencia.

Gracias aXPath y a la Extracción Personalizada, tus análisis nunca volverán a ser los mismos. Además, desde la versión 19 de Seo Spider, la función “Raspado personalizado” es aún más sencilla e intuitiva, y no se necesitan conocimientos previos para conseguir los resultados deseados.

utilizzare la custom extraction di screaming frog

Una vez en la función, simplemente haz clic en “añadir” en la esquina inferior derecha e introduce la expresión de raspado.

la funzione visual della custom extraction del Seo spider screaming frog

Si ya estás familiarizado con las expresiones Xpath, puedes introducirlas directamente en la celda “Introducir Xpath”, o puedes optar por la versión “Visual” de la Araña Seo, que te permite comprender visualmente la información a extraer en unos pocos clics utilizando el navegador interno de Screaming Frog.

Utilizzo del browser interno del seo spider per la custom configuration

A continuación, seleccionando el elemento de la página que deseas extraer, la Araña SEO resaltará la zona de la página y creará una serie de expresiones sugeridas (las encontrarás a la derecha) y una vista previa de lo que se extraerá basándose en el HTML sin procesar o renderizado.

Esempio della visual extraction con screaming frog

En el ejemplo anterior, seleccioné los precios de los productos (hice clic en precios) y, como puedes ver a la derecha, la araña SEO introdujo la sintaxis correcta para la extracción.

Hay esencialmente cuatro extracciones disponibles (“fecha”):

  1. Extraer elemento HTML: El elemento seleccionado y todo su contenido HTML interno.
  2. Extraer HTML interno: El contenido HTML interno del elemento seleccionado. Si el elemento seleccionado contiene otros elementos HTML, se incluirán.
  3. Extraer texto: el contenido textual del elemento seleccionado y el contenido textual de cualquier elemento hijo.
  4. Valor de la función: el resultado de la función proporcionada, por ejemplo count(//h1) para encontrar el número de etiquetas h1 de una página.
La scheda dedicata alla custom extraction sul seo spider

Una vez procesado el rastreo, los detalles de la Extracción Personalizada se encuentran en la pestaña correspondiente; si hay más de una extracción, puedes utilizar los filtros para cambiar entre las distintas extracciones.

Web Scraping de SERPs

Además del raspado web interno o a sitios específicos de la competencia, también es posible hacer extracciones en directorios y en el propio buscador. Esta actividad, que sin embargo debe realizarse con cierto cuidado para no ser objeto de una prohibición de IP, es muy útil, por ejemplo, para recopilar datos de clasificación con respecto a determinadas palabras clave estratégicas.

Screaming Frog no sustituye a servicios como Semrush o Seozoom, pero para clasificar palabras clave, puede ser una buena herramienta para comprobar el posicionamiento de los competidores, las características de los sitios con más éxito, etc.

  • El primer paso será crear una Url de “consulta de búsqueda en Google” que será escaneada por la Araña Seo. Este paso puede procesarse simplemente utilizando el siguiente formulario de Google Spreadsheet.
  • El segundo paso será configurar adecuadamente la Araña SEO:
    • Utiliza el renderizado JS.
    • Establece ‘Ignorar Robots.txt’.
    • Utiliza el agente de usuario “Chrome”.
    • Disminuye la velocidad de escaneado (Max Hilos = 1 | Max URI/s = 0,5)

El consejo es que guardes esta configuración como un nuevo “perfil” para utilizarlo siempre que sea necesario.

Cómo crear un perfil personalizado con Screaming Frog.

Rana Gritona SetUP

Una vez completada la fase de configuración técnica de Screaming Frog, es hora de definir la sintaxis para la extracción de datos personalizados de la serp mediante una exploración en modo “Lista”.

Modalità list per la scansione delle parole chiavi con il seo spider

Por defecto, al procesar un rastreador con las URL generadas con el modo Lista, ya obtendrás resultados interesantes al mirar la pestaña inferior “Enlaces salientes”, en la que encontrarás las URL posicionadas para esa consulta concreta.[To] Como verás, habrá muchas referencias a enlaces de Google, por lo que el consejo es que utilices el filtro de la pestaña inferior e introduzcas la sintaxis “TO” no contiene Google (“Not Contains ‘Google'”).

uso dei filtri di Screaming Frog per trovare competitors in Serp con modalità List

Además de esta función básica, podemos elaborar auditorías seo más avanzadas de serp utilizando la Extracción Personalizada, por ejemplo, de ‘Also people Ask’, fragmentos destacados, presencia de vídeos u otras características definitorias del tipo Serp. Puedes encontrar las sintaxis XPath utilizando el navegador interno de Seo Spider.

Web Scraping Sobre el Terreno

El objetivo de esta prueba será extraer los datos de “La gente también pregunta” de la serp. Nuestra consulta de referencia será:“¿Qué es el Seo?

  • Introducimos esta Url generada con nuestro ‘Generador de Url: https://www.google.it/search?q=cose+la+seo.
  • > > Abre Config Extracción Personalizada y utiliza el navegador interno.
Utilizzo della custom extraction con il Seo spider di una query in serp
  • Inicia la exploración (modo lista) y consulta los datos en la pestaña Extracción personalizada.

¡De la misma manera, será posible de forma muy simplificada extraer todas las demás características de Google y obtener una visión granular avanzada para nuestras auditorías Seo!

RECUERDA: El módulo que has utilizado anteriormente tiene algunas sintaxis XPath ya configuradas, pero como el Buscador se actualiza constantemente, puede que no devuelvan resultados fiables, ¡mi consejo es que utilices siempre el Navegador interno para estos análisis!

Ficha Seo Spider