Raspado web
El concepto de web scraping tiene sus raíces en el inglés «to scrape» y adopta la forma de una metodología particular destinada a recoger datos e información directamente de las páginas web o de la serp para catalogarlos y almacenarlos en una base de datos.
En algunos casos, todavía muy frecuentes, el web scraping se utiliza para recopilar nombres, apellidos y datos sensibles para utilizarlos como bases de datos para marketing, pero esta actividad debe considerarse ilegal.
En otros casos, esta actividad puede utilizarse para campañas de phishing, robo de identidad o violación de derechos de autor.
A pesar de estos excesos en su uso, el Web Scraping no se considera ilegal y permite encontrar datos muy importantes en los análisis SEO y para todo el Marketing Digital en general.
Marketing Digital y Scraping
Tras años en los que esta actividad estaba supeditada a conocimientos informáticos de nivel medio-alto, ahora existen herramientas sin código que permiten obtener resultados notables en cuanto a la extracción de datos.
En la base del Web Scraping hay un estándar llamado XPath, que permite localizar y, por tanto, gestionar los distintos nodos de un documento Html con bastante facilidad.
Web Scraping y SEO
El raspado web ofrece varias ventajas para la optimización de motores de búsqueda (SEO):
- Investigación de palabras clave: el web scraping permite recopilar una gran variedad de datos, incluidos los de las palabras clave utilizadas por los competidores o que se encuentran en las páginas web de los sitios más relevantes para un sector determinado. Esta información puede utilizarse para identificar nuevas oportunidades de palabras clave y mejorar la estrategia SEO (análisis de encabezados, metaetiquetas, etc.).
- Monitorización de la competencia: mediante el web scraping, es posible monitorizar constantemente las actividades de los competidores, incluidos los cambios en sus estrategias SEO, los nuevos contenidos publicados, las actualizaciones algorítmicas de Google y mucho más. Esta información puede ser valiosa para adaptar y optimizar la propia estrategia SEO.
- Actualización de datos: el uso concienzudo de esta actividad mantiene actualizados los datos utilizados para la optimización de los motores de búsqueda. Por ejemplo, es posible supervisar constantemente los resultados de las búsquedas y las actualizaciones de las clasificaciones de determinadas palabras clave, así como recopilar datos sobre nuevas tendencias de búsqueda y el comportamiento de los usuarios.
- Análisis de backlinks: El web scraping puede utilizarse para extraer información sobre backlinks de sitios web relevantes o de la competencia. Estos datos pueden analizarse para identificar nuevas oportunidades de construcción de enlaces y evaluar la calidad de los backlinks existentes (servicios como Semrush/Seozoom).
- Raspado de contenidos: Cuando se utiliza de forma ética y conforme a las normas, el raspado web puede permitirte recopilar contenidos relevantes de otras fuentes en línea para enriquecer tu sitio web con información adicional o crear nuevos contenidos de alta calidad integrando distintas fuentes.
En resumen, el web scraping ofrece a los especialistas en SEO un conjunto de herramientas y datos útiles para optimizar y mejorar el rendimiento de los sitios web en los motores de búsqueda. Sin embargo, es importante utilizar esta información de forma responsable y lícita para evitar litigios o penalizaciones por parte de los motores de búsqueda.
Screaming Frog y Web Scraping
Una vez comprendida la importancia del web scraping, veamos cómo podemos explotar Screaming Frog y extraer información valiosa para mejorar nuestra estrategia de marketing digital.
Con la Araña SEO, puedes perfeccionar tu capacidad de recopilar datos de páginas web de forma rápida y eficaz para analizar tu sitio web o elaborar incluso análisis comparativos muy avanzados de la competencia.
Gracias aXPath y a la Extracción Personalizada, tus análisis nunca volverán a ser los mismos. Además, desde la versión 19 de Seo Spider, la función «Raspado personalizado» es aún más sencilla e intuitiva, y no se necesitan conocimientos previos para conseguir los resultados deseados.

Una vez en la función, simplemente haz clic en «añadir» en la esquina inferior derecha e introduce la expresión de raspado.

Si ya estás familiarizado con las expresiones Xpath, puedes introducirlas directamente en la celda «Introducir Xpath», o puedes optar por la versión «Visual» de la Araña Seo, que te permite comprender visualmente la información a extraer en unos pocos clics utilizando el navegador interno de Screaming Frog.

A continuación, seleccionando el elemento de la página que deseas extraer, la Araña SEO resaltará la zona de la página y creará una serie de expresiones sugeridas (las encontrarás a la derecha) y una vista previa de lo que se extraerá basándose en el HTML sin procesar o renderizado.

En el ejemplo anterior, seleccioné los precios de los productos (hice clic en precios) y, como puedes ver a la derecha, la araña SEO introdujo la sintaxis correcta para la extracción.
Hay esencialmente cuatro extracciones disponibles («fecha»):
- Extraer elemento HTML: El elemento seleccionado y todo su contenido HTML interno.
- Extraer HTML interno: El contenido HTML interno del elemento seleccionado. Si el elemento seleccionado contiene otros elementos HTML, se incluirán.
- Extraer texto: el contenido textual del elemento seleccionado y el contenido textual de cualquier elemento hijo.
- Valor de la función: el resultado de la función proporcionada, por ejemplo count(//h1) para encontrar el número de etiquetas h1 de una página.

Una vez procesado el rastreo, los detalles de la Extracción Personalizada se encuentran en la pestaña correspondiente; si hay más de una extracción, puedes utilizar los filtros para cambiar entre las distintas extracciones.
Web Scraping de SERPs
Además del raspado web interno o a sitios específicos de la competencia, también es posible hacer extracciones en directorios y en el propio buscador. Esta actividad, que sin embargo debe realizarse con cierto cuidado para no ser objeto de una prohibición de IP, es muy útil, por ejemplo, para recopilar datos de clasificación con respecto a determinadas palabras clave estratégicas.
Screaming Frog no sustituye a servicios como Semrush o Seozoom, pero para clasificar palabras clave, puede ser una buena herramienta para comprobar el posicionamiento de los competidores, las características de los sitios con más éxito, etc.
- El primer paso será crear una Url de «consulta de búsqueda en Google» que será escaneada por la Araña Seo. Este paso puede procesarse simplemente utilizando el siguiente formulario de Google Spreadsheet.
- El segundo paso será configurar adecuadamente la Araña SEO:
- Utiliza el renderizado JS.
- Establece ‘Ignorar Robots.txt’.
- Utiliza el agente de usuario «Chrome».
- Disminuye la velocidad de escaneado (Max Hilos = 1 | Max URI/s = 0,5)
El consejo es que guardes esta configuración como un nuevo «perfil» para utilizarlo siempre que sea necesario.
Cómo crear un perfil personalizado con Screaming Frog.
Rana Gritona SetUP
Una vez completada la fase de configuración técnica de Screaming Frog, es hora de definir la sintaxis para la extracción de datos personalizados de la serp mediante una exploración en modo «Lista».

Por defecto, al procesar un rastreador con las URL generadas con el modo Lista, ya obtendrás resultados interesantes al mirar la pestaña inferior «Enlaces salientes», en la que encontrarás las URL posicionadas para esa consulta concreta.[To] Como verás, habrá muchas referencias a enlaces de Google, por lo que el consejo es que utilices el filtro de la pestaña inferior e introduzcas la sintaxis «TO» no contiene Google («Not Contains ‘Google'»).

Además de esta función básica, podemos elaborar auditorías seo más avanzadas de serp utilizando la Extracción Personalizada, por ejemplo, de ‘Also people Ask’, fragmentos destacados, presencia de vídeos u otras características definitorias del tipo Serp. Puedes encontrar las sintaxis XPath utilizando el navegador interno de Seo Spider.
Web Scraping Sobre el Terreno
El objetivo de esta prueba será extraer los datos de «La gente también pregunta» de la serp. Nuestra consulta de referencia será:«¿Qué es el Seo?
- Introducimos esta Url generada con nuestro ‘Generador de Url: https://www.google.it/search?q=cose+la+seo.
- > > Abre Config Extracción Personalizada y utiliza el navegador interno.

- Inicia la exploración (modo lista) y consulta los datos en la pestaña Extracción personalizada.

¡De la misma manera, será posible de forma muy simplificada extraer todas las demás características de Google y obtener una visión granular avanzada para nuestras auditorías Seo!
RECUERDA: El módulo que has utilizado anteriormente tiene algunas sintaxis XPath ya configuradas, pero como el Buscador se actualiza constantemente, puede que no devuelvan resultados fiables, ¡mi consejo es que utilices siempre el Navegador interno para estos análisis!


