Extracción personalizada

Descubre la Extracción personalizada para recoger datos personalizados del código html.

Extracción de datos personalizada

Screaming Frog es una herramienta Seo muy versátil que no sólo devuelve datos y métricas predefinidos, sino que también permite realizar análisis avanzados personalizables. Una de ellas es la “Extracción personalizada”, una función muy potente que te permite recoger todos los datos del html de cada página web (modo sólo texto) o los datos renderizados con el “Modo de renderización Javascript”.

Seo Spider proporciona 3 formas de extraer datos con “Extracción personalizada”:

  1. XPath: selectores XPath;
  2. Ruta CSS;
  3. Regex: para una extracción de datos más avanzada (más información: https://docs.oracle.com/javase/8/docs/api/java/util/regex/Pattern.html)

Si decides aprovechar las dos primeras soluciones “XPath” y “Ruta CSS”, puedes elegir a través de qué elementos extrapolar:

  • Extraer elementos Html: permite recoger datos de los elementos seleccionados y de su contenido interno (“Contenido Html Interno”).
  • Extraer HTML interno: permite extraer el contenido interno de un elemento seleccionado. Si el elemento Html contiene otros elementos Html, los subelementos también estarán a tu disposición.
  • Extraer texto: recoge el contenido textual del elemento seleccionado y el contenido textual de sus subelementos.
  • Valor de la función: Devuelve el resultado de la función proporcionada. <> Si, por ejemplo, utilizas una función como “count(//h1)” obtendrás el número de h1 presentes en la página.
Voce del menu del seo spider per la custom extraction

Una vez que hayas seleccionado “Extracción personalizada”, simplemente haz clic en “Añadir” e introduce tus instrucciones de extracción de datos.

También puedes decidir hacer clic en “Configuración de rastreo” y elegir entre las pestañas de la primera columna de la ventana emergente propuesta por la araña Seo.

Cnfigurazione della funzionalità custom extraction del seo spider

Los datos obtenidos están disponibles en la pestaña “Extracción personalizada” y en la pestaña “Interna” en una columna específica.

Risultati della custom extraction con screaming frog

Ahora que ya sabes cómo configurar la “Extracción personalizada” y comprendes su potencial, veamos algunos ejemplos de aplicaciones que creo que pueden resultarte útiles en tus incursiones en el seo técnico.

Extracción con X-Path

A continuación se muestran algunos ejemplos de extrapolaciones utilizando XPath.

Encabezados: por defecto, la Araña Seo sólo recoge los encabezados principales de la página (H1 y H2), pero para un análisis más específico y completo, puede que también necesites encontrar información específica sobre los demás “encabezados” de la página.

Estrazioni dati attributo hreflang

Descubrir y recoger los distintos tipos (“Types”) en los datos estructurados.

Nota: para la validación de datos estructurados, no es necesario utilizar una “Extracción personalizada”, pero puedes ver los datos en la pestaña “Datos estructurados”.

Recopilación de etiquetas de redes sociales, etiquetas Open Graph y tarjetas de Twitter:

Extraer direcciones de correo electrónico y/o números de teléfono de un sitio web

Extraer determinados fotogramas del sitio web, como Google Tag Manager, vídeos de YouTube.

Extraer contenido de Divs o Spans específicos proporcionando la clase (que debe sustituirse en lugar de ‘ejemplo’)

Este ejemplo recoge los títulos y el número de comentarios de las entradas del blog (tendrás que adaptar las clases específicas de tu sitio web para que funcionen).

estrazione dati customizzata con il seo spider

Extracción con Regex

Las reglas Regex son una herramienta muy potente para recopilar datos con Screaming Frog; veamos algunos ejemplos de aplicación que puedes utilizar inmediatamente en tu próxima Auditoría Seo:

Extracción deID de Google Analytics y Google Tag Manager:

Extracción de Datos Estructurados.

Para extrapolar datos estructurados, hemos visto que también es posible utilizar el modo XPath, pero si éstos tienen formato JSON-LD, es aconsejable utilizar la sintaxis RegEX:

Estrazione dei dati strutturati tramite Regex e funzione seo spider

Extracción de vídeo personalizada

Ficha Seo Spider