Archivo de registro y Seo

Cómo aprovechar los archivos de registro para optimizar el SEO de un sitio web

Screaming Frog, Guide e tutorial avanzati

ÍNDICE:

¿Qué son los archivos de registro?

Cuando hablamos de analizar los registros del servidor web, nos referimos a los registros deacceso.
Los servidores web también producen otros archivos de registro, como los registros de errores, pero para los análisis puramente SEO sólo necesitamos los registros de acceso a un sitio web.

Normalmente, el archivo tendrá una línea por solicitud, que incluirá algunos o todos los datos siguientes:

  • Hora de la solicitud;
  • URL necesaria;
  • Agente de usuario proporcionado durante la solicitud;
  • Código de respuesta del sitio web;
  • Tamaño de la respuesta;
  • Dirección IP del cliente que realizó la petición;
  • Tiempo empleado en atender la solicitud;
  • Referrer, la página que proporcionó el enlace para realizar la petición.

Disponer de un registro preciso de todas las peticiones recibidas por un servidor web es extremadamente útil porque permite un análisis muy eficaz y versátil para encontrar errores, criticidades y evaluar la arquitectura del proyecto.

¿Por qué analizar los Archivos de Registro?

Los archivos de registro son una forma increíblemente potente, pero aún infrautilizada, de obtener información valiosa sobre cómo rastrea tu sitio cada motor de búsqueda.

Por eso, todo seo debería analizarlos, aunque sea difícil obtener los registros de acceso del cliente (y/o del proveedor de alojamiento, del servidor y del equipo de desarrollo).

El análisis de los archivos de registro puede ayudarte a obtener los siguientes resultados:

  1. Comprueba exactamente qué se puede y qué no se puede escanear. Un rastreo es una simulación, mientras que los archivos de registro muestran exactamente lo que se rastreó (la historia completa).
  2. Visualiza las respuestas encontradas por los motores de búsqueda durante su rastreo (y compara los datos en diferentes rastreos a lo largo del tiempo). Con el análisis de los Archivos de Registro, los problemas pueden definirse cualitativamente. Si encuentras varios 404 en tu sitio durante un rastreo, es difícil saber cuáles son los más importantes; analizando los archivos de registro, puedes ver con qué frecuencia se han producido, lo que te ayudará a priorizar su resolución.
  3. Identificar las deficiencias de exploración, que pueden tener implicaciones más amplias a nivel del sitio (como la jerarquía o la estructura de enlaces internos).
  4. Comprueba qué páginas priorizan y consideran más importantes los buscadores y cuáles podrían optimizarse para una frecuencia de rastreo más adecuada. Esta condición se subestima, pero a menudo ocurre que la visión estratégica del sitio web no coincide con las respuestas del motor de búsqueda.
  5. Descubrir áreas de despilfarro en el Presupuesto de arrastre.
  6. Ver URL huérfanas. Si una URL no está enlazada internamente, no se encontrará al escanear el sitio. Las URL enlazadas externamente (o históricamente) se notificarán en los registros, lo que permitirá gestionarlas, optimizarlas o eliminarlas.
  7. La vista cambia con el tiempo. Un rastreo es una instantánea del momento, mientras que los archivos de registro proporcionan información histórica sobre cada recurso.

Analizando estos valiosos datos, podrás preservar el Presupuesto de Rastreo y definir qué elementos están afectando negativamente a la navegación del BOT.
Veamos a continuación algunas críticas muy comunes:

  • Navegación facetada e identificadores de sesión.
  • Contenido duplicado en el sitio.
  • Páginas de error blandas.
  • Páginas pirateadas.
  • Espacios infinitos y proxies.
  • Contenido de baja calidad y spam.

Por lo tanto, es útil evitar malgastar el tiempo y la energía del BOT en escanear URLs de este tipo, ya que reduce la actividad y provoca retrasos en el escaneo de las páginas más importantes.

Analizador de archivos de registro

La base del análisis de los archivos de registro es poder verificar exactamente qué URL han escaneado los robots de los motores de búsqueda. A través del“Analizador de archivos de registro” puedes importar tus archivos de registro simplemente arrastrando y soltando el archivo directamente en la interfaz y comprobar automáticamente los bots de los motores de búsqueda.

Tras la importación, puedes utilizar el filtro “Estado de verificación” para mostrar sólo los bots verificados y el filtro “User-Agent” para obtener “todos los bots” o aislar un bot concreto como “Googlebot” o “Googlebot para smartphones” para un análisis granular.

Tras esta configuración tan sencilla e intuitiva, obtendrás exactamente las URLs que han sido escaneadas por el Bot filtradas en la pestaña “URLs” clasificándolas según el número de eventos generados en un periodo de tiempo determinado.

Log file analyser, importazione dei log

Identificar el valor bajo de la URL

El contenido para seo es uno de los elementos de clasificación más importantes, y comprender qué URL se rastrean y con qué frecuencia puede ayudarte a descubrir posibles áreas de presupuesto de rastreo malgastado que pueden tener “navegación facetada”, ID de sesión o contenido duplicado.

Por ejemplo, mediante la barra de búsqueda de la herramienta, podrías buscar la presencia de un signo de interrogación (?) en la “Ruta URL” (frecuente en el comercio electrónico con filtros), lo que te ayudará a identificar las URL con parámetros quizá no “canonizados” por los que navega con frecuencia el robot de Google.

Url con parametri

Como puedes ver en el ejemplo anterior, la primera entrada generó 57 eventos correspondientes a comentarios de WordPress, así que no es exactamente un recurso de gran valor. En este caso, bastará con desactivar los comentarios para resolver este escenario y salvaguardar el Crawl Budget.

Haciendo clic en la cabecera de la columna “URLs”, será posible ordenarlas alfabéticamente y descubrir URLs que sólo se diferencian por el identificador de sesión o por parámetros que no deberían estar disponibles para el escaneo BOT.

Si haces clic en “Num Eventos”, obtendrás los recursos con mayor y menor frecuencia de exploración en un intervalo de tiempo.

Análisis de la frecuencia de exploración

La frecuencia con la que Googlebot solicita una página se basa en una serie de factores, como la frescura del contenido o el “ranking” atribuido por Google a un recurso en relación con otros. Aunque este concepto está trivializado, es muy útil analizar el número de eventos por URL como indicador para ayudarte a identificar cualquier problema subyacente entre recursos.

A través de los filtros del menú de la barra principal, también podrás elegir qué eventos son generados por la araña individual, considerando también bots como Bing, Yandex u otros que podrían afectar a los datos y crear “falsos positivos” en análisis estratégicos o sobrecargar drásticamente la carga del servidor.

Analisi della Tab URL del software log file analyser

En cambio, si dejas la configuración por defecto “Todos los BOT”, obtendrás una visión general de los eventos procesados por URL y una división de las arañas desplazándote hacia la derecha en la pestaña.

Analisi degli eventi generati da tutti gli Spider con log file analyser

Subdirectorio Frecuencia de exploración

El siguiente paso en el análisis de los archivos de registro es considerar los subdirectorios (Tab Directorio).
De este modo, será posible comprender posibles áreas de rendimiento o áreas a optimizar que quizás presenten criticidades que no permitan al rastreador navegar de forma lineal.

Centrándote en las subcarpetas podrás descubrir cualquier “Área de Residuos”.

Analisi dei file di log delle sotto directory

Contenido de la frecuencia de exploración

Aunque los archivos de registro en sí no contienen un tipo de contenido, el Analizador de Archivos de Registro analiza las URL de los formatos más comunes y facilita el filtrado de la frecuencia de rastreo por tipo de contenido, ya sea HTML, imágenes, JavaScript, CSS, PDF, etc.

Mediante este escenario de análisis, podrás interpretar cuánto tiempo dedica Google proporcionalmente a rastrear cada tipo de contenido.

Analisi dei file di Log suddivisi per tipologia di contenuto

Frecuencia de Escaneado por Agente de Usuario

Otro punto de análisis son las frecuencias de rastreo según los distintos usuarios-agentes, que pueden ayudarte a comprender el rendimiento respectivo de cada motor de búsqueda.

A partir de este índice, se podrá definir el número de URL únicas rastreadas en el periodo de tiempo analizado, lo que dará una indicación aproximada del tiempo que podría tardar cada motor de búsqueda en rastrear todas las URL del sitio. Esto te dará una visión general del “Presupuesto de rastreo” (Crawl Rate) que se dedica a tu proyecto online.

Analisi File di Log attraverso User Agent differenti

Es muy interesante comprender el comportamiento de los distintos bots, pero especialmente vital si el comportamiento de los “Googlebots” y los “Googlebots para smartphones” es diverso. Por ejemplo, puedes saber si hay cuellos de botella en la versión móvil o si el sitio se considera “mobile first indexing”.

Rastreo de URL por día, semana y mes

A través de la función “Visión general” obtendrás un resumen puntual de los acontecimientos generales del periodo seleccionado con un cuadro de mandos muy visual e intuitivo.

Otro punto de vista al analizar los archivos de registro es considerar el número total de URL únicas que se rastrearon, así como el número de URL únicas rastreadas cada día. En este caso, será posible calcular cuántos días tardarán los motores de búsqueda en realizar un rastreo completo de todas tus URL.

Tab Panoramica di Log File Analyser

El panel de control permite exportar los datos del gráfico en formato “.csv” y, pasando por encima de los nodos del gráfico, ver granularmente los resultados del registro según distintos usuarios-agentes o códigos de estado.

Análisis 404 y Errores del Servidor

Los registros permiten analizar rápidamente el último código de respuesta que han encontrado los buscadores para cada URL rastreada.

En la pestaña “códigos de respuesta”, puedes utilizar el filtro para mostrar errores de cliente 4XX para descubrir enlaces rotos, o errores de servidor 5XX.

También es posible ver qué URL son potencialmente más importantes de corregir, ya que están ordenadas según la frecuencia de rastreo.

Análisis 404: ¿Sapo gritón o archivo de registro?

Screaming Frog te permite analizar todos los enlaces presentes y cualquier error 404 entre enlaces internos o a recursos externos, pero se limita a eso.

Los archivos de registro también pueden utilizarse para identificar URL que ya no están presentes en el proyecto analizado, pero que pueden haber estado indexadas en la base de datos de Google en versiones anteriores del sitio web (no cubiertas por migraciones seo anteriores).

Analisi degli errori 404 attraverso i file di Log

En esta fase del análisis, es importante acordarse de marcar la casilla “última respuesta” junto al filtro 4xx, ya que, de lo contrario, el “Analizador de archivos de registro” presentará todas las URL que tengan un evento correspondiente en el tiempo (en lugar de sólo la “última respuesta” /“Última respuesta“), dando a veces un resultado no conforme, ya que el error puede haberse resuelto ya desde el primer día en que se registraron los archivos de registro.

Respuestas incoherentes

Un filtro muy interesante, que se hace eco del punto anterior, es “incosistente”, que te ayuda a identificar qué recursos tienen respuestas incoherentes entre los resultados; por ejemplo, porque un enlace roto se corrigió más tarde, o porque el sitio tiene más errores internos de servidor en condiciones de carga y hay un problema intermitente que hay que investigar.

Utilizzo del filtro Incosistent con Log file analyser

Redireccionamiento de auditoría

A través de los registros de log, será posible ver todas las URL que los buscadores solicitan y reciben una redirección como respuesta.

Esto no sólo incluye las redirecciones en el sitio, sino también las redirecciones históricas, que se siguen solicitando de vez en cuando, quizás debido a migraciones anteriores.

Para mostrar las URL con código de estado 3xx, bastará con utilizar la pestaña correspondiente con el filtro “Redirección (3XX)”, junto con la casilla “Última respuesta”.

Bot Suplantado

La pestaña IP y el filtro “estado de verificación” configurado como “falsificado” permiten mostrar rápidamente las direcciones IP de las solicitudes que emulan robots de motores de búsqueda, utilizando su cadena de agente de usuario, pero sin verificarlas. A través de estos datos, será posible bloquear las exploraciones y liberar así de trabajo al servidor.

Identificazione bot spoofed

Si cambias el filtro “estado de verificación” a “verificado”, podrás mostrar todas las IP de los robots verificados del motor de búsqueda. Esto puede ser útil cuando se analizan sitios web que tienen páginas aptas para la localización y que sirven contenidos diferentes según el país.

Identificar páginas grandes

Otro elemento muy importante al analizar los archivos de registro son los diferentes tiempos de respuesta de los recursos individuales a las peticiones de los bots.

Las páginas muy pesadas y de bajo rendimiento tienen un impacto considerable en el presupuesto de rastreo, de modo que analizando los “bytes medios” de las URL, será rápido y fácil identificar las áreas que hay que optimizar.

Analisi del peso medio delle pagine attraverso i file di log

Análisis de archivos de rastreo frente a archivos de registro

Uno de los análisis más interesantes de los archivos de registro es compararlos con los datos obtenidos mediante un rastreo. Mediante esta comparación podrás saber si determinadas URL o zonas enteras de tu sitio no son escaneadas por la araña.

Sólo tienes que descargar las URL obtenidas con un escaneado de Screaming Frog en formato “.csv” e importarlas al Analizador de Archivos de Registro. Utilizando el filtro“No en Archivo de Registro” de la pestaña URL, podrás encontrar fácilmente las áreas sobre las que puedes intervenir para mejorar la navegabilidad por el BOT, como por ejemplo los Enlaces Internos.

Analisi Url non presenti nei log file

Invirtiendo el análisis‘No en URL DATA‘, habrá URLs presentes en las navegaciones del Bot pero no en el escaneo de Screaming Frog; en este escenario encontrarás todas las apariciones de direcciones que ya no están presentes o páginas Huérfanas que no están enlazadas, pero están presentes en el sitio analizado. Este último punto también puede analizarse con las API de Ga4 y Search Console, que permiten encontrar recursos que reciben impresiones o visitas sin estar enlazados internamente (por ejemplo, páginas con enlaces desde sitios externos).

Hacking y archivos de registro

Los archivos de registro son esenciales en caso de piratería informática o malware en el sitio. Muchas veces uno se da cuenta de que un proyecto online se ha visto comprometido demasiado tarde, quizás por las advertencias de la consola de búsqueda o por una caída drástica en Serp debido a penalizaciones manuales.

En este caso, el escaneado y eliminación de las URL comprometidas (‘410’-desaparecidas) puede no ser suficiente (solución instantánea), y los archivos de Registro te permitirán ver cuál es el daño real del ciberataque al Buscador y obtener una visión completa de las páginas o carpetas creadas que seguirían haciendo daño si no se eliminan por completo.

Un caso muy frecuente podría ser un archivo de código ‘.php’ u otra cosa que genere intermitentemente nuevos recursos de spam; en este caso, el escaneado por sí solo sería insuficiente, mientras que a través de los archivos de registro tendrías varias alertas a lo largo del tiempo con el tiempo correspondiente para resolverlas.

Páginas más rastreadas

Después de este estudio en profundidad, seguro que habrás comprendido la importancia de los Archivos de Registro, pero también me gustaría llamar tu atención sobre otro aspecto distinto de la mera búsqueda de errores.

El conocimiento de los registros te da una visión de 360° de las estrategias y la arquitectura del sitio web. De hecho, podrías comparar las Páginas Top de los buscadores (basadas en eventos) y cuáles deberían ser tus páginas más visitadas. Si hay incoherencias, podrás realizar inmediatamente cambios en los Enlaces Internos o reestructurar tu arquitectura o la “Profundidad de rastreo” de los recursos individuales y, a continuación, enviar un nuevo mapa del sitio a la espera de la respuesta del Bot.

Screaming Frog, Guide e tutorial avanzati

ÍNDICE:

Ficha Seo Spider