Problemas de auditoria de Seo Spider

Averigua cómo manejar los posibles problemas de rastreo de la araña Seo.

Introducción

A veces puede ocurrir que Screaming Frog realice un rastreo de una sola página o no escanee como se esperaba.

En ese caso, lo primero que hay que comprobar es el “Estado” y el “Código de Estado” de los recursos devueltos para identificar el problema y solucionarlo.

Bloqueado por Robots.txt

El filtro define todas las URL bloqueadas por el robots.txt del sitio que no permiten a la araña escanear esos recursos y, en consecuencia, no pueden indexarlos en los motores de búsqueda.

Pagina bloccata dal file Robotx.txt

Cada respuesta “0” en la columna Código de estado identifica la falta de respuesta HTTP del servidor, la columna Estado identifica el motivo. En el ejemplo anterior, el agente de usuario de la araña ha sido bloqueado por el robots.txt mediante la directiva “disallow”, y al estar bloqueado, no puede ver la respuesta HTTP.

Qué hacer

> > > En el caso de recursos bloqueados por robots, es posible configurar la Araña Seo para que los ignore mediante Configuración Robots.txt Ajustes Ignorar Robots.txt o personalizándola. Por defecto, Screaming Frog sigue las indicaciones “disallow” del archivo robots.txt.

Error en la búsqueda DNS

Identifica que el sitio no se encontró en absoluto debido a un error de entrada de dominio o a la falta de conexión a la red.

Qué hacer

Comprueba que el sitio se ha escrito correctamente y es visible en tu navegador. Si el sitio no puede visualizarse a través del navegador, puede haber problemas de conectividad; si, por el contrario, el sitio se visualiza correctamente en el navegador, debes comprobar si hay algún antivirus o cortafuegos bloqueando el Seo Spider.

Problemi di Dns durante richiesta di scansione da parte del crawler

Tiempo de espera de la conexión

Identifica que Screaming Frog solicitó la respuesta HTTP al servidor pero no recibió respuesta en 20 segundos. Para solucionar el problema, es posible aumentar el “Tiempo de espera de respuesta” desde las configuraciones o disminuir la velocidad de la araña (bajando la Velocidad) para no cargar el Servidor y darle más tiempo para responder.

Connessione in Timeout del server durante richiesta del crawler

Qué hacer

Comprueba los tiempos de carga del sitio en tu navegador; si son muy largos, puedes cambiar el tiempo de ‘Timeout’ en el Seo Spider y disminuir la velocidad del rastreador para aligerar el servidor.

Comprueba si puedes escanear otros sitios con Screaming Frog. Si el problema es generalizado, puede haber un problema con el Antivirus y el Cortafuegos. Intenta en este caso crear una excepción a la exploración Screaming Frog. Si esto tampoco resuelve el problema, probablemente haya un problema de red o local. > > Por ejemplo, comprueba si el proxy está activado (Configuración Sistema Proxy y si lo está, prueba a desactivarlo y reinicia el rastreo.

Conexión rechazada

Se devuelve cuando el intento de conexión de la araña Seo fue rechazado en algún punto entre la máquina local y el sitio web.

Connessione rifiutata dal server

Qué hacer

¿Puedes escanear otros sitios web? Si la respuesta es afirmativa, comprueba el Antivirus y el Cortafuegos y crea una excepción para la Araña, si el problema es común a otros sitios comprueba que no haya un problema de red o local en tu PC.

¿Puedes visualizar la página en el navegador o devuelve un error similar? > Si se puede ver la página, cambia el user-agent y utiliza “Chrome” (Configuración User-Agent).

Sin respuesta

La Araña Seo tiene problemas para establecer conexiones o recibir respuestas. Un problema común podría ser el proxy.

No Response ottenuto da Screaming Frog durante la scansione di una pagina

Qué hacer

> > La primera comprobación se refiere al proxy (Configuración Sistema Proxy), donde puedes intentar desactivarlo. Si no está configurado correctamente, podría significar que la Araña Seo no está enviando/recibiendo peticiones correctamente.

Éxito (2xx)

la URL solicitada ha sido recibida, comprendida, aceptada y procesada correctamente. La comprobación que te sugiero que hagas se refiere a la presencia del atributo “noFollow

Qué hacer

  • ¿La página solicitada tiene la directiva meta robots “nofollow” en la página/cabecera HTTP o todos los enlaces de la página tienen atributos rel=”nofollow”? > En este caso, simplemente configura la Araña Seo para que siga a Nofollow Interno/Externo ( Configuración de la Araña). Esta criticidad se debe a que Screaming Frog sigue por defecto las indicaciones “nofollow”.
  • ¿El sitio web tiene enlaces JavaScript? Prueba a desactivar Javascript y muestra las páginas en el navegador. > > > Si te encuentras en este caso, simplemente activa la renderización JavaScript (Configuración Araña Renderización JavaScript). Por defecto, la Araña Seo sólo escanea los enlaces <a href=””>, <img src=””> e <enlace rel=”canonical”> en el código fuente HTML y no lee el DOM.
  • > Comprueba la pestaña “Límites” de la “Araña de Configuración”, en particular las opciones “Limitar profundidad de búsqueda” y “Limitar búsqueda total”. Si se ajustan a 0 ó 1 respectivamente, entonces se indica a la Araña Seo que escanee sólo una URL.
  • ¿El sitio requiere cookies? Prueba a ver tu página con el navegador y las cookies desactivados. Esta condición se produce porque a la Araña Seo se le sirve una página diferente sin hipervínculos en el caso de las cookies desactivadas. > > > Para solucionar este problema de escaneado ve a Configuración Araña Pestaña Avanzado Permitir Cookies
  • ¿Qué se especifica en la columna “Contenido”? > > > Si no hay contenido, activa la renderización JavaScript (Configuración Spider Rendering JavaScript) e intenta rastrear de nuevo. Esta criticidad se produce si no se especifica ningún tipo de contenido en la cabecera HTTP, y la araña Seo no sabe si la URL es una imagen, un PDF, una página HTML, etc., por lo que no puede buscar otros enlaces. <> <> Esto se puede evitar con el modo de renderizado, ya que la herramienta comprueba si se ha especificado un meta http-equiv en la cabecera del documento cuando está activado.
  • ¿Hay alguna restricción debido a la edad? > En este caso, prueba a cambiar el user-agent a Googlebot (Configuración User-Agent). El sitio/servidor puede configurarse para servir HTML a los robots de búsqueda sin necesidad de introducir la edad.

Redireccionamiento (3xx)

se ha encontrado una redirección como 301 o 302. Lo ideal es que cada enlace interno enlace a una respuesta con código de estado 200 y evitar enlaces que hagan que la araña tome medidas adicionales para salvaguardar el presupuesto de rastreo.

url che rispondono con status code 3xx

Qué hacer

  • Comprueba el destino de la redirección (Comprueba los outlinks de la URL devuelta). Si encuentras una condición de bucle, la Araña Seo no puede hacer una exploración completa.
  • Pestaña externa: la araña seo trata varios subdominios como externos y no los escanea por defecto. Para resolver esta condición, activa la opción escanear todos los subdominios. > > Configuración Araña Escanea todos los subdominios.
  • ¿El sitio requiere cookies? Prueba a desactivar las cookies de tu navegador, si te encuentras con el problema activa la función “Permitir cookies” en Seo Spider. > > > Configuración Araña Pestaña Avanzado Permitir cookies. Esta condición se produce porque la Araña SEO es redirigida a una URL donde se deja una cookie, pero no acepta cookies.

Petición errónea | 403 Prohibido

El servidor no puede o no quiere procesar la solicitud y está denegando la petición de la araña SEO de mostrar la URL solicitada.

Qué hacer

  • > Si la página se puede ver a través de tu navegador, prueba a establecer Chrome como agente de usuario (Configuración User-Agent). Es probable que el sitio deniegue la página a nuestra araña Seo por motivos de seguridad.
  • Si la página devuelve un error 404, el servidor está indicando que ya no existe. Si incluso cambiando el user-agent en Chrome te encuentras en las mismas condiciones, es presumiblemente un problema con el sitio web, de lo contrario, si con Chrome se devuelve la página (o puedes verla con el navegador) y puedes empezar a rastrear, probablemente el servidor estaba bloqueando nuestro user-agent por un problema de seguridad.
  • Si la página muestra el error 429, significa que se han realizado demasiadas peticiones al servidor en un determinado periodo de tiempo.

Qué hacer

¿Puedes visualizar tu sitio en el navegador o muestra un mensaje de error similar? En este caso, puedes reducir la velocidad de rastreo y/o probar un agente de usuario diferente, como Chrome o Googlebot.

Error del servidor (5xx)

El servidor no atendió una petición aparentemente válida. Esto puede incluir respuestas comunes como 500 Errores Internos del Servidor, 502 y 503 Servidor No Disponible.

Pagine con errore del server 503

Qué hacer

  • ¿Puedes ver tu sitio en el navegador o está caído? > Si se puede ver la página, cambia el user-agent y utiliza Chrome como agente de usuario (Configuración User-Agent).
Ficha Seo Spider