Problèmes de crawling de Seo Spider

Découvrez comment gérer les problèmes potentiels liés à l'exploration par Seo Spider.

Intro

Il peut arriver que Screaming Frog n’explore qu’une seule page ou que l’analyse ne se déroule pas comme prévu.

Dans ce cas, la première chose à vérifier est le “statut” et le “code de statut” des ressources renvoyées afin d’identifier le problème et de le résoudre.

Bloqué par Robots.txt

Le filtre définit toutes les URL bloquées par le fichier robots.txt du site qui ne permettent pas au spider de scanner ces ressources et par conséquent ne peuvent pas les indexer sur les moteurs de recherche.

Pagina bloccata dal file Robotx.txt

Chaque réponse “0” dans la colonne Code d’état identifie l’absence de réponse HTTP de la part du serveur, la colonne État identifie la raison. Dans l’exemple ci-dessus, l’agent utilisateur du spider a été bloqué par le fichier robots.txt au moyen de la directive “disallow”, et comme il est bloqué, il ne peut pas voir la réponse HTTP.

Ce qu’il faut faire

> > > Dans le cas de ressources bloquées par des robots, il est possible de configurer le Seo Spider pour qu’il les ignore via Configuration Robots.txt Settings Ignore Robots.txt ou en le personnalisant. Par défaut, Screaming Frog suit les indications ‘disallow’ du fichier robots.txt.

Échec de la recherche DNS

Indique que le site n’a pas été trouvé du tout en raison d’une erreur d’entrée dans le domaine ou d’un manque de connexion au réseau.

Ce qu’il faut faire

Vérifiez que le site a été écrit correctement et qu’il est visible dans votre navigateur. Si le site ne s’affiche pas dans le navigateur, il peut s’agir d’un problème de connectivité ; si, en revanche, le site s’affiche correctement dans le navigateur, vous devez vérifier si un antivirus ou un pare-feu ne bloque pas le Seo Spider.

Problemi di Dns durante richiesta di scansione da parte del crawler

Délai de connexion

Il indique que Screaming Frog a demandé la réponse HTTP au serveur mais n’a pas reçu de réponse dans les 20 secondes. Pour remédier au problème, il est possible d’augmenter le ‘Response Timeout’ à partir des configurations ou de diminuer la vitesse du spider (lowering Speed) pour ne pas charger le serveur et lui donner plus de temps pour répondre.

Connessione in Timeout del server durante richiesta del crawler

Que faire ?

Vérifiez les temps de chargement du site sur votre navigateur ; s’ils sont très longs, vous pouvez modifier le délai d’attente sur le Seo Spider et réduire la vitesse du crawler pour alléger le serveur.

Vérifiez si vous pouvez scanner d’autres sites avec Screaming Frog. Si le problème est généralisé, il peut s’agir d’un problème d’antivirus ou de pare-feu. Essayez dans ce cas de créer une exception à l’analyse de Screaming Frog. Si cela ne résout pas le problème, il s’agit probablement d’un problème de réseau ou d’un problème local. > > Par exemple, vérifiez si le proxy est activé (Configuration Système Proxy et si c’est le cas, essayez de le désactiver et redémarrez l’exploration.

Connexion Refusée

Il est renvoyé lorsque la tentative de connexion du Seo Spider a été rejetée quelque part entre la machine locale et le site web.

Connessione rifiutata dal server

Ce qu’il faut faire

Pouvez-vous scanner d’autres sites web ? Si la réponse est oui, vérifiez l’antivirus et le pare-feu et créez une exception pour le Spider. Si le problème est commun à d’autres sites, vérifiez qu’il ne s’agit pas d’un problème de réseau ou d’un problème local sur votre PC.

Pouvez-vous afficher la page dans le navigateur ou le système renvoie-t-il une erreur similaire ? > Si la page peut être visualisée, modifiez le user-agent et utilisez “Chrome” (Configuration User-Agent).

Pas de réponse

Le Seo Spider a des difficultés à établir des connexions ou à recevoir des réponses. Un problème courant pourrait être le proxy.

No Response ottenuto da Screaming Frog durante la scansione di una pagina

Ce qu’il faut faire

> > La première vérification concerne le proxy (Configuration System Proxy) où vous pouvez essayer de le désactiver. S’il n’est pas configuré correctement, cela peut signifier que le Seo Spider n’envoie pas/ne reçoit pas les requêtes correctement.

Succès (2xx)

l’URL demandé a été reçu, compris, accepté et traité avec succès. La vérification que je vous suggère de faire concerne la présence de l’attribut “noFollow”.

Ce qu’il faut faire

  • La page demandée comporte-t-elle la directive meta robots “nofollow” dans la page/l’en-tête HTTP ou tous les liens de la page ont-ils des attributs rel=’nofollow’ ? > Dans ce cas, réglez simplement le Seo Spider pour qu’il suive Internal/External Nofollow (Configuration du Spider). Cette criticité est due au fait que Screaming Frog suit les indications ‘nofollow’ par défaut.
  • Le site web comporte-t-il des liens JavaScript ? Essayez de désactiver Javascript et d’afficher les pages dans le navigateur. > > > Si vous vous trouvez dans ce cas, activez simplement le rendu JavaScript (Configuration Spider Rendering JavaScript). Par défaut, le Seo Spider n’analyse que les liens <a href=””>, <img src=””> e <link rel=”canonical”> dans le code source HTML et ne lit pas le DOM.
  • > Vérifiez l’onglet “Limites” de “Configuration Spider”, en particulier les options “Limiter la profondeur de recherche” et “Limiter le total de la recherche”. S’ils sont réglés sur 0 ou 1 respectivement, le Seo Spider a pour instruction de n’analyser qu’une seule URL.
  • Le site nécessite-t-il des cookies ? Essayez d’afficher votre page avec le navigateur et les cookies désactivés. Cette situation se produit parce que le Seo Spider reçoit une page différente sans hyperliens dans le cas où les cookies sont désactivés. > > > Pour résoudre ce problème d’analyse, allez dans l’onglet Avancé de l’araignée de configuration Autoriser les cookies.
  • Qu’est-ce qui est indiqué dans la colonne “Contenu” ? > > > S’il n’y a pas de contenu, activez le rendu JavaScript (Configuration Spider Rendering JavaScript) et essayez à nouveau d’explorer. Cette criticité se produit si aucun type de contenu n’est spécifié dans l’en-tête HTTP, et le Seo Spider ne sait pas si l’URL est une image, un PDF, une page HTML, etc. <> <> Ce problème peut être contourné avec le mode de rendu, car l’outil vérifie si une méta http-equiv est spécifiée dans l’en-tête du document lorsqu’elle est activée.
  • Existe-t-il des restrictions liées à l’âge ? > Dans ce cas, essayez de changer le user-agent en Googlebot (Configuration User-Agent). Le site/serveur pourrait être configuré pour servir du HTML aux robots de recherche sans nécessiter d’entrée d’âge.

Redirection (3xx)

une redirection telle que 301 ou 302 a été rencontrée. Idéalement, chaque lien interne devrait renvoyer à une réponse avec le code de statut 200 et éviter les liens qui obligent le robot à prendre des mesures supplémentaires pour préserver le budget d’exploration.

url che rispondono con status code 3xx

Que faire ?

  • Vérifiez la destination de la redirection (vérifiez les liens sortants de l’URL renvoyée). Si vous trouvez une condition de boucle, le Seo Spider ne peut pas effectuer une analyse complète.
  • Onglet externe : le moteur de recherche considère plusieurs sous-domaines comme externes et ne les analyse pas par défaut. Pour résoudre ce problème, activez l’option Analyser tous les sous-domaines. > > Configuration Spider Analyse tous les sous-domaines.
  • Le site nécessite-t-il des cookies ? Essayez de désactiver les cookies dans votre navigateur, si vous rencontrez le problème, activez la fonction “Autoriser les cookies” dans Seo Spider. > > > Configuration Araignée Onglet Avancé Autoriser les cookies. Cette situation se produit parce que le SEO Spider est redirigé vers une URL où un cookie est laissé, mais n’accepte pas les cookies.

Mauvaise demande | 403 Interdit

Le serveur ne peut pas ou ne veut pas traiter la demande et refuse d’afficher l’URL demandée par le SEO Spider.

Ce qu’il faut faire

  • > Si la page peut être vue par votre navigateur, essayez de configurer Chrome comme agent utilisateur (Configuration User-Agent). Le site refuse probablement la page à notre Seo Spider pour des raisons de sécurité.
  • Si la page renvoie une erreur 404, le serveur indique qu’elle n’existe plus. Si, même en changeant le user-agent dans Chrome, vous vous retrouvez dans la même situation, il s’agit probablement d’un problème avec le site web, sinon, si avec Chrome la page est renvoyée (ou si vous pouvez la visualiser avec le navigateur) et que vous pouvez commencer à explorer, le serveur a probablement bloqué notre user-agent pour un problème de sécurité.
  • Si la page affiche l’erreur 429, cela signifie que trop de demandes ont été adressées au serveur dans un certain laps de temps.

Ce qu’il faut faire

Pouvez-vous afficher votre site dans le navigateur ou affiche-t-il un message d’erreur similaire ? Dans ce cas, vous pouvez réduire la vitesse d’exploration et/ou tester un agent utilisateur différent tel que Chrome ou Googlebot.

Erreur de serveur (5xx)

Le serveur n’a pas répondu à une demande apparemment valide. Il peut s’agir de réponses courantes telles que 500 Internal Server Errors, 502 et 503 Server Unavailable.

Pagine con errore del server 503

Ce qu’il faut faire

  • Pouvez-vous voir votre site dans le navigateur ou est-il en panne ? > Si la page peut être visualisée, modifiez l’agent utilisateur et utilisez Chrome comme agent utilisateur (Configuration User-Agent).
Seo Spider Tab