Escanear páginas huérfanas
Una vez comprendida la importancia de identificar las páginas Huérfanas, veamos el procedimiento a seguir con la Araña Seo:
- Configurar el escaneado de sitemaps XML
En primer lugar, debes activar la opción «Rastrear sitemaps XML enlazados» para rastrear el sitemap de tu sitio web.
> > > Configurar Spider Crawl Sitemaps XML enlazados
- Conexión a la API de Google Analytics
Configura la conexión a la API de Google Analytics, para encontrar Páginas Huérfanas a partir de la búsqueda orgánica de una Cuenta, Propiedad o Vista concretas.
Recuerda elegir el segmento «Tráfico orgánico», establecer y personalizar el intervalo de fechas a analizar (Intervalo de datos), que por defecto es de un mes, y definir las métricas y dimensiones de tu interés.
Recuerda activar la opción «Rastrear nuevas URL descubiertas en Google Analytics». Si esta opción está desactivada, las URL descubiertas a través de Google Analytics sólo estarán disponibles en el informe «Páginas huérfanas». No se añadirán a la cola de escaneado, se mostrarán en la interfaz de usuario y aparecerán bajo las pestañas y filtros respectivos.
- 3. Conexión a la API de Search Console
También podrás conectarte a la API de Google Search Console para encontrar todas las páginas que, a pesar de no tener ningún enlace interno al sitio web, están recibiendo Impresiones y Clics en un determinado intervalo de tiempo.
Aquí también es posible cambiar la fecha de referencia en la que se recogen los datos. Al igual que en Google Analytics, si esta opción no está activada, las nuevas URL descubiertas a través de Google Search Console sólo estarán disponibles en el informe «Páginas huérfanas». No se añadirán a la cola de escaneado, se mostrarán en la interfaz de usuario y aparecerán bajo las pestañas y filtros respectivos.
- 4. Inicia la exploración y rellena los datos con el Análisis de rastreo
Una vez completada la fase de configuración, sólo queda ejecutar el escaneo y activar el «Análisis de rastreo» (si no lo has automatizado previamente desde las configuraciones).
Tras completar estas tareas, podrás navegar por cada pestaña y por el filtro «URL huérfanas» correspondiente para ver todas las páginas huérfanas descubiertas.
Pongamos en práctica lo que acabamos de describir escaneando el sitio web de Screaming Frog.
Lo configuramos para rastrear el sitemap XML y conectarlo a la API de Google Search Console.
Mapa del sitio XML

En el ejemplo anterior puedes ver que el sitio Screaming Frog tiene algunas páginas huérfanas (Tab Sitemap) que fueron descubiertas por el rastreo XML Sitemap.
En este caso, las páginas tienen un código de estado 404 y 301 y pueden representar páginas antiguas que no se eliminaron del sitemap XML tras la publicación del nuevo portal.
Consola de Búsqueda API
Al conectar el sitio de Screaming Frog a la API de Search Console (figura siguiente), puedes ver que, a diferencia del caso anterior (análisis con sitemap.xml), las páginas huérfanas siguen estando presentes en el sitio web (código de estado 200) y reciben impresiones de Google a pesar de no tener ningún enlace interno.
Recuerda: ambos conectores de Google permiten la exportación individual de los resultados simplemente mediante el botón «Exportar» de la ventana superior del Seo Spider.
Si prefieres tener una visión general de todas las Páginas huérfanas descubiertas por Google Analytics, Search Console y Sitemap.xml, puedes utilizar el informe «Páginas huérfanas», un documento que encontrarás en el menú principal.
Análisis de la profundidad de rastreo
La última estrategia posible para detectar la presencia de páginas huérfanas (tras la configuración del Sitemap XML, la API de Google Analytics y la API de Search Console) es utilizar la pestaña «Interno», que incluye todas las URL encontradas durante el rastreo y el «Análisis de rastreo».
Las páginas que no se encuentren rastreando los enlaces internos siempre tendrán una «Profundidad de rastreo» vacía.









