TABLA DE CONTENIDO

Comprobación de contenido duplicado, páginas similares y elementos de poco valor.

Visión general
Contenido de la pestaña

La pestaña “Contenido” muestra datos sobre el contenido de las URL descubiertas durante el escaneado en términos de recuento de palabras, contenido duplicado y casi duplicado, y errores ortográficos y gramaticales.

  • Dirección: la dirección de la URL.
  • Recuento de palabras: este índice identifica la suma de todas las “palabras” escaneadas dentro de la etiqueta body, excluyendo el marcado HTML.
    > > El recuento se basa en el área de contenido definida por el Seo Spider, pero también puedes personalizarla desde “Config Área de Contenido”.
    <> <> Por defecto, se excluyen los elementos nav y pie de página.
    Para un análisis más analítico, puedes decidir incluir o excluir elementos HTML, clases e IDs. Puede haber discrepancias entre los valores comunicados por Screaming Frog y un cálculo manual de los mismos. Estas incoherencias se deben a que el analizador sintáctico realiza algunas correcciones cuando se encuentra con HTML no válido. No subestimes ninguna configuración personal de renderizado que también pueda influir en qué HTML se tiene en cuenta. Screaming Frog cuenta una palabra tomando el texto y dividiéndolo por espacios sin tener en cuenta la visibilidad del contenido (como el texto dentro de un div configurado como oculto).
  • Coincidencia de máxima similitud: a través de esta función puedes ver el índice de similitud entre varias páginas y evitar situaciones de duplicación. Utilizando los umbrales por defecto, la Araña Seo identifica el contenido “casi duplicado” si tiene una coincidencia del 90% o más. > > > > El umbral puede personalizarse desde:Config Contenido Duplicados Activar Casi duplicados Umbral de similitud de casi duplicados (definición de un nuevo umbral).Para rellenar esta columna debes utilizar el “Análisis de rastreo”. Sólo las URL con contenido superior al umbral de similitud seleccionado contendrán datos, las demás permanecerán vacías. En resumen, por defecto, esta columna sólo contendrá datos de las URL con un 90% o más de similitud.
  • No. Casi duplicados: identifica el número de URL casi duplicadas descubiertas en un rastreo que cumplen o superan el “Umbral de similitud casi duplicada”, que es una coincidencia del 90% por defecto. > > Puedes ajustar esta configuración desde ‘Config Duplicados de contenido’. Para rellenar esta columna, tienes que activar la función “Activar casi duplicados” y realizar el “Análisis de rastreo”.
  • Total de errores lingüísticos: el número total de errores ortográficos y gramaticales descubiertos para una URL. Para que se rellene esta columna, se debe seleccionar “Activar revisión ortográfica” y/o “Activar revisión gramatical”.

> > Config Contenido Ortografía y Gramática

  • Errores ortográficos: el número total de errores ortográficos descubiertos para una URL. Para que se rellene esta columna, debes activar “Activar la corrección ortográfica”.
  • Errores gramaticales: identifica el número total de errores gramaticales descubiertos para una URL. Para que se rellene esta columna, debe estar seleccionada la opción “Activar comprobación gramatical”. En los ajustes puedes definir el idioma de control, definir las reglas gramaticales y el diccionario de referencia.
    Para buscar errores gramaticales y ortográficos en la pestaña inferior de la Araña Seo, sólo tienes que seleccionar las URL en la columna correspondiente de la pestaña “Interna” (ventana superior).
    Excelente funcionalidad para que el redactor detecte errores tipográficos o de uso de las reglas gramaticales. Además de la lista de errores, hay sugerencias de corrección y la sección del sitio web donde se encontraron con una vista previa. Para la lengua italiana, sigue siendo poco fiable en las sugerencias, pero muy útil en cuanto a errores de escritura gracias al diccionario.
  • Idioma: muestra el idioma elegido para las comprobaciones ortográficas y gramaticales. Este índice se basa en el atributo de idioma establecido en el HTML. El idioma también se puede ajustar mediante.

> > Config Contenido Ortografía y Gramática

  • Hash: considera el valor hash mediante el algoritmo MD5 de la URL. Este índice es una comprobación del contenido duplicado exacto, a diferencia de la pestaña “Coincidencia más parecida”, en la que se explicita un umbral de similitud. Ten en cuenta que si dos valores hash coinciden, las páginas tienen exactamente el mismo contenido. Si hay una diferencia de un solo carácter, tienen valores hash únicos y no se detectarán como contenido duplicado. > Los duplicados exactos pueden verse en “Duplicado de URL”.
  • Indexabilidad: si la URL es indexable o no indexable.
  • Estado de indexabilidad: la razón por la que una URL no es indexable. Podría estar canonizado a otra URL o tener la etiqueta “noindex”.

Filtros en la pestaña Contenido

Scheda "Content" del seo spider con riferimenti a contenuti duplicati, simili o di basso valore

Están disponibles los siguientes filtros:

  1. Duplicados exactos: este filtro muestra todas las páginas que tienen el mismo “hash” y que podrían ser consideradas duplicadas por el buscador, empeorando el PageRank.
    Este filtro te permite aislar las páginas duplicadas y optimizarlas estableciendo correctamente las versiones canónica y “Canonizada”.
  2. Casi duplicados: mediante este filtro puedes mostrar todas las páginas similares (¡no idénticas!) según un umbral de similitud, que por defecto es del 90 por ciento y puede personalizarse en la configuración.

La columna “Coincidencia de mayor similitud” muestra el mayor porcentaje de similitud con otra página.

La columna “Nº de casi duplicados” muestra el número de páginas que son similares a la página según el umbral de similitud. El algoritmo se realiza sobre el texto de la página, y no sobre todo el HTML, como ocurre con los duplicados exactos.

> > El contenido utilizado para este análisis puede configurarse en “Configurar área de contenido”.

Recuerda que las páginas pueden tener una similitud del 100%, pero ser sólo un “casi duplicado” debido al redondeo, por lo que el 99,5% o más se mostrará como 100%.

Para rellenar esta columna, debes activar “Activar casi duplicados” y realizar el “Análisis de rastreo”.

> > Configurar contenido duplicado

  • Páginas de bajo contenido: este filtro destaca todas las páginas con menos de 200 palabras. > > El recuento de palabras se basa en la configuración del área de contenido utilizada en el análisis, que puede configurarse mediante “Config Área de contenido”.
    No hay declaraciones oficiales del motor de búsqueda con respecto al número mínimo de palabras para que el contenido se considere válido, pero teniendo en cuenta la cita “El contenido es el rey”, el contenido descriptivo es uno de los elementos más importantes desde el punto de vista de la clasificación orgánica.
    Un análisis excelente que recomiendo es comparar el rendimiento de Search Console en términos de Impresiones y el filtro “Páginas con poco contenido” para ver si las páginas con poco contenido están penalizadas y es necesario profundizar en el contenido. Por supuesto, estas consideraciones dependen del sitio web. El comercio electrónico puede no necesitar textos muy largos y funcionar incluso con contenidos más pequeños

El umbral para definir las páginas de bajo contenido puede ajustarse mediante “Recuento de palabras de bajo contenido”.

> > > Configurar preferencias de la araña Contenido bajo Recuento de palabras.

  • Errores ortográficos: este filtro contiene todas las páginas HTML con errores ortográficos.
  • Errores gramaticales: contiene todas las páginas HTML con errores gramaticales

Análisis de errores gramaticales

Ficha Seo Spider