¿Qué son las Incrustaciones?
Las incrustaciones se están convirtiendo rápidamente en un elemento clave en el campo de la inteligencia artificial (IA) y el aprendizaje automático (AM). Estas potentes herramientas permiten representar datos complejos en formatos más manejables, mejorando significativamente la eficacia de los algoritmos de aprendizaje automático.
Las incrustaciones son representaciones vectoriales de objetos complejos, como palabras, imágenes o usuarios. Transforman los datos no numéricos en una forma numérica que pueden procesar fácilmente los algoritmos de ML (Aprendizaje Automático).
Transformar estos datos en representaciones vectoriales te permitirá, efectivamente, descubrir relaciones y patrones útiles para la gestión estratégica de análisis complejos.
El tamaño de un vector vendrá determinado por el modelo de incrustación utilizado y determinará su capacidad para representar los significados de una palabra o documento con un conjunto de números más ilustrativos para los robots.
El tamaño del vector representa la profundidad del análisis codificado en el espacio de incrustación.
Pero, ¿qué datos pueden derivarse de estos vectores? Por ejemplo, se pueden derivar aspectos semánticos, sintácticos y contextuales en elemdedding de las palabras; cuanto mayor sea el tamaño del vector, más detallada será la información. A través de estos conceptos, se puede entender cómo el análisis se desplaza en el ámbito del Seo desde el estudio aséptico de las «palabras clave» al descubrimiento de la«intención de búsqueda«, no según nuestra evaluación personal, sino basándose en análisis en profundidad, cada vez más similares a los que realizan las arañas de los motores de búsqueda.
Ventajas de las incrustaciones
- Reducción de la dimensionalidad: las incrustaciones reducen la complejidad de los datos originales manteniendo la información relevante. Esto permite una manipulación y un análisis más eficaces de los datos, y en SEO representan auténticas minas de oro para un análisis cada vez más parecido al comportamiento de la araña de los buscadores.
- Mejora del rendimiento de los algoritmos: debido a su capacidad para captar las relaciones semánticas, las incrustaciones mejoran la exactitud y precisión de los algoritmos de ML. Este escenario es especialmente evidente en las aplicaciones de procesamiento del lenguaje natural (PLN) y de reconocimiento de imágenes.
- Flexibilidad y aplicabilidad: las incrustaciones pueden aplicarse a distintos tipos de datos y en varios dominios, desde recomendaciones de productos hasta análisis de sentimientos, lo que las convierte en herramientas versátiles para múltiples aplicaciones. Por ejemplo, al asignar series numéricas a las palabras en función de su similitud semántica, la «incrustación de palabras» permite a los modelos de redes neuronales comprender el contexto de una forma absolutamente más significativa y, por tanto, procesarlo.
Aplicaciones de Embeddings en Seo
- Procesamiento del Lenguaje Natural (PLN): en PLN, las incrustaciones de palabras como Word2Vec y GloVe permiten a los modelos comprender mejor el contexto y el significado de las palabras en los textos. Esto ha revolucionado aplicaciones como la traducción automática, el análisis de sentimientos y los chatbots inteligentes. Las incrustaciones de palabras pueden ser útiles para el análisis y la orientación de palabras clave, ya que nos permiten comprender los significados y las relaciones entre las palabras, así como identificar patrones y tendencias en los datos de texto, ayudándonos a identificar las consultas más importantes o relevantes en un texto determinado. Esto es útil a efectos de SEO, ya que permite a las empresas identificar las palabras clave más utilizadas por los usuarios cuando buscan un determinado producto o servicio. Al comprender las relaciones entre las palabras, las incrustaciones de palabras también pueden ayudar a identificar sinónimos y términos relacionados que pueden ser útiles para la orientación por palabras clave y para identificar posibles términos de búsqueda que los usuarios podrían utilizar al buscar los productos de la empresa.
- Recomendaciones de productos: una aplicación muy útil es la relacionada con el comercio electrónico, que analizando los embeddings puede presentar productos relacionados de forma oportuna y estratégica basándose en las similitudes entre los productos y las preferencias del usuario. Este enfoque mejora la experiencia del cliente y aumenta las ventas, y no se limita a proponer productos «complementarios» o de la misma categoría, como suele hacerse automáticamente con los CMS más populares. Por tanto, mediante las incrustaciones será posible desarrollar estrategias cada vez más precisas y de alto rendimiento que busquen el equilibrio entre la oferta y la demanda.
- Reconocimiento de imágenes: Las incrustaciones también se utilizan en el reconocimiento de imágenes, donde ayudan a identificar y clasificar objetos dentro de las imágenes. Técnicas como las redes neuronales convolucionales (CNN) generan incrustaciones que representan características visuales de las imágenes, mejorando el rendimiento del reconocimiento.
- SEO y marketing digital: las incrustaciones también se utilizan para mejorar las estrategias SEO y de marketing digital, ya que permiten comprender mejor el comportamiento de los usuarios y crear contenidos más eficaces.
Veamos más concretamente las aplicaciones Seo de las Incrustaciones:
- Clustering: en SEO, los «clusters» se refieren a grupos de contenidos relacionados que giran en torno a un tema principal. Cada grupo incluye una «página pilar» central, que cubre ampliamente el tema, y páginas de apoyo más específicas que profundizan en subtemas relacionados. Este enfoque ayuda a organizar mejor el contenido del sitio, mejorando la navegabilidad y la experiencia del usuario, además de facilitar una mejor indexación por parte de los motores de búsqueda. Los grupos de contenidos también permiten aumentar la autoridad del sitio sobre temas específicos, mejorando así su clasificación en las búsquedas orgánicas.
- Clasificación: asignar categorías a palabras o documentos basándose en modelos entrenados.
- Recomendaciones: sugerencia de artículos relevantes a los usuarios.
- Medir la similitud y la diversidad: evaluar las semejanzas y diferencias entre palabras y documentos. Este escenario te permitirá evitar el contenido duplicado y gestionar la posible «canibalización» de consultas proponiendo análisis muy específicos que consigan interceptar hasta los más pequeños detalles y características de las páginas escaneadas.
- Detección de anomalías: identificación de elementos que se desvían significativamente de los datos, lo que permitirá optimizar la arquitectura interna o modificar el contenido.
- Recogida de información perfilada: obtención de información relevante a partir de grandes conjuntos de datos.
- Traducción lingüística, análisis de sentimientos: Una forma en que las incrustaciones de palabras ayudan a la traducción lingüística es proporcionando una representación común de las palabras en diferentes idiomas. Para traducir una palabra de una lengua a otra, un modelo de aprendizaje automático debe comprender el significado de la palabra en ambas lenguas. Las incrustaciones de palabras pueden proporcionar esta comprensión representando las palabras de forma independiente del idioma. Esto significa que la incrustación de una palabra en una lengua puede compararse con la incrustación de la misma palabra en otra lengua, lo que permite al modelo de aprendizaje automático comprender el significado de la palabra en ambas lenguas. Así pues, este enfoque no se limitará a la traducción léxica y sintáctica clásica, sino que propondrá contenidos contextualizados en las distintas versiones lingüísticas que nos permitirán mejorar nuestra clasificación en los Serpos extranjeros.
- Análisis de sentimientos: para crear un léxico de sentimientos o emociones utilizando incrustaciones de palabras, se podría empezar seleccionando un conjunto de palabras o frases que se sabe que están asociadas a determinados sentimientos o emociones. Puede tratarse de palabras o frases que hayan sido señaladas por los humanos como sentimientos o emociones, o palabras o frases utilizadas habitualmente en las redes sociales u otras plataformas en línea para expresar sentimientos o emociones concretos.Una vez seleccionado un conjunto de palabras o frases, el siguiente paso es utilizar incrustaciones de palabras para crear vectores para cada una de esas palabras o frases. Estos vectores pueden crearse utilizando un modelo de incrustación de palabras preentrenado, o pueden crearse desde cero utilizando algoritmos de aprendizaje automático y un gran conjunto de datos textuales. Una vez creados los vectores para las palabras o frases del léxico, pueden utilizarse para identificar el sentimiento o la emoción asociados a otras palabras o frases. Por ejemplo, si una palabra o frase es similar a un vector de vocabulario asociado a un determinado sentimiento o emoción, puede deducirse que la palabra o frase también está asociada a ese sentimiento o emoción (fuente: https://marketbrew.ai/word-embeddings-a-comprehensive-guide).
- Generación de contenido: la información de las incrustaciones puede utilizarse para generar nuevas frases relacionadas con el texto original. Por ejemplo, suponiendo que tengamos un texto sobre actividades al aire libre, con la incrustación de palabras podemos identificar palabras y frases relevantes sobre el tema, como «acampada», «vida al aire libre», lo que nos permitirá mejorar el contenido de la página con vistas a hacerlo más relevante para la «intención de búsqueda» de actividades al aire libre. Además de la generación de contenidos completos, mediante las incrustaciones de palabras podemos calcular la similitud semántica de una «consulta» con respecto a las demás de un vocabulario(similitud coseno) para hacer más utilizable nuestro contenido sin las trabas de la copia ligada a su mera función SEO. Una similitud coseno alta indicará que los vectores son similares, mientras que una similitud coseno baja indicará que son diferentes y no pueden considerarse sinónimos a nivel semántico para la Araña.
- Predicción contextual de palabras: mediante incrustaciones podemos mejorar la precisión de la función de autocompletar o texto predictivo. Las incrustaciones captan el contexto en el que aparecen las palabras y, por tanto, podrán utilizarlas para predecir la palabra siguiente basándose en las palabras que la preceden, lo que permitirá completar automáticamente la búsqueda interna. Esta actividad, junto con el siempre valioso análisis a través de Google Analytics 4 de las consultas utilizadas en el propio sitio web, nos permitirá mejorar la UX de, por ejemplo, nuestro comercio electrónico y servir la mejor propuesta posible al comprador potencial.
En las guías anteriores, nos centramos en la importancia de los análisis de N-Gramas, pero con las incrustaciones, puedes hacer una notable actualización de la información.
En términos de eficacia SEO, las incrustaciones de palabras tienen varias ventajas; en primer lugar, permiten una comprensión menos aproximada del significado y el contexto de las palabras dentro de un documento, lo que puede ser útil para determinar la relevancia y la calidad de una página web, en comparación con tratar el análisis como una frecuencia de entidades individuales que siguen siendo válidas para la arquitectura interna, pero no tan específicas como este escenario que estamos describiendo. Tampoco a través de los N-Gramas es posible identificar términos relacionados, por lo que la potencia de análisis se reduce inequívocamente.
Screaming Frog, incrustación y API ChatGpt
Con la versión 20 de Screaming Frog SEO Spider, se introdujeron las incrustaciones en el Seo Spider generadas mediante una plantilla OpenAI y a través de la API directamente con una función interna de la herramienta.
> Para implementar esta función, Screaming Frog ha integrado la posibilidad de ejecutar funciones JavaScript personalizadas, que estarán disponibles a través de la sección JavaScript personalizado , donde se puede elegir el script dedicado e introducir la clave API de OpenAI para empezar a generar incrustaciones durante la exploración.

Una vez que hayas elegido Javascript Personalizado, simplemente haz clic en«+Añadir desde la Biblioteca» y elige la primera sugerencia de Screaming Frog «(ChatGPT) Extraer incrustaciones de la página..».

Haz clic en el icono «JS» para editar el script e insertar la API generada con OpenAI.

A continuación se muestra la pantalla en la que introduces tu Clave API. Una vez «copiado y pegado» en el espacio reservado, bastará con procesar la exploración con Screaming Frog para obtener las incrustaciones. Como el uso de las API tiene un coste, el consejo es que utilices el «Comprobador de Javascript» introduciendo una URL a analizar para previsualizar el posible resultado de un análisis completo.
Los resultados del «Javascript Personalizado» se pueden leer en la pestaña dedicada eligiendo entre los filtros en caso de que estén activas varias extracciones o acciones requeridas mediante el «JS Personalizado».
Si es necesario compartir el escaneo o la configuración de Screaming Frog, es necesario eliminar la API para no proporcionar estos datos. Los rumores de la comunidad ya han pedido a los desarrolladores de Screaming Frog que oculten la API una vez introducida para proteger estos valiosos y caros datos.
Pero ahora que hemos obtenido las incrustaciones de Screaming Frog, ¿cómo podemos procesar nuestros nuevos datos? Como hemos visto, existen numerosos usos de los embeddings, así que veamos el proceso para averiguar a partir de los vectores obtenidos un análisis muy preciso de las páginas relacionadas.
Análisis de páginas relacionadas
Un primer ejemplo de aplicación sería comprender las interconexiones entre las páginas de un sitio web o entre las páginas de detalle de un comercio electrónico para proporcionar mejor una experiencia óptima al visitante o «comprador» potencial.
Veamos cómo:
- Consigo las incrustaciones con Screaming Frog.
- Exporto los datos del Seo Spider y formateo el archivo resultante sustituyendo ‘Dirección’ por ‘URL’.
- Elimino las columnas «Código de estado» y «Estado». En este caso sólo tendrás 2 cabeceras:
- URL.
- Incrustaciones.

Ahora puedes utilizar un script de Python en Coleb para procesar tus datos. A continuación encontrarás un « guión de Gus Pelogia » para procesar.
La herramienta te pedirá que subas tu archivo CSV (el de Screaming Frog).
Una vez procesados los datos, descargará automáticamente otro CSV con los resultados clasificados en dos columnas (si utilizas Google Spreadsheet, tendrás que tabular los datos en columnas):
- Fuente de la página.
- Páginas relacionadas.

Sólo tienes que hacer clic en el icono «Reproducir» y Colab te permitirá cargar el archivo obtenido de Screaming Frog.
Al final del procesamiento, se descargará automáticamente a nivel local un nuevo archivo llamado«related_pages.csv«.
Ahora sólo queda comprobar los resultados y aplicar los cambios correctos en el sitio para una «correlación» óptima del contenido a nivel semántico. Si se aplica a los productos de un comercio electrónico, puede ser una excelente estrategia para mejorar el ROI y la cesta de la compra media.
Agrupación
Para la agrupación mediante incrustaciones podrías utilizar distintos algoritmos de agrupación, como K-means o DBScan , que utilizan distintas métricas de similitud para crear grupos homogéneos. Para crear un guión, he utilizado las bibliotecas ‘pandas’ para la manipulación de datos, ‘sklearn’ para la agrupación y ‘matplotlib + seaborn’ para mostrar una imagen y un documento de salida en csv. El archivo que utilicé como conjunto de datos tenía el mismo formato que el anterior, con dos columnas «URL» e «Incrustaciones».






