En mis ratos libres colaboro con un proyecto OpenSource / OpenArt de una compañera ilustradora para ofrecer ilustraciones en png/svg con licencia libre. El proyecto en cuestión es este: CocoMaterial y cuenta ya con más de 2500 ilustraciones.
Las ilustraciones están etiquetadas (1 o n) para su categorización. Las etiquetas son nombres (comunes o propios), verbos, adjetivos… todos en inglés.
Existe un buscador de ilustraciones que filtra por etiquetas con (un AND) que funciona relativamente bien, especialmente sí conoces las etiquetas.
Mi deseo sería mejorar el buscador y que a partir de un texto en lenguaje natural sea capaz de inferir que etiquetas mostrar del listado de etiquetas que existen.
Mi conocimiento en el campo de los buscadores y procesamiento del lengaje natural es muy limitado. Por ello pregunto:
¿Creéis que es factible realizar lo que comento? En caso contrario ¿se podría realizar un buscador de sinónimos de etiquetas?
¿conocéis documentación, bibliotecas, recursos… que me puedan ayudar para implementarlo?
Consiste en utilizar los embeddings de los LLMs (que son algo así como vectores con muchas dimensiones que representan palabras), almacenándolos en una base de datos orientada a vectores, para poder buscar en ella por la distancia entre dichos vectores. El resultado sería que buscaría muy bien por sinónimos o incluso por palabras relacionadas (en plan “caniche” → “perro”).
No conozco mucho sobre IA, a lo mejor es algo similar a la propuesta de @Costero , si es así, mis disculpas por adelantado