=================== UC ===================


1. Introducción al agrupamiento no supervisado en visión por computador: contexto histórico y funcional

1.1. Breve historia del análisis de imágenes sin etiquetas

Durante las décadas de los 80 y 90, la visión por ordenador se basaba sobre todo en descriptores diseñados a mano y en heurísticas bastante específicas, modelos como SIFT (Scale-Invariant Feature Transform) y HOG (Histogram of Oriented Gradients) eran clave para capturar detalles locales o patrones generales en las imágenes.

Estos descriptores dan la posibilidad del tratamiento de tareas tales como el reconocimiento de objetos o clasificación, si bien con algunas limitaciones, eran débiles contra cambios de iluminación, posición del objeto o escala, lo que los hacía muy sensibles a fallos.

En cuanto al agrupamiento, se basaban anteriormente en métricas simples tales como la distancia euclidiana o la correlación directa de estos vectores de características, K-means o clustering jerárquico (agglomerative clustering) eran algoritmos más populares en ese momento.

Esto cambió a partir de 2012, con la aparición del deep learning y las Redes Neuronales Convolucionales (CNNs), que permitieron extraer representaciones mucho más ricas, jerárquicas y con un significado más profundo a nivel semántico.

A medida que los datos no etiquetados comenzaron a superar a los conjuntos anotados manualmente, aparecieron enfoques de aprendizaje no supervisado y auto-supervisado, estas técnicas abrieron nuevas posibilidades para aprovechar al máximo esos enormes volúmenes de datos sin necesidad de intervención humana directa.

1.2. Funcionalidad y retos actuales

El crecimiento exponencial de datos visuales en redes sociales, sistemas médicos, satélites, etc., hace inviable la anotación manual.

El agrupamiento no supervisado permite descubrir patrones emergentes, estructurar datos para análisis posteriores y acelerar tareas de clasificación o recuperación de imágenes.

Retos técnicos incluyen: alta dimensionalidad, escalabilidad, ruido y heterogeneidad en los datos, y evaluación sin etiquetas.


2. Embeddings visuales: definición, modelos y propiedades matemáticas

2.1. ¿Para qué y por qué se crean los embeddings visuales?

Los embeddings visuales se diseñan para transformar imágenes en vectores que capturen su información semántica de forma compacta y numéricamente manipulable. Este paso es esencial porque los algoritmos tradicionales de aprendizaje automático y análisis no pueden operar directamente sobre datos de alta dimensión sin estructura explícita, como píxeles crudos.

Principales objetivos:

Motivación técnica:

Los espacios de embedding actúan como espacios latentes (representación matemática comprimida donde los datos complejos (como imágenes) se transforman en vectores que capturan sus características más relevantes ) donde se pueden aplicar técnicas matemáticas estándar (álgebra lineal, estadística, geometría) para modelar relaciones complejas entre imágenes. En vez de tratar con millones de dimensiones (píxeles), se opera en espacios reducidos pero informativamente ricos.

Así, los embeddings permiten eficiencia computacional, además de que habilitan inteligencia visual, al capturar conceptos abstractos como “perro”, “paisaje urbano” o “estructura anatómica” en vectores que se pueden comparar, agrupar o clasificar.

2.2. Qué es un embedding visual

Un embedding es una función f: I → ℝᵈ que transforma una imagen I ∈ 𝓘 en un vector numérico en un espacio d-dimensional.

Idealmente, esta función debe preservar la similitud semántica, es decir, imágenes con contenido similar deben tener embeddings cercanos según alguna métrica (coseno, euclidiana).

El espacio ℝᵈ suele ser continuo, denso y estructurado, donde la distancia refleja relaciones semánticas.

2.3. Arquitecturas para extracción de embeddings

2.4. Propiedades matemáticas relevantes


3. Proyección a espacios de menor dimensión para análisis y visualización

3.1. Motivaciones

3.2. Métodos clásicos y avanzados

3.3. Consideraciones prácticas


4. Algoritmos de agrupamiento no supervisado: fundamentos y variantes

4.1. Clustering basado en particiones: K-Means y variantes

4.2. Clustering jerárquico

4.3. Clustering basado en densidad: DBSCAN y HDBSCAN

4.4. Métodos basados en grafos y espectrales

4.5. Métodos modernos y emergentes


5. Preparación y organización de los resultados para interpretación y análisis

5.1. Etiquetado y asignación de grupos

5.2. Visualización de agrupamientos

5.3. Análisis estadístico y métricas

5.4. Uso de resultados para tareas posteriores


6. Aspectos prácticos y consideraciones técnicas para sistemas a escala

6.1. Extracción eficiente de embeddings

6.2. Almacenamiento y gestión de vectores

6.3. Escalabilidad en clustering

6.4. Evaluación y validación


7. Aplicaciones reales y casos de uso detallados

7.1. Organización y búsqueda en fototecas personales y empresariales

7.2. Curación y limpieza de datasets para machine learning

7.3. Análisis en medicina y biología

7.4. Vigilancia satelital y monitoreo ambiental

7.5. Industria y comercio electrónico


8. Conclusiones y perspectivas futuras