Fashion-CLIP Vision: Inditex Matcher Chrininguito Group

Inspiration En el e-commerce de moda actual, cuando ves a un/a modelo con un "look" increíble, encontrar la prenda exacta en el catálogo es frustrante. Tradicionalmente esto requiere horas de etiquetado manual por parte del equipo de producto. En el Chrininguito Group nos propusimos automatizar este proceso utilizando inteligencia artificial multimodal, creando un puente matemático entre la fotografía de un outfit completo (bundle) y sus prendas individuales (productos) para revolucionar el Visual Search de Inditex.

What it does Es un motor de Búsqueda Visual Avanzada. Toma la imagen de un outfit completo (con fondos complejos, modelos, o iluminación de calle) y extrae sus características visuales esenciales ignorando el "ruido". A través de un espacio de embeddings (vectores) compartido, empareja automáticamente ese "look" con las imágenes de catálogo limpio (flat-lay) de las prendas exactas que lo componen, permitiendo emparejar inventario de forma automática.

How we built it Construimos un pipeline de Fine-tuning de alto rendimiento en la nube:

Modelo Base: Partimos del modelo fundacional patrickjohncyh/fashion-clip de Hugging Face.

Entrenamiento: Implementamos Contrastive Learning (InfoNCE / NT-Xent Loss) con In-Batch Hard Negative Mining (temperatura 0.05). Esto fuerza al modelo a distinguir detalles sutiles, penalizando si confunde prendas muy similares dentro del mismo lote.

Data Augmentation: Aplicamos recortes centrales agresivos (70%) y oclusiones para que la IA aprenda texturas y formas, no caras ni fondos.

Infraestructura: Desplegamos el entorno en un contenedor Docker sobre RunPod usando una GPU NVIDIA A40 de 48GB. Optimizamos los Dataloaders con pin_memory y Mixed Precision (AMP) en PyTorch para maximizar el rendimiento.

Challenges we ran into La infraestructura de hardware fue nuestro mayor "jefe final":

CPU Starvation & Dataloader Deadlocks: Sufrimos cuellos de botella masivos donde la CPU tardaba 70 segundos por iteración mientras la GPU A40 estaba al 0%. Lo resolvimos reescribiendo el pipeline de lectura de imágenes (pasando de interpolación BICUBIC a BILINEAR) y ajustando el prefetching de los workers.

Límites de Contenedores: Sufrimos bloqueos silenciosos por los límites de memoria compartida (/dev/shm) de Docker al procesar miles de imágenes de alta resolución en paralelo.

Size Mismatches de Arquitectura: En las últimas horas de la hackathon, nos enfrentamos a colisiones críticas de tensores al intentar inyectar nuestros pesos entrenados (ViT-Base de 12 capas) en el script generador de índices, lo que requirió "cirugía" de código de emergencia.

Accomplishments that we're proud of Como equipo, estamos increíblemente orgullosos de haber domado una máquina de alto rendimiento en el Cloud bajo la presión de la HackUDC. Logramos hacer fine-tuning de un modelo multimodal masivo (casi 30 millones de parámetros entrenables), resolviendo problemas muy técnicos de bajo nivel de Input/Output y memoria RAM/VRAM, logrando que la red neuronal procesara el inmenso dataset de Inditex a máxima velocidad sin que el servidor colapsara.

What we learned Aprendimos por las malas que, en el Deep Learning del mundo real, diseñar la red neuronal es solo el 20% del trabajo. El verdadero reto es la Ingeniería de Datos y Sistemas: optimizar el flujo de datos desde el disco duro hasta la tarjeta gráfica, gestionar los hilos de procesamiento, limpiar el repositorio en tiempo récord y entender cómo se comunican las distintas partes del hardware para no dejar a una GPU de 48GB "muriéndose de aburrimiento".

What's next for Fashion-CLIP Vision: Inditex Matcher Chrininguito Group El reloj de la hackathon no perdona, pero nuestra hoja de ruta técnica está clarísima para llevar esto a producción:

Infraestructura de Inferencia: Integrar FAISS (Facebook AI Similarity Search) para realizar búsquedas vectoriales en milisegundos sobre catálogos de millones de prendas.

Búsqueda Multimodal Híbrida: Permitir al usuario afinar la búsqueda visual con texto (ej. subir la foto de un outfit y añadir el texto "pero en color rojo") combinando los vectores.

Despliegue End-to-End: Construir una API robusta con FastAPI y un frontend interactivo fluido para llevar esta IA a las manos del usuario final.