Inspiration

La nostra inspiració neix directament del repte plantejat per l'Hospital de Sant Pau: "Hack the Uterus". Ens va impactar el fet que el càncer d'endometri, tot i ser el més freqüent en ginecologia als països desenvolupats, encara té una gran "zona grisa": el grup molecular NSMP (No Specific Molecular Profile).

Aquestes pacients representen aproximadament el 50% dels casos i tenen un pronòstic incert: algunes evolucionen bé, però d'altres pateixen recidives inesperades. Els metges actualment prenen decisions basades en l'exclusió, sense una eina precisa per estratificar aquest risc. Ens va motivar la idea de convertir aquesta incertesa en dades accionables per millorar la vida de les pacients.

What it does

Una calculadora de risc digital dissenyada per a l'ús clínic.

Predicció Personalitzada: A partir de dades clinicopatològiques (com l'edat, IMC, estadi FIGO, invasió miometrial) i biomarcadors (L1CAM, RE/RP), l'eina calcula la probabilitat de recidiva de la pacient.

Seguretat Clínica: Hem dissenyat el model prioritzant la Sensibilitat (Recall). L'objectiu no és només encertar, sinó assegurar-nos que no se'ns escapa cap cas d'alt risc.

Explicabilitat: No és una "caixa negra". L'aplicació mostra gràficament quines variables estan augmentant el risc en cada pacient específica, ajudant al metge a entendre la predicció.

How we built it

Hem desenvolupat una solució full-stack de Ciència de Dades utilitzant Python:

  1. Processament de Dades: Neteja i imputació de valors perduts d'un dataset real de ~160 pacients proporcionat per l'Hospital.
  2. Machine Learning Avançat: Hem utilitzat algoritmes com XGBoost, optimitzats mitjançant Optuna per trobar la millor configuració d'hiperparàmetres automàticament.
  3. Validació Robusta: Per evitar resultats enganyosos amb poques dades, hem implementat Nested Cross-Validation i tècniques de balanceig de classes (SMOTE) per entrenar el model amb casos sintètics.
  4. Interfície Web: Hem creat una aplicació interactiva amb Streamlit que permet als metges introduir les dades de forma intuïtiva i veure els resultats a l'instant.

Challenges we ran into

La "Paradoxa de l'Exactitud": Inicialment, el model tenia una precisió del 95%, però era perquè predeia que totes les pacients estaven sanes (ja que hi ha poques recidives). Vam haver de canviar la nostra mètrica a Recall i ajustar els pesos de les classes per penalitzar els errors en pacients malaltes.

Dataset Petit: Amb només uns 160 registres, el risc d'overfitting (memoritzar les dades) era molt alt. Vam haver d'aplicar tècniques estrictes de regularització i selecció de característiques.

Accomplishments that we're proud of

Haver aconseguit un model que identifica correctament la majoria de les recidives en un dataset tan difícil i desbalancejat.

Haver transformat un anàlisi de dades complex en una eina visual (Streamlit App) que sembla un producte final llest per ser utilitzat en una consulta.

Haver integrat tècniques d'Explicabilitat (Explainable AI), donant transparència a les decisions de l'algoritme, un requisit clau en medicina.

What we learned

En medicina, un fals negatiu (no detectar un càncer) és molt pitjor que un fals positiu. Les mètriques tècniques s'han d'alinear amb la realitat clínica.

La importància de la qualitat de les dades per sobre de la complexitat de l'algoritme.

Que la tecnologia ha d'estar al servei del metge, funcionant com una eina de suport a la decisió i no com un substitut.

What's next for bitsxlamarato-2025

Validació Externa: Provar el model amb dades d'altres hospitals (estudi multicèntric) per confirmar la seva robustesa.

Integració EHR: Connectar l'API del nostre model directament amb la història clínica electrònica de l'hospital per evitar la introducció manual de dades.

Incorporació Genòmica: Enriquir el model amb més dades moleculars a mesura que siguin més accessibles en la pràctica clínica habitual.

Built With

Share this project:

Updates