
Applicare la network science per arricchire la predizione di malattie dai sintomi
Le metriche di grafo svelano la struttura dei sintomi e permettono diagnosi più leggere ma accurate.
Rappresentate 773 malattie e 377 sintomi in una rete bipartita per ingegnerizzare feature grafo-aware utili alla diagnosi. Method of Reflections, indici di Influenza di malattia/sintomo, rilevamento di comunità e betweenness centrality generano nuovi descrittori a complemento del one-hot dei sintomi. Sono stati confrontati modelli di Regressione Logistica, Random Forest e MLP; il modello logistico migliore eguaglia la baseline basata sui soli sintomi usando meno input e fornendo insight sull’accuratezza per classe.
Il progetto realizza una pipeline completa: costruzione del grafo bipartito da 246 mila casi clinici sintetici, calcolo delle iterazioni del Method of Reflections per ricavare gli indici di Influenza di sintomi (SI) e malattie (DI), estrazione di comunità tipo Louvain, betweenness centrality e confronto con null model. I descrittori di rete vengono fusi con il one-hot dei sintomi e scremati tramite forward stepwise selection per contenere la dimensionalità. Regressione logistica, Random Forest e MLP sono ottimizzati con grid search; il modello logistico arricchito con feature di rete eguaglia l’accuratezza della baseline sui soli sintomi mantenendo l’overfitting contenuto. Un’analisi a valle dettaglia l’accuratezza per malattia, mette in luce le confusioni su patologie sovrapposte (es. cancro alla vescica vs diabete insipido) e studia l’impatto del taglio delle feature su accuratezza e tempi di training.