
Machine Learning Avanzato per il Rilevamento Precoce di Malattie Cardiache tramite Analisi Audio
Registrazioni cardiache da smartphone alimentano ensemble spiegabili per lo screening proattivo.
Progettati ensemble per la prevenzione e il supporto clinico dello screening cardiaco sul Dangerous Heartbeat Dataset (CHSC2011). I toni cardiaci sono stati ricampionati a 4 kHz, suddivisi in finestre da 1 secondo, descritti con MFCC, cromagrammi, descrittori spettrali e temporali e ridotti da 338 a 41 feature tramite filtri basati su Spearman. L’ensemble di prevenzione limita i falsi negativi (ROC-AUC 0.96, TPR 43.4% a 1% FPR) mentre l’ensemble diagnostico a cinque classi raggiunge macro F1 81.6 con analisi di rischio per classe e spiegazioni SHAP.
Lo studio elabora il Dangerous Heartbeat Dataset (CHSC2011) ricampionando le registrazioni eterogenee a 4 kHz, suddividendole in finestre da 1 secondo ed estraendo 338 descrittori temporali, spettrali e cepstrali (MFCC, chroma STFT, RMS, ZCR, CQT, centroide/banda/roll-off spettrali). Un filtro in due fasi basato su Spearman elimina gli attributi poco correlati e ridondanti riducendo l’insieme a 41 feature. Vengono addestrate due pipeline complementari: un ensemble di prevenzione (Random Forest + MLP Ultra + MLP Rollercoaster) che valuta il caso normale-vs-rest su soglie FPR stringenti e un ensemble diagnostico a cinque classi (Random Forest + MLP Ultra) che bilancia macro F1, MCC e rischio per classe. Valori SHAP e permutazione dell’importanza spiegano le decisioni ed evidenziano le porzioni di segnale che guidano le previsioni.
Questo progetto è rilasciato sotto licenza MIT. Sentiti libero di usare, modificare e distribuire il codice secondo i termini della licenza.