Rilevamento Malattie Cardiache da Segnali Audio
Machine Learning

Rilevamento Malattie Cardiache da Segnali Audio

Machine Learning Avanzato per il Rilevamento Precoce di Malattie Cardiache tramite Analisi Audio

Registrazioni cardiache da smartphone alimentano ensemble spiegabili per lo screening proattivo.

Home/Ricerca/Rilevamento Malattie Cardiache da Segnali Audio

Informazioni Progetto

Corso
Machine Learning Biomedico Avanzato
Autori
Andrea Alberti, Davide Ligari
Data
luglio 2024
Pagine
17
Visualizza Codice

Tecnologie

Scikit-learnTorchaudioLibrosaImblearnXGBoostCatBoostLightGBMPyTorchTensorFlowKerasNumPyPandasMatplotlibSeabornSHAP

Abstract

Progettati ensemble per la prevenzione e il supporto clinico dello screening cardiaco sul Dangerous Heartbeat Dataset (CHSC2011). I toni cardiaci sono stati ricampionati a 4 kHz, suddivisi in finestre da 1 secondo, descritti con MFCC, cromagrammi, descrittori spettrali e temporali e ridotti da 338 a 41 feature tramite filtri basati su Spearman. L’ensemble di prevenzione limita i falsi negativi (ROC-AUC 0.96, TPR 43.4% a 1% FPR) mentre l’ensemble diagnostico a cinque classi raggiunge macro F1 81.6 con analisi di rischio per classe e spiegazioni SHAP.

Informazioni

Lo studio elabora il Dangerous Heartbeat Dataset (CHSC2011) ricampionando le registrazioni eterogenee a 4 kHz, suddividendole in finestre da 1 secondo ed estraendo 338 descrittori temporali, spettrali e cepstrali (MFCC, chroma STFT, RMS, ZCR, CQT, centroide/banda/roll-off spettrali). Un filtro in due fasi basato su Spearman elimina gli attributi poco correlati e ridondanti riducendo l’insieme a 41 feature. Vengono addestrate due pipeline complementari: un ensemble di prevenzione (Random Forest + MLP Ultra + MLP Rollercoaster) che valuta il caso normale-vs-rest su soglie FPR stringenti e un ensemble diagnostico a cinque classi (Random Forest + MLP Ultra) che bilancia macro F1, MCC e rischio per classe. Valori SHAP e permutazione dell’importanza spiegano le decisioni ed evidenziano le porzioni di segnale che guidano le previsioni.

Risultati Chiave

0.82
F1-Score
0.96
ROC-AUC
43.4%
TPR @1% FPR
74.3%
TPR @5% FPR
86.6%
TPR @10% FPR
95.8%
TPR @20% FPR
41 of 338
Features Retained
81.53
Support MCC

Scoperte Principali

  • Il Dangerous Heartbeat Dataset (CHSC2011) è stato ricampionato a 4 kHz, segmentato in finestre di 1 s e descritto con MFCC, cromagrammi e feature spettrali/temporali prima che il filtro Spearman eliminasse l’87.9% delle variabili ridondanti.
  • Sono stati addestrati due ensemble complementari—prevenzione (normale vs resto) e supporto clinico (5 classi)—combinando Random Forest e MLP eterogenei per bilanciare falsi negativi e capacità diagnostica.
  • Le analisi di interpretabilità con permutazione e SHAP hanno evidenziato le porzioni di segnale decisive, mostrando dove soffi ed extrasistoli si sovrappongono ai battiti normali e orientando le future acquisizioni.

Metodologia

Heart sound clips from CHSC2011 were resampled at 4 kHz, segmented into 1-second windows, described with 338 spectral/temporal features, pruned to 41 via two-stage Spearman filtering, and used to train prevention and five-class support ensembles whose behaviour was analysed with risk metrics, permutation importance and SHAP.

Licenza

Questo progetto è rilasciato sotto licenza MIT. Sentiti libero di usare, modificare e distribuire il codice secondo i termini della licenza.

Rilevamento Malattie Cardiache da Segnali Audio | Andrea Alberti | Andrea Alberti