
Screening clickbait ad alta precisione con controllo regolabile dei falsi positivi
Mantieni i titoli che i lettori apprezzano filtrando l’esca con modelli spiegabili e bias calibrato.
Confrontati Multinomial Naive Bayes e Regressione Logistica su 32 mila titoli bilanciati per rilevare il clickbait. Sono stati esplorati due obiettivi: massima accuratezza (97.12% sul test con stopword e vocabolario da 8k) e assenza di falsi positivi (0% FPR, accuratezza 84%, TPR 68%). Un’analisi puntuale degli errori evidenzia le parole più impattanti e i trade-off introdotti dalla calibrazione del bias.
I titoli sono portati in minuscolo, ripuliti dalla punteggiatura (conservando i numeri) e vettorializzati con Bag-of-Words su vocabolari fino a 12k token con/senza stopword. Naive Bayes Multinomiale e Regressione Logistica sono addestrati in due modalità: orientata all’accuratezza (cross-validation, spazio completo) e orientata all’FPR (scansione del bias da −8 a 8 e scelta manuale del prior ottimale). Mantenere le stopword è fondamentale: eliminarle riduce l’accuratezza di oltre il 2%. L’ispezione degli errori evidenzia casi ambigui (titoli sintetici ma informativi classificati come clickbait) e le parole più discriminanti. Il risultato finale offre un toggle: 97% di accuratezza per il filtraggio generale oppure 0% FPR (84% accuracy, 68% TPR) quando bisogna evitare falsi positivi.