Rilevamento Clickbait in Titoli di Notizie
NLP

Rilevamento Clickbait in Titoli di Notizie

Screening clickbait ad alta precisione con controllo regolabile dei falsi positivi

Mantieni i titoli che i lettori apprezzano filtrando l’esca con modelli spiegabili e bias calibrato.

Home/Ricerca/Rilevamento Clickbait in Titoli di Notizie

Informazioni Progetto

Corso
Machine Learning
Autori
Andrea Alberti
Data
febbraio 2024
Pagine
6
Visualizza Codice

Tecnologie

PythonScikit-learnNumPyPandasMatplotlib

Abstract

Confrontati Multinomial Naive Bayes e Regressione Logistica su 32 mila titoli bilanciati per rilevare il clickbait. Sono stati esplorati due obiettivi: massima accuratezza (97.12% sul test con stopword e vocabolario da 8k) e assenza di falsi positivi (0% FPR, accuratezza 84%, TPR 68%). Un’analisi puntuale degli errori evidenzia le parole più impattanti e i trade-off introdotti dalla calibrazione del bias.

Informazioni

I titoli sono portati in minuscolo, ripuliti dalla punteggiatura (conservando i numeri) e vettorializzati con Bag-of-Words su vocabolari fino a 12k token con/senza stopword. Naive Bayes Multinomiale e Regressione Logistica sono addestrati in due modalità: orientata all’accuratezza (cross-validation, spazio completo) e orientata all’FPR (scansione del bias da −8 a 8 e scelta manuale del prior ottimale). Mantenere le stopword è fondamentale: eliminarle riduce l’accuratezza di oltre il 2%. L’ispezione degli errori evidenzia casi ambigui (titoli sintetici ma informativi classificati come clickbait) e le parole più discriminanti. Il risultato finale offre un toggle: 97% di accuratezza per il filtraggio generale oppure 0% FPR (84% accuracy, 68% TPR) quando bisogna evitare falsi positivi.

Risultati Chiave

97.12%
Accuracy
0.0%
Best FPR
84.00%
FPR Accuracy
8000 words
Vocabulary

Scoperte Principali

  • Un dataset controllato da 32 mila titoli è stato preprocessato in Bag-of-Words (2k–12k token) per confrontare Naive Bayes Multinomiale e Regressione Logistica con gli stessi split.
  • Il mantenimento delle stopword ha migliorato sistematicamente l’accuratezza di validazione, portando al modello da 8k token che raggiunge il 97.12% sul test senza bisogno della logistica.
  • La scansione del bias tra −8 e 8 ha permesso di offrire una modalità a 0% FPR (84% accuracy, 68% TPR), fornendo un controllo di moderazione regolabile.
  • L’analisi dei delta logaritmici dei token ha messo in luce pattern tipici di clickbait (“2015”, “things”, “guess”) rispetto a indicatori di notizie neutrali (“kills”, “iraq”), utili per audit editoriali.

Metodologia

Balanced headlines (32k) were cleaned and vectorised with Bag-of-Words vocabularies (2k–12k) with/without stopwords, training Multinomial Naive Bayes and Logistic Regression, then sweeping bias values (−8…8) to minimise FPR while inspecting the most impactful tokens.
Rilevamento Clickbait in Titoli di Notizie | Andrea Alberti | Andrea Alberti