
Benchmark di modelli bag-of-words per il sentiment sul corpus IMDb
Dai conteggi di token agli indizi emotivi: una via rapida verso un sentiment affidabile.
Implementati classificatori di sentiment sul dataset IMDb (50k recensioni) confrontando Naive Bayes Multinomiale e Regressione Logistica. Sono stati analizzati dimensione del vocabolario, rimozione di stopword e stemming per bilanciare accuratezza e overfitting. Naive Bayes con stopword (vocabolario 1k) ha raggiunto l’82.6% sul test, mentre la Regressione Logistica è arrivata all’85.4% con tuning minimo.
Le recensioni sono tokenizzate con NLTK (minuscole, punteggiatura rimossa, stopword opzionali, stemming Porter opzionale). Si valutano vocabolari fino a 10k token; il punto ottimale è 1k token mantenendo le stopword, così da evitare overfitting mantenendo informazione. Il Naive Bayes Multinomiale apprende priori di classe e verosimiglianze delle parole tramite frequenze relative, mentre la Regressione Logistica è addestrata con discesa del gradiente (lr=0.0023, 1000 iterazioni) senza regolarizzazione. Le curve accuratezza-vocabolario mostrano rendimenti decrescenti e gap train-test crescenti oltre i 5k token. L’analisi dell’importanza delle parole classifica “superb”, “fantastic” e “waste” come marcatori decisivi. L’ispezione dei peggiori errori evidenzia recensioni ambigue (sarcasmo, riassunti della trama).