
Dalle pipeline Hadoop a predizioni di utilità interpretabili
Correlare la discussione, incorporare le parole e far emergere le recensioni più affidabili.
Analizzati circa 3 milioni di recensioni di libri Amazon con uno stack big data (HDFS, Spark, MongoDB) per spiegare e predire l’utilità percepita. I test d’ipotesi hanno quantificato l’impatto di lunghezza, sentiment e valutazione in stelle, mentre embedding Word2Vec hanno alimentato regressori Random Forest, SVR e MLP. Il miglior Random Forest ha ottenuto MSE 0.0259 (RMSE 0.1609, R² 0.253).
Il flusso parte dal caricamento in HDFS e dal join MapReduce tra metadati e voti. Notebook Spark puliscono il corpus, tokenizzano le recensioni e testano sei ipotesi (lunghezza, sentiment, influenza del rating, bias utente, categoria e scala dell’editore). Analisi locali vengono condotte in MongoDB, mentre repliche distribuite validano i risultati in Spark tramite correlazioni di Spearman, ANOVA e sentiment Naive Bayes. Per la predizione le recensioni sono incorporate con Gensim Word2Vec (30D e 150D); Random Forest, SVR (RBF) e MLP sono ottimizzati con GridSearchCV. Il miglior RF media bias e varianza (MSE 0.0259) e mette in luce i driver dell’utilità. Dashboard visuali mostrano editori top, focus di categoria e confermano che recensioni più lunghe, positive e con rating alti correlano con l’utilità solo fino a 400 parole.