Big Data

Predizione Utilità Recensioni con Big Data

Dalle pipeline Hadoop a predizioni di utilità interpretabili

Correlare la discussione, incorporare le parole e far emergere le recensioni più affidabili.

Home/Ricerca/Predizione Utilità Recensioni con Big Data

Informazioni Progetto

Corso

Data Science & Big Data Analytics

Autori

Andrea Alberti, Davide Ligari, Andrea Andreoli

Data

settembre 2023

Pagine

Visualizza Codice

Tecnologie

Hadoop HDFSApache SparkPySparkSpark MLlibMongoDBPythonNLTKGensimScikit-learnMatplotlib

Abstract

Analizzati circa 3 milioni di recensioni di libri Amazon con uno stack big data (HDFS, Spark, MongoDB) per spiegare e predire l’utilità percepita. I test d’ipotesi hanno quantificato l’impatto di lunghezza, sentiment e valutazione in stelle, mentre embedding Word2Vec hanno alimentato regressori Random Forest, SVR e MLP. Il miglior Random Forest ha ottenuto MSE 0.0259 (RMSE 0.1609, R² 0.253).

Informazioni

Il flusso parte dal caricamento in HDFS e dal join MapReduce tra metadati e voti. Notebook Spark puliscono il corpus, tokenizzano le recensioni e testano sei ipotesi (lunghezza, sentiment, influenza del rating, bias utente, categoria e scala dell’editore). Analisi locali vengono condotte in MongoDB, mentre repliche distribuite validano i risultati in Spark tramite correlazioni di Spearman, ANOVA e sentiment Naive Bayes. Per la predizione le recensioni sono incorporate con Gensim Word2Vec (30D e 150D); Random Forest, SVR (RBF) e MLP sono ottimizzati con GridSearchCV. Il miglior RF media bias e varianza (MSE 0.0259) e mette in luce i driver dell’utilità. Dashboard visuali mostrano editori top, focus di categoria e confermano che recensioni più lunghe, positive e con rating alti correlano con l’utilità solo fino a 400 parole.

Risultati Chiave

Random Forest

Best Model

0.026

MSE

0.25

R²

Scoperte Principali

•Una pipeline Hadoop/Spark ha fuso tre milioni di recensioni, pulendo il testo e verificando sei ipotesi su lunghezza, sentiment, bias di rating, comportamento utente, categoria e editore.
•Gli esperimenti locali in MongoDB e quelli distribuiti in Spark hanno restituito statistiche coerenti, mostrando che lunghezza e lessico positivo correlano con l’utilità solo fino a ~400 parole mentre il voto resta il driver principale.
•Gli embedding Word2Vec (30D/150D) hanno permesso ai Random Forest di superare SVR e MLP, evidenziando tramite dashboard editori e categorie con feedback costantemente utili.

Metodologia

Loaded ratings and metadata into HDFS, joined them with MapReduce, explored hypotheses in Spark and MongoDB, generated Word2Vec embeddings of reviews and trained Random Forest, SVR and MLP regressors evaluated via GridSearchCV.