
Valutare feature artigianali e deep per la classificazione fine-grained di dolci
I descrittori convoluzionali catturano anche le sfumature della glassa; le feature artigianali non tengono il passo.
Confrontati descrittori hand-crafted e feature derivate da CNN per classificare 15 categorie di torte (1.800 immagini). Le statistiche di basso livello (istogramma dei colori, direzione dei bordi, matrice di co-occorrenza) alimentavano un MLP ma si sono fermate al 31% di accuratezza, mentre le mappe di PVMLNet (layer −5) abbinate a un MLP hanno raggiunto il 90% sul test. Il transfer learning con PVMLNet fine-tunata si è fermato all’80%, evidenziando il valore delle rappresentazioni profonde.
Il dataset di 15 tipologie di torte (cioccolato, tiramisù, cheesecake, ecc.) è suddiviso 100/20 per classe in train/test. I descrittori artigianali—istogrammi di colore, istogrammi di direzione dei bordi, matrici di co-occorrenza—sono concatenati e normalizzati (mean-var, min-max, max-abs) prima di entrare in un MLP. Nonostante l’ottimizzazione, le prestazioni si fermano al 31% per l’elevata variabilità intra-classe. Si passa allora a PVMLNet: le attivazioni intermedie dai layer −1 a −7 vengono confrontate, con il layer −5 appiattito che raggiunge il 90% e converge in <100 epoche. Il transfer learning sostituisce l’ultimo layer di PVMLNet con l’MLP addestrato, ma il fine-tuning completo si ferma all’80%, inferiore all’approccio di feature extraction. L’analisi degli errori tramite confusion matrix evidenzia confusioni ricorrenti (es. chocolate-mousse vs ice-cream cake) e suggerisce idee di data augmentation.