News and Blog

Errore e robustezza: metriche “in-sample” ed “out-of-sample

Post giribone 3
AI nella gestione bancariaNews

Errore e robustezza: metriche “in-sample” ed “out-of-sample

A cura di Pier Giuseppe Giribone

Una delle primarie cause di fallimento del processo di generalizzazione è l’overfitting, concetto statistico ampiamente noto già prima della grande diffusione delle metodologie di Machine Learning. L’esempio seguente propone un criterio di misura della validità di un modello, ponendo il focus sulla suddivisione del dataset tra train e test. Si consideri, a titolo di esempio, una regressione atta a rappresentare al meglio la legge che governa il processo descritto dai punti sperimentali riportati nella Figura 1.

Figura 1 – Modelli di regressione polinomiale a confronto

Nella Figura 1 sono rappresentati 40 punti non descritti da una legge nota a priori. Il colore blu associato all’intero dataset sta a significare che il 100% del campione verrà impiegato per addestrare i modelli interpretativi.

In particolare vengono presi in considerazione tre modelli tradizionali di regressione polinomiale al fine di interpretare al meglio la legge che li ha generati:

– La linea blu è ricavata da un modello lineare, caratterizzato da due parametri che devono essere stimati a partire dal dataset di training (i punti blu).

– La linea arancio è generata da un modello quadratico, caratterizzato da tre parametri da stimare.

– la linea verde è stata tracciata a partire dai risultati ottenuti da un modello polinomiale di cinquantesimo ordine e, conseguentemente, dotato di un elevatissimo numero di parametri.

Il modello rappresentato dalla linea verde è intuitivamente caratterizzato da un problema di sovra-adattamento dei dati (overfitting), quello delle linea blu è troppo povero in termini di adattamento ai dati (underfitting), mentre la linea arancione è quella che anche visivamente meglio cattura l’essenza della legge che ha generato i dati.

Il modello quadratico è quindi quello che generalizza al meglio la relazione insita nei dati. Il vero quesito è la modalità con la quale questa intuizione possa essere trasmessa ad un computer.

Un concetto chiave risiede nel definire una misura statistica che consenta di confrontare l’errore del modello con quello sperimentalmente osservato, ovvero una sorta di valutazione del gap interpretativo.

Tra le misure più popolari utilizzabili per approcci regressivi se ne citano due, tra le più utilizzate:

Mean Absolute Error (MAE): definita come la somma degli errori presa in valore assoluto divisa per il numero degli elementi presenti nel campione.

Mean Squared Error (MSE): definita come la media degli errori al quadrato.

Se applicassimo direttamente tale misure all’intero batch di training, il miglior modello risulterebbe erroneamente quello in overfit, presentando il MAE e MSE più basso rispetto agli altri approcci.

Sample performance

Modello underfit: MAE = 7.28, MSE = 75.99

Modello correct fit:  MAE = 2.10, MSE = 6.72

Modello overfit:  MAE = 0.35, MSE = 0.36

Tali verifiche statistiche, affinchè evidenzino correttamente il miglior modello, è necessario condurle su dei dati non considerati nel training set. Questa porzione di dati, non considerati dall’algoritmo durante l’addestramento viene definito come test set.

La procedura proposta sarebbe quella di stimare il modello non per tutti i 40 dati sperimentali, ma escludere dal batch di training una porzione (ad esempio il 15%) sul quale stimare delle statistiche di performance out-of-sample, maggiormente idonee a valutare la bontà del nostro algoritmo.

Nella Figura 2 sono riportati in blu i dati scelti per addestrare i modelli, mentre in arancio i dati da usare come confronto. Lo splitting tra train e test deve essere condotto casualmente.

Figura 2 Train – test splitting

Stimando con il nuovo dataset di training (punti blu della Figura 2) le performance dei tre modelli si ottengono risultati analoghi ai precedenti:

In-Sample performance

Modello underfit: MAE = 7.04, MSE = 71.28

Modello correct fit:  MAE = 1.87, MSE = 5.77

Modello overfit:  MAE = 0.0009, MSE = 0.000000172 

Addirittura il modello overfit ha praticamente le misure nulle di errore. Valutiamo ora le medesime metriche applicate ai punti presi come test.

Testando i modelli con i dati non considerati in fase di addestramento, l’instabilità del modello in overfitting viene scoperta.

Out-of-Sample performance

Modello underfit: MAE = 8.56, MSE = 103.09

Modello correct fit:  MAE = 3.31, MSE = 12.6

Modello overfit:  MAE = 10e+9, MSE = 10e+16 

Riassumendo, le misure statistiche condotte su dati «nuovi» permettono una misura esterna affidabile ed indipendente delle performance di un modello.

I modelli underfit sono caratterizzati da errori alti in-sample ed out-of-sample, i modelli overfit hanno errori estremamente bassi in-sample ed estremamente alti (o instabili) out-of-sample. I modelli corretti hanno buone e stabili performance per entrambi in-sample ed out-of-sample.

La sfida pertanto è quella di trovare il numero di parametri che consenta un trade-off ottimale tra stabilità del modello e performance in-sample, ma soprattutto out-of-sample.

Nel caso della regressione polinomiale appena discussa, usando un polinomio di un grado molto prossimo al numero dei dati sperimentali si era certi nel riuscire a trovare una funzione che adattasse matematicamente perfettamente i punti.

Ma facendo in questo modo si era perso totalmente il concetto più importante di un modello statistico, ovvero la capacità di generalizzare. Il modello con l’overfitting si è rilevato instabile negli intorni dei punti sperimentali, aumentando di gran lunga l’errore calcolato.

Il fenomeno dell’overfitting, come appena dimostrato impiegando modelli econometrici classici, non è nuovo nella statistica tradizionale, ma assume un ruolo davvero critico nel Machine Learning in generale e nelle reti neurali profonde in particolare, ovvero laddove il numero degli iperparametri del modello è elevato.

Newsletter

Antiriciclaggio
& Compliance
Select the fields to be shown. Others will be hidden. Drag and drop to rearrange the order.
  • Image
  • SKU
  • Rating
  • Price
  • Stock
  • Availability
  • Add to cart
  • Description
  • Content
  • Weight
  • Dimensions
  • Additional information
Click outside to hide the comparison bar
Compare