Metodi di selezione delle variabili:
Riduzione delle variabili per previene l’overfitting ovvero avere nel modello un numero eccessivo di parametri o parametri che non apportano significato al modello.
Indici di valutazione del modello:
Come comprendere se un modello è valido
R2
Il coefficiente di determinazione (R quadro) è un indice che misura il legame tra la variabilità dei dati e la correttezza del modello statistico utilizzato. Esso è legato alla frazione della varianza non spiegata dal modello. Tale indice varia da 0 a 1, più si avvicina ad 1 più il modello riesce a spiegare i dati. Tale indice è solitamente utilizzato nei modelli di regressione lineare. R2 tende a sovrastimare la bontà del modello nel caso in cui il modello sia in overfitting, ovvero quando il modello ha troppe variabili X. Per correggere tale problematica solitamente si fa riferimento ad una correzione di tale indice chiamato “R2 corretto” che penalizza i modelli eccessivamente complessi.
Esempio:
Il seguente esempio analizza la relazione, tramite un modello lineare, tra peso e altezza.
Leggi tutto “Indici di valutazione del modello:”