Metodi di selezione delle variabili:

Riduzione delle variabili per previene l’overfitting ovvero avere nel modello un numero eccessivo di parametri o parametri che non apportano significato al modello.

Esempio:

Creo un modello in cui comprendere la relazione tra peso e le caratteristiche fisiche delle persone. Tra le caratteristiche fisiche potrei avere il colore degli occhi, tale parametro, insieme ad altri parametri, se lasciati nel modello, peggiorano le performance del modello in quanto non sono utili a stimare il peso di una persona. I metodi descritti in seguito evidenziano ed eliminano tali parametri inutili al fine della stima del modello.

Metodo Backward selection:

Partendo da un modello completo di tutte le variabili vengono eliminate una alla volta quelle ritenute superflue, ovvero che non portano giovamento al modello e lo rendono inutilmente complesso.

Metodo Forward selection:

Partendo da un modello senza variabili ne aggiunge una alla volta fino a creare il modello migliore.

Metodo Both selection:

Tale metodologia rappresenta un mix tra i due metodi precedenti, le variabili vengono inserite e eliminate fino a trovare il modello migliore.

Lambda di Wilks

Si tratta di una metodologia di selezione delle variabili per l’analisi discriminante che sceglie le variabili da inserire nell’equazione sulla base di quanto abbassano la lambda di Wilks. Ad ogni passaggio, viene inserita la variabile che minimizza la lambda complessiva di Wilks.