Indici di valutazione del modello:

Come comprendere se un modello è valido

R2

Il coefficiente di determinazione (R quadro) è un indice che misura il legame tra la variabilità dei dati e la correttezza del modello statistico utilizzato. Esso è legato alla frazione della varianza non spiegata dal modello. Tale indice varia da 0 a 1, più si avvicina ad 1 più il modello riesce a spiegare i dati. Tale indice è solitamente utilizzato nei modelli di regressione lineare. R2 tende a sovrastimare la bontà del modello nel caso in cui il modello sia in overfitting, ovvero quando il modello ha troppe variabili X. Per correggere tale problematica solitamente si fa riferimento ad una correzione di tale indice chiamato “R2 corretto” che penalizza i modelli eccessivamente complessi.

Esempio:

Il seguente esempio analizza la relazione, tramite un modello lineare, tra peso e altezza.
Modello lineare
Leggi tutto “Indici di valutazione del modello:”

Outlier: valori anomali, come individuarli e trattarli?

Outlier osservazioni che falsano i risultati

Gli outlier sono valori numericamente distanti dal resto dei dati raccolti, ovvero sono valori estremi. Le analisi che derivano da campioni contenenti outlier presenteranno risultati anomali. Il consulente statistico si occupa di comprendere la natura degli outlier, in base alla quale applicherà modelli o test più robusti per l’analisi che consentiranno di ottenere risultati attendibili.

Attenzione gli outlier non sono per forza errori!

Leggi tutto “Outlier: valori anomali, come individuarli e trattarli?”