T DI TSCHUPROW

Indice per misurare una connessione tra due caratteri post chi-quadro

Per misurare la portata di una connessione tra due caratteri, la cui presenza è stata precedentemente verificata con l’indice chi-quadrato  , si ricorre all’indice T di Tschuprow che ha a numeratore l’indice di contingenza quadratico , il quale depura il  dall’effetto della numerosità N. Per costruzione, infatti, il valore dell’indice chi-quadrato aumenta al crescere di N o del numero di classi di una distribuzione.

Leggi tutto “T DI TSCHUPROW”

INDICE CHI-QUADRATO

Cos’è l’indice Chi-quadrato?

L’indice chi-quadrato viene utilizzato per misurare la connessione tra due variabili categoriche, ossia variabili che possono assumere come valori, un numero limitato di categorie. Un esempio di categoria è il genere (uomo o donna), un altro esempio è il titolo di studio (licenza elementare, media, diploma, laurea, ecc..). Per connessione si intende, invece, la dipendenza in distribuzione tra due caratteri (nell’esempio successivo vedremo come l’insorgere del diabete sia legato all’indice di massa corporea BMI).

Leggi tutto “INDICE CHI-QUADRATO”

LISREL

Esempio analisi fattoriale e regressione

Questo software statistico è stato sviluppato appositamente per l’analisi fattoriale, sia esplorativa che confermativa e la costruzione di modelli di regressione multivariata e modelli per equazioni strutturali (Structural Equation Modeling). Lisrel è un software specifico che permette di effettuare analisi che quasi nessun altro software permette, in particolare SEM (Structural Equation Modeling). Inoltre, è rinomato e apprezzato per la facilità di interpretazione dei risultati nella parte grafica e per la possibilità di effettuare test di ipotesi successivi all’analisi (esempio: le mie domande sono valide sia per i giovani che per gli anziani).

Leggi tutto “LISREL”

Indice di concentrazione di Gini

A cosa serve?

L’indice o coefficiente di concentrazione di Gini è una misura di variabilità utilizzata per descrivere la distribuzione di variabili quantitative, come reddito, voto ai partiti politici, numero di impiegati in un’azienda o numero di studenti iscritti alle varie facoltà universitarie. Ad esempio, si può usare per capire se in un determinato Paese del mondo il reddito è distribuito in modo pressoché uguale tra i cittadini o se invece è concentrato nelle mani di pochi ricchi e, dunque, vi è una forte disuguaglianza.

Leggi tutto “Indice di concentrazione di Gini”

Indice di correlazione di Pearson

Indicatore della relazione lineare

È un indicatore che misura la relazione lineare, in termini di forza e direzione, tra due caratteri quantitativi X e Y. Si dice che tra X e Y vi è correlazione positiva o concordanza se crescono o decrescono contemporaneamente. Si ha correlazione negativa o discordanza quando al crescere di un carattere, l’altro tende a decrescere.

Leggi tutto “Indice di correlazione di Pearson”

Bilanciamento del dataset

Training set, Test set e standardizzazione

I modelli supervisionati (classificazione o modelli machine learning) vengono effettuati sulla base di un insieme di addestramento.
Per valutare in modo non distorto le performance predittive dei modelli, il dataset è suddiviso in due parti: training set (80% delle osservazioni) e testing set (20% delle osservazioni). Si sceglie una metodologia di estrazione, solitamente il campionamento casuale.
Poiché le variabili da utilizzare debbono essere espresse nella stessa unità di misura si procede a standardizzare le variabili assunte in input. Si calcolano media μ e varianza σ2 delle distribuzioni di partenza, da esse si ottengono i punti zeta (standardizzati) di ciascuna variabile in base alla seguente espressione:

standardizzazione
Formula per il calcolo dei punti z per la standardizzazione

Leggi tutto “Bilanciamento del dataset”

Indici di valutazione del modello:

Come comprendere se un modello è valido

R2

Il coefficiente di determinazione (R quadro) è un indice che misura il legame tra la variabilità dei dati e la correttezza del modello statistico utilizzato. Esso è legato alla frazione della varianza non spiegata dal modello. Tale indice varia da 0 a 1, più si avvicina ad 1 più il modello riesce a spiegare i dati. Tale indice è solitamente utilizzato nei modelli di regressione lineare. R2 tende a sovrastimare la bontà del modello nel caso in cui il modello sia in overfitting, ovvero quando il modello ha troppe variabili X. Per correggere tale problematica solitamente si fa riferimento ad una correzione di tale indice chiamato “R2 corretto” che penalizza i modelli eccessivamente complessi.

Esempio:

Il seguente esempio analizza la relazione, tramite un modello lineare, tra peso e altezza.
Modello lineare
Leggi tutto “Indici di valutazione del modello:”

Alpha di Cronbach

Come comprendere se le domande sono correttamente inserite nei fattori latenti

Alpha di Cronbach è un metodo per valutare l’affidabilità come coerenza interna, è una misura di affidabilità globale di un gruppo di item. Quanto più l’indice Alpha è vicino ad 1 tanto più è elevata l’affidabilità.

Convenzionalmente si ritiene accettabile un valore di Alpha superiore a 0,70.
Leggi tutto “Alpha di Cronbach”