Indici di dispersione

Devianza, varianza e deviazione standard

Gli indici di dispersione statistici sono strumenti matematici utilizzati per misurare quanto i dati di un insieme statistico siano distribuiti o sparsi rispetto a un valore centrale, come la media o la mediana.

Leggi tutto “Indici di dispersione”

Devianza

Cos’è la devianza ?

In statistica, la devianza è una misura utilizzata per valutare la variabilità o la dispersione dei dati rispetto ad un valore di riferimento (solitamente la media). Tale indice è una misura di dispersione.
La devianza si calcola come la somma dei quadrati degli scarti di ciascun valore osservato rispetto alla media dei dati:

Leggi tutto “Devianza”

Varianza

Misura quanto i dati sono differenti tra loro

La varianza è una misura statistica che quantifica la dispersione di un insieme di dati rispetto alla loro media. In altre parole, indica quanto i valori di un dataset tendono a diffondersi attorno alla media aritmetica. Fa parte degli indici di dispersione.

Leggi tutto “Varianza”

Valore atteso

Che numero mi aspetto se lancio un dado ?

In statistica il valore atteso è un numero che ci dice il risultato medio che possiamo aspettarci da una certa azione, come il lancio di un dado o il tiro di una moneta.

Per spiegare in maniera semplice il concetto di valore atteso si può immaginare di avere un dado numerato a 6 facce; lanciando il dado non sapremo mai cosa uscirà ma sappiamo che ogni faccia ha la stessa probabilità di uscire di 1/6. Il valore atteso rappresenta una previsione, che va a tener conto di:

Leggi tutto “Valore atteso”

Bilanciamento del dataset

Training set, Test set e standardizzazione

I modelli supervisionati (classificazione o modelli machine learning) vengono effettuati sulla base di un insieme di addestramento.
Per valutare in modo non distorto le performance predittive dei modelli, il dataset è suddiviso in due parti: training set (80% delle osservazioni) e testing set (20% delle osservazioni). Si sceglie una metodologia di estrazione, solitamente il campionamento casuale.
Poiché le variabili da utilizzare debbono essere espresse nella stessa unità di misura si procede a standardizzare le variabili assunte in input. Si calcolano media μ e varianza σ2 delle distribuzioni di partenza, da esse si ottengono i punti zeta (standardizzati) di ciascuna variabile in base alla seguente espressione:

standardizzazione
Formula per il calcolo dei punti z per la standardizzazione

Leggi tutto “Bilanciamento del dataset”

3 passi fondamentali per la preparazione dei dati

Chi ben comincia è già a metà dell’opera

Se hai raccolto i tuoi dati ricordati che la qualità dei dati è importantissima per la tua analisi.

Prima di eseguire qualsiasi test o modello è necessario:

  1.  Effettuare le statistiche descrittive
  2.  Controllare gli outlier
  3.  Comprendere dalle statistiche descrittive se vi sono problemi, come ad esempio degli NA (dati mancanti).

Se tutti questi 3 passi sono stati eseguiti correttamente, avrai dei dati che, statisticamente parlando, sono buoni per la analisi e avrai un idea, grazie alle statistiche descrittive, di come sia composto il tuo campione. Da ciò potrai formulare ipotesi da testare con i modelli o test.

Leggi tutto “3 passi fondamentali per la preparazione dei dati”

Outlier: valori anomali, come individuarli e trattarli?

Outlier osservazioni che falsano i risultati

Gli outlier sono valori numericamente distanti dal resto dei dati raccolti, ovvero sono valori estremi. Le analisi che derivano da campioni contenenti outlier presenteranno risultati anomali. Il consulente statistico si occupa di comprendere la natura degli outlier, in base alla quale applicherà modelli o test più robusti per l’analisi che consentiranno di ottenere risultati attendibili.

Attenzione gli outlier non sono per forza errori!

Leggi tutto “Outlier: valori anomali, come individuarli e trattarli?”

Frequenze: cosa sono e quali sono?

Frequenze, indici indispensabili per comprendere i tuoi dati qualitativi

  • La frequenza assoluta è il numero o conteggio delle unità che rientra in una determinata classe (intervallo) o fattore.
  • La frequenza relativa è la frazione o la percentuale di unità, rispetto al numero totale di unità, che ricade in una determinata classe (intervallo) o fattore. La somma di tutte le frequenze relative è 1 o in caso percentuale, 100%.
  • La frequenza cumulata è la frazione o la percentuale di unità che è inferiore ad una data soglia. La prima soglia sarà  uguale alla soglia della frequenza relativa, la seconda soglia sarà la somma della prima e della seconda soglia di frequenze relative e così via. L’ultima soglia sarà la somma di tutte le frequenze relative.

Leggi tutto “Frequenze: cosa sono e quali sono?”