Medie aritmetica ponderata

Indici di posizione

Si utilizza quando i dati non hanno tutti la stessa importanza, ovvero vi sono dei pesi. Per pesi si intende un informazione aggiuntiva che modifica l’importanza. Ad esempio i voti all’università sono pesati dai CFU, un esame in cui abbiamo lo studente ha preso 30 ma vale 2 CFU e un esame in cui lo studente ha preso 20 che vale 10 CFU non fa in media 25 come nella media aritmetica non ponderata:

Leggi tutto “Medie aritmetica ponderata”

Indici di dispersione

Devianza, varianza e deviazione standard

Gli indici di dispersione statistici sono strumenti matematici utilizzati per misurare quanto i dati di un insieme statistico siano distribuiti o sparsi rispetto a un valore centrale, come la media o la mediana.

Leggi tutto “Indici di dispersione”

Devianza

Cos’è la devianza ?

In statistica, la devianza è una misura utilizzata per valutare la variabilità o la dispersione dei dati rispetto ad un valore di riferimento (solitamente la media). Tale indice è una misura di dispersione.
La devianza si calcola come la somma dei quadrati degli scarti di ciascun valore osservato rispetto alla media dei dati:

Leggi tutto “Devianza”

Varianza

Misura quanto i dati sono differenti tra loro

La varianza è una misura statistica che quantifica la dispersione di un insieme di dati rispetto alla loro media. In altre parole, indica quanto i valori di un dataset tendono a diffondersi attorno alla media aritmetica. Fa parte degli indici di dispersione.

Leggi tutto “Varianza”

Valore atteso

Che numero mi aspetto se lancio un dado ?

In statistica il valore atteso è un numero che ci dice il risultato medio che possiamo aspettarci da una certa azione, come il lancio di un dado o il tiro di una moneta.

Per spiegare in maniera semplice il concetto di valore atteso si può immaginare di avere un dado numerato a 6 facce; lanciando il dado non sapremo mai cosa uscirà ma sappiamo che ogni faccia ha la stessa probabilità di uscire di 1/6. Il valore atteso rappresenta una previsione, che va a tener conto di:

Leggi tutto “Valore atteso”

Bilanciamento del dataset

Training set, Test set e standardizzazione

I modelli supervisionati (classificazione o modelli machine learning) vengono effettuati sulla base di un insieme di addestramento.
Per valutare in modo non distorto le performance predittive dei modelli, il dataset è suddiviso in due parti: training set (80% delle osservazioni) e testing set (20% delle osservazioni). Si sceglie una metodologia di estrazione, solitamente il campionamento casuale.
Poiché le variabili da utilizzare debbono essere espresse nella stessa unità di misura si procede a standardizzare le variabili assunte in input. Si calcolano media μ e varianza σ2 delle distribuzioni di partenza, da esse si ottengono i punti zeta (standardizzati) di ciascuna variabile in base alla seguente espressione:

standardizzazione
Formula per il calcolo dei punti z per la standardizzazione

Leggi tutto “Bilanciamento del dataset”