Asimmetria e curtosi
Di una distribuzione (ovvero i tuoi dati numerici) se effettuiamo un grafico che forma avranno ?
Introduzione alla statistica. Come iniziare un analisi: informazioni utili prima di partire con un analisi statistica. Come impostare un buon lavoro. Come individuare errori nel dataset.
Di una distribuzione (ovvero i tuoi dati numerici) se effettuiamo un grafico che forma avranno ?
Si utilizza quando i dati non hanno tutti la stessa importanza, ovvero vi sono dei pesi. Per pesi si intende un informazione aggiuntiva che modifica l’importanza. Ad esempio i voti all’università sono pesati dai CFU, un esame in cui abbiamo lo studente ha preso 30 ma vale 2 CFU e un esame in cui lo studente ha preso 20 che vale 10 CFU non fa in media 25 come nella media aritmetica non ponderata:
Il campo di variazione, noto anche come range, è una delle misure di dispersione più semplici e immediate utilizzate in statistica per descrivere la variabilità di un insieme di dati. Esso rappresenta la differenza tra il valore massimo e il valore minimo all’interno di un campione o di una popolazione.
Lo scarto interquartile è un indice di dispersione utilizzato in statistica per descrivere la variabilità di un insieme di dati. A differenza del campo di variazione, lo scarto interquartile si concentra sulla parte centrale della distribuzione, ignorando i valori estremi, rendendolo una misura più affidabile.
Gli indici di dispersione statistici sono strumenti matematici utilizzati per misurare quanto i dati di un insieme statistico siano distribuiti o sparsi rispetto a un valore centrale, come la media o la mediana.
In statistica, la devianza è una misura utilizzata per valutare la variabilità o la dispersione dei dati rispetto ad un valore di riferimento (solitamente la media). Tale indice è una misura di dispersione.
La devianza si calcola come la somma dei quadrati degli scarti di ciascun valore osservato rispetto alla media dei dati:
La varianza è una misura statistica che quantifica la dispersione di un insieme di dati rispetto alla loro media. In altre parole, indica quanto i valori di un dataset tendono a diffondersi attorno alla media aritmetica. Fa parte degli indici di dispersione.
In statistica il valore atteso è un numero che ci dice il risultato medio che possiamo aspettarci da una certa azione, come il lancio di un dado o il tiro di una moneta.
Per spiegare in maniera semplice il concetto di valore atteso si può immaginare di avere un dado numerato a 6 facce; lanciando il dado non sapremo mai cosa uscirà ma sappiamo che ogni faccia ha la stessa probabilità di uscire di 1/6. Il valore atteso rappresenta una previsione, che va a tener conto di:
I modelli supervisionati (classificazione o modelli machine learning) vengono effettuati sulla base di un insieme di addestramento.
Per valutare in modo non distorto le performance predittive dei modelli, il dataset è suddiviso in due parti: training set (80% delle osservazioni) e testing set (20% delle osservazioni). Si sceglie una metodologia di estrazione, solitamente il campionamento casuale.
Poiché le variabili da utilizzare debbono essere espresse nella stessa unità di misura si procede a standardizzare le variabili assunte in input. Si calcolano media μ e varianza σ2 delle distribuzioni di partenza, da esse si ottengono i punti zeta (standardizzati) di ciascuna variabile in base alla seguente espressione: