Skip to content

Utilità dell’approccio esplorativo: l'analisi univariata

Consideriamo il seguente dataset.




ANALISI GRAFICA : distribuzioni di frequenza di attributi categorici (frequenza delle osservazioni per i diversi valori assunti dall’attributo).


ANALISI GRAFICA : distribuzioni di frequenza di attributi numerici discreti che assumono un numero finito e limitato di valori (come per categorici).



Posso così identificare se c’è un outlier.
ANALISI GRAFICA : diagrammi di dispersione dei valori osservati per attributi numerici.


- INDICATORI SINTETICI : indici di eterogeneità per attributi categorici e numerici discreti (es. entropia).
- INDICATORI SINTETICI : indici di posizionamento centrale per attributi numerici.
* Come dice il nome, consentono di identificare la zona centrale per i valori osservati di un attributo numerico (si chiamano anche indicatori di tendenza centrale):
* media aritmetica campionaria (somma dei valori di una distribuzione diviso il numero dei valori)
* mediana (il valore che occupa la posizione centrale di una distribuzione)
* moda (il valore più frequente di una distribuzione)
Nel caso del nostro dataset, per l’attributo temperatura abbiamo i seguenti valori:
* Media aritmetica campionaria = somma dei valori diviso il numero di valori = 23,07
* Mediana = valore centrale delle osservazioni (supponendo di averle ordinate in senso crescente) = 22
* Moda = valore più ricorrente nelle osservazioni = 22
Mentre per l’attributo umidità relativa abbiamo i valori:
* Media aritmetica campionaria = somma dei valori diviso il numero di valori = 80,29
* Mediana = valore centrale delle osservazioni (supponendo di averle ordinate in senso crescente) = 80
* Moda = valore più ricorrente nelle osservazioni = 70
- INDICATORI SINTETICI : indici di dispersione per attributi numerici.
* Descrivono il grado di variabilità che le osservazioni manifestano rispetto ai valori centrali. Il più noto è la deviazione standard campionaria definita come radice quadrata della varianza campionaria (a sua volta definita come media dei quadrati degli scarti – lo scarto quadratico medio - rispetto alla media aritmetica campionaria). Minore è il valore dell’indice, minore è la dispersione dei valori intorno alla media campionaria.
- INDICATORI SINTETICI : indici di dispersione per attributi numerici.
Varianza e deviazione standard possono essere utilizzati per delimitare l’intervallo intorno alla media campionaria nel quale è ragionevole attendersi che cadano i valori del campione.
Umidità relativa
Media = 80,29
DevStd = 9, 84


Valuta questi appunti:

Continua a leggere:

Per approfondire questo argomento, consulta le Tesi:

Puoi scaricare gratuitamente questo appunto in versione integrale.