Modalità di creazione serie-seriazione statistica
Il comando frequenza è un comando matriciale, lo si fa operare direttamente sull’insieme di celle.
Per elevare alla seconda *2
Il comando var.pop calcola la varianza dividendo per N
Il comando var divide per N-1
Frequenze teoriche = totale righe * totale colonna / totale generale
Deviazione standard = SQM
ASIMMETRIA
Asimmetria positiva : quando nel grafico è più pesante la coda a destra
Asimmetria negativa : quando nel grafico è più pesante la coda a sinistra
Per calcolarlo si usa l’indice di Fischer
:1 = M[(x-µ)3] / s3
Asimmetria positiva : :1 1> 0
Simmetria : :1 = 0
Asimmetria negativa : :1 < 0
CURTOSI
Distribuzioni leptocurtiche : ha code più pesanti rispetto alla distribuzione normale. Può essere più acuta. È più pesante per i valori lontanissimi e vicinissimi alla media rispetto a quella normale.
Distribuzioni platicurtiche : ha code più leggere della normale, è più bassa. Ha una frequenza maggiore di valori negli intervalli né troppo vicini né troppo distinti rispetto alla media.
Distribuzioni mesocurtiche : è simile alla normale.
γ2 = M[(x-µ)4] / σ4
Nella normale γ2 = 3
Se γ2 < 3 --> platicurtica
Se γ2 > 3 --> leptocurtica
Il valore che mi da excel lo devo confrontare con lo 0 non con il 3, perché excel usa il beta che è uguale a γ2 = -3
INTERVALLO
Si chiama anche range, o campo di variazione. È dato dal massimo meno il minimo.
MEDIA
In riferimento al consumo medio delle automobili, vediamo che la media è 18,53. Possiamo far valere questa media per tutta la popolazione: A seconda del campione di riferimento si hanno valori diversi della media campionaria, perché sono determinazioni di una variabile casuale.
La media campionaria è la media dei valori rilevati. Si potrebbe calcolare la media di tutte le medie campionarie, e si vedrebbe che è uguale alla media teorica. Mentre la varianza delle medie campionarie è un valore molto piccolo. A questo punto media e varianza delle medie campionarie possono essere utilizzate per avere informazioni sulla media reale di tutta la popolazione.
Se sappiamo che al 99% i valori sono compresi tra la media +/- 3SQM possiamo calcolare questo intervallo. A partire dal singolo dato, si può dire che il valore teorico della media è compreso tra questo range.
Le medie campionarie hanno un aspetto simile alla normale. Possiamo utilizzare questo risultato ai fini differenziali, per avere informazioni sulla media incognita della popolazione.
Il teorema dei limiti centrali dice che la somma di tanti errori si distribuisce in maniera normale. Quindi qualsiasi sia la variabile casuale, la media campionaria può essere rappresentata come una normale. Come media avrà la media teorica e come varianza la varianza della variabile casuale di partenza diviso la dimensione del campione che si va ad analizzare.
L’intervallo di confidenza viene anche chiamato forchetta.
Domanda: passa il referendum con il 0,55:
Se dicessi che l’intervallo di confidenza è (0,51;0,59) con 1-a = 0,99.
Si può concludere che il referendum passi.
Se l’intervallo di confidenza è (0,45;0,65). In questo caso l’intervallo di confidenza non consente di affermare che la fazione A vince.
L’intervallo di confidenza deve dare un’informazione netta.
IN EXCEL
Per generare un numero compreso tre 0 e 1 : = casuale ( )
Per passare da questo numero con distribuzione uniforme rettangolare alla variabile casuale normale : si fa una lettura inversa della variabile casuale normale. Passando dalla distribuzione rettangolare si arriva a una distribuzione campanulare.
Quindi per ottenere un numero della variabile normale standardizzata : = iv.norm.st (casuale()).
Per stabilire se questo è vero si costruiscono gli istogrammi. Bisogna innanzitutto definire le classi : estremi superiori classi. Nella rettangolare varia tra 0 e 1. Dopo di che si calcola la funzione di frequenza : = frequenza (insieme dati; insieme estremi superiori classi).
Per fare la rappresentazione grafica si selezionano le frequenze, si clicca il tasto che indica i grafici, si seleziona istogramma, cliccare su Serie, dove c’è scritto etichetta asse categoria x inseriamo i valori degli estremi superiori, poi si fa fine.
Passo successivo: togliere la parte grigia; per attaccare le colonne, bisogna selezionare in opzioni distanza tra le barre = 0. Un grafico così va bene solo se le classi hanno la stessa ampiezza, se no non si riesce a produrre il grafico.
I numeri indicati sotto sono gli estremi superiori delle classi, dove in mezzo c’è il valore centrale. Per indicare al posto degli estremi, i valori centrali, bisogna innanzitutto calcolarli nel foglio di lavoro. Visto che le classi hanno la stessa ampiezza basta togliere 0,05. Dopo di che si entra nel grafico, che in alto si può vedere che ha una formula, basta modificare la formula in riferimento alle cellule che indicano i valori centrali.
Nella variabile normale ipotizziamo di avere 10 classi di eguale ampiezza. L’estremo inferiore della prima classe è - 4, mentre l’estremo superiore dell’ultima classe è +4.
Provare poi a trasformare questi valori in una normale con media = 5 e varianza = 9. Una soluzione è farlo con inv.norm (casuale ();5;3).
ERRORE STANDARD
E’ la stima dello scarto quadratico medio della variabile casuale media campionaria. La varianza campionaria = S2. L’errore standard = S2/N. Per ottenere l’errore standard basta fare la radice quadrata di S2/N.
Per voler costruire un intervallo di confidenza al 95% : si prende la media campionaria e si toglie z(1-a/2). Ipotizziamo a = 0,05
Troviamo:
- z(1-α/2) = inv.norm.st(0.975)
- t(1-α/2;n-1) = inv.t(0,05;n-1)
- raggio dell’intervallo di confidenza : percentile * errore standard = z(1-a/2) * errore standard. Questo viene chiamato LIVELLO DI CONFIDENZA.
Intervallo di confidenza:
estremo inferiore x - raggio
estremo superiore x + raggio
Compito: costruire intervallo di confidenza per la media al 99% (file automobili).
Continua a leggere:
- Successivo: Formule per calcolare la regressione
- Precedente: Comandi rapidi della tastiera del computer
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.