Sommario
L’analisi statistica sarà indubbiamente l’unico mezzo che consentirà il progresso del-
le scienze sociali, dalle imprese sino alle politiche economiche e sopratutto la ricerca
medica. Questi ultimi dieci anni hanno incrementato notevolmente il potere di calcolo
degli elaboratori, rendendo possibile ed economico l’adozione delle tecniche di ricam-
pionamento come i metodi Jackknife e Bootstrap, che consentono di fare inferenza in
modo svincolato dalle assunzioni imposte dalla teoria classica sulla distribuzione della
popolazione. Il Bootstrap è molto utile nei casi in cui si dispone di poche osservazioni
campionarie ed inoltre fornisce una precisione superiore nel calcolo dell’errore standard
e degli intervalli di confidenza del parametro di una popolazione rispetto all’approccio
teorico standard. Dopo aver fornito una breve introduzione sugli aspetti teorici dei me-
todi Jackknife e Bootstrap e in seguito descritto i comandi base in R necessari per poter
utilizzare tali tecniche di ricampionamento, vengono effettuate delle simulazioni atte a
verificarne l’affidabilità e la potenza. I risultati dimostrano che i metodi Jackknife e Boo-
tstrap si comportano bene, in particolare emerge che l’ultimo è più robusto e accurato del
primo. Tuttavia questo lavoro rappresenta solo un punto di partenza poichè necessita di
ulteriori studi per essere migliorato e per contribuire alla ricerca in campo statistico.
INTRODUZIONE
La matematica è la regina delle
scienze e la teoria dei numeri è la
regina della matematica
Carl Friedrich Gauss
Dopo l’introduzione negli anni 60 del metodo Monte Carlo, si sono
sviluppati e successivamente diffusi i metodi di ricampionamento, basati
sull’utilizzo ripetuto dell’unico campione osservato. Il concetto fonda-
mentale della teoria del ricampionamento deriva dall’assunzione che esi-
ste una significativa validità statistica se viene sostituita alla funzione di
ripartizione della popolazione, la funzione di ripartizione del campione,
ottenuta costruendo una distribuzione di frequenza di tutti i valori che essa
può assumere in una data situazione sperimentale. All’epoca, l’esecuzio-
ne di un numero elevato di calcoli richiedeva un tempo non indifferente,
ciò giustificando la scarsa diffusione dei metodi di ricampionamento che
richiedono una grande quantità di calcoli.
1
Grazie al forte progresso tecnologico in ambito informatico, i limiti di
calcolo sono stati superati, tant’è che in questa nuova era, un discreto
elaboratore permette di compiere calcoli nell’ordine dei GigaFlops.1 Si
comprende perciò la grande importanza che oggi rivestono i metodi di ri-
campionamento nella statistica inferenziale.
Questo lavoro riprende in modo generale le ultime teorie sviluppate in
campo statistico riguardo le tecniche di ricampionamento per il calcolo di
stime dell’errore standard e degli intervalli di confidenza in un contesto
inferenziale, con particolare interesse a due metodi: Il Jackknife e il Boo-
tstrap. Tali metodi si basano sull’assunzione che un campione contiene
informazioni nascoste sulla distribuzione della popolazione, informazioni
che possono essere estrapolate solamente mediante tecniche di ricampio-
namento. L’aspetto maggiormente rilevante di tali tecniche è quello di uti-
lizzare un unico campione e ottenere da esso una serie di sotto-campioni
dai quali ottenere delle stime consistenti e corrette del parametro che si
intende sottoporre a verifica.
I metodi Bootstrap possono essere utilizzati a qualsiasi livello di analisi:
parametriche, semi-parametriche e non parametriche. Trovano applica-
zione non solo nel campo della ricerca ma anche nelle analisi quantitative
delle scienze mediche, sociali, economiche ed econometriche.
Tuttavia nonostante il grande potere di questi strumenti, risultano ancora
essere poco utilizzati.
Il primo capitolo tratta in modo formale la derivazione teorica dello sti-
matore Jackknife della deviazione standard e della varianza, con l’analisi
della distorsione di tali stimatori e la loro determinazione analitica.
1
Indicano la potenza di calcolo di un elaboratore, che in questo caso corrispondono a 109 operazioni al
secondo.
2
Ampio spazio è dedicato al metodo Bootstrap nella seconda sezione del
capitolo, ovvero stime Bootstrap della devianza standard, della varianza
e relativa distorsione. Viene fatto anche un cenno alla regressione con il
metodo Bootstrap come strumento idoneo a valutare il modello originale
anche in assenza delle condizioni di normalità e numerosità campionaria.
Una restante parte viene poi dedicata alla determinazione degli intervalli
di confidenza e al test delle ipotesi con stime Bootstrap.
Il secondo capitolo è interamente dedicato al linguaggio di programma-
zione per il calcolo statistico R, in questo capitolo si trattano i principali
aspetti del linguaggio R, le sue caratteristiche, le principali funzioni, i co-
mandi per la manipolazione dei dati, la creazione di vettori e matrici e
nell’ultima parte viene integrato il linguaggio R con la parte teorica dello
stimatore Jackknife e Bootstrap, attraverso esempi pratici che consentono
di comprendere il meccanismo di funzionamento del linguaggio R appli-
cato a problemi statistici in campo pratico.
Il terzo capitolo contiene dei casi empirici sui quali vengono messi in pra-
tica i metodi Jackknife e Bootstrap al fine di poter verificare con delle
simulazioni l’utilità di questi metodi. In particolare si vuole verificare la
proprietà dello stimatore Jackknife di ridurre la distorsione di uno stima-
tore non corretto ovvero il coefficiente di variazione. I risultati ottenuti
con il Jackknife confermano la teoria, difatti esso riduce sensibilmente la
distorsione dello stimatore del coefficiente di variazione. Dall’altra parte,
lo stimatore Bootstrap del coefficiente di variazione consente di ottenere
una stima del coefficiente di variazione decisamente più accurata, nono-
stante si disponga di un campione composto da poche osservazioni. Perciò
è possibile affermare che la performance del Bootstrap è empiricamente
dimostrata confermando l’utilità di tale metodo in ambito inferenziale.
3
CAPITOLO 1
ASPETTI TEORICI
In questo capitolo vengono descritti gli aspetti teorici della procedura
Jackknife e il metodo Bootstrap. Tali strumenti statistici trovano largo im-
piego grazie alla disponibilità a basso costo di elaboratori con un elevato
potere di calcolo. L’utilità di questi strumenti è che possono essere utiliz-
zati anche quando si dispone di pochi campioni con un numero limitato di
osservazioni e senza dover fare assunzioni particolari sulla distribuzione
del campione.
1.1 Lo stimatore Jackknife
Quenouille (1949) sviluppò un metodo per stimare la distorsione e l’erro-
re standard di uno stimatore attraverso una procedura di ricampionamento.
Tale procedura consiste nell’eliminare ogni volta una osservazione oppure
un gruppo di osservazioni dal campione, ottenendo così dei sotto campio-
ni sui quali calcolare la media campionaria e l’errore standard.
Sia
[
X1, X2, ..., Xn
i.i.d.∼ F
]
un campione casuale, di dimensione pari a n e
con distribuzione di probabilità F non nota.
4
ASPETTI TEORICI
Siano [X1 = x1, X2 = x2, ..., Xn = xn], le osservazioni campionarie.
Utilizzando l’informazione campionaria, è possibile stimare il valore atte-
so di X mediante la media campionaria:
x =
n
∑
i=1
xi
n
, (1.1)
inoltre è possibile stimare lo scarto quadratico medio della media campio-
naria:
σˆX =
√
1
n(n−1)
n
∑
i=1
(xi− x)2. (1.2)
Il metodo Jackknife richiede il calcolo di n medie campionarie, indicate
con xi, i = 1, ...n , una per ogni campione ottenuto eliminando
l’i-esima osservazione:
xi =
nx− xi
n−1 =
1
n−1 ∑
j 6=i
x j i= 1,2, ...n, (1.3)
nonché il calcolo della media degli pseudovalori:
x =
n
∑
i=1
xi
n
. (1.4)
Inoltre lo stimatore Jackknife della deviazione standard risulta essere
σˆJACK =
[
n−1
n
n
∑
i=1
(xi− x(.))2
]1
2
. (1.5)
Si osservi che questa formula può essere applicata ad un qualsiasi
stimatore θˆ = θˆ(X1, X2, ..., Xn) di θ , dove si sostituisce
θˆi = θˆ(X1, X2, ..., Xi−1, Xi+1, ..., Xn) con xi e θˆ con x .
5
ASPETTI TEORICI
1.1.1 Stima della distorsione di uno stimatore
La rimozione sequenziale delle osservazioni xi dal campione e la compu-
tazione della statistica θˆ oggetto di studio, genera una differente distribu-
zione di probabilità empirica:
Fˆ(i) : mass
1
n−1 x1, x2, ..., xi−1, xi+1, ..., xn (1.6)
alla quale corrisponde un nuovo valore della statistica:
θˆ(i) = θ(Fˆ(i)) = θˆ(x1, x2, ..., xi−1, xi+1, ..., xn). (1.7)
Inoltre, assegnato lo stimatore θˆ(.) , pari alla media di tutti gli stimatori
ottenuti dal ricampionamento
θˆ(.) =
1
n
n
∑
i=1
θˆ(i) (1.8)
è possibile calcolare la stima della distorsione,
B̂IAS = (n−1)(θˆ(.)− θˆ). (1.9)
Pertanto lo stimatore Jackknife non distorto di θ , risulta essere
θ˜ = θˆ − B̂IAS = nθˆ − (n−1)θˆ(.) . (1.10)
Lo stimatore Jackknife possiede una distorsione asintotica inferiore ri-
spetto alla classe degli stimatori tradizionali (per la dimostrazione si veda
l’appendice).
6