dell’opportuna stratificazione del campione al quale somministrare i
questionari. Le problematiche connesse sono esposte nei primi due
capitoli.
Raccolti i dati dei rispondenti di ciascuna categoria individuata, sono
riportati i risultati di un’analisi statistica degli stessi effettuata mediante
la tecnica fattoriale delle corrispondenze multiple. Con questa tecnica si
possono evidenziare le caratteristiche che le singole macrosezioni di
imprese manifatturiere e l’intero campione contattato hanno rispetto al
fenomeno oggetto di studio.
CAPITOLO 1
IL CAMPIONAMENTO STATISTICO
1.1 Stime e stimatori
L�indagine campionaria ha come obiettivo la descrizione della �realt�� di
una popolazione oggetto d�indagine alla luce delle osservazioni condotte
su un insieme limitato di unit� estratte dalla popolazione stessa. Tali
unit� formano un campione che, in base alla specifica operazione di
estrazione prescelta, pu� anche non essere un sottoinsieme in senso
proprio della totalit�: si pensi, ad esempio, al caso in cui gli elementi
estratti, essendo ricollocati all�interno della popolazione, possono essere
selezionati pi� di una volta (estrazione con reimmissione). Inoltre,
qualora assuma rilievo informativo l�ordine nel quale le unit�
campionarie vengono estratte, e tale ordine � rappresentato da una data
sequenza di indici associarti alle n estrazioni, il campione prende il nome
di campione ordinato.
Nel seguito si avr� modo di constatare che la nozione pi� utile e naturale
e` quella di campione non ordinato senza reimmissione.
Comunque, una volta definita l�operazione che presiede alla sua
formazione, si pu� pensare al cosiddetto spazio campionario S, insieme
di tutti i possibili campioni che si possono formare con le unit� della
popolazione mediante la tecnica prescelta. Ad esempio lo spazio
campionario relativo ad estrazioni con reimmissione di campioni ordinati
di ampiezza n � dato da N
n
elementi (tanti quante sono le disposizioni di
N
n
π
i
A
ps
i
=
∑
()
0)( ≥sp
1)( =
∑
S
sp
N
elementi presi n a n ). Riguardo alla tecnica di estrazione senza
ripetizione di campioni non ordinati della stessa ampiezza avremo uno
spazio campionario composto da elementi (pari a tutte le
combinazioni di N elementi presi n a n).
A questo punto, immaginando di associare ad ogni campione s dello
spazio campionario S una misura di probabilit� p(s) tale che
e ,
si chiama piano di campionamento ogni funzione p(s) definita su S
che soddisfa le suddette condizioni.
L�intento � quello di �probabilizzare� lo spazio campionario cercando di
assegnare una probabilit� di estrazione a ciascun campione di grandezza
n (data o variabile) selezionato con una certa tecnica.
Quanto sopra esposto, ci consente di introdurre l�assai importante
nozione di probabilit� d�inclusione, la quale rappresenta la probabilit�
che una unit�, o un gruppo di unit�, appartenga al campione. In
particolare, considerando la generica unit� i della popolazione P e
l�insieme A
i
dei campioni dello spazio campionario S che contengono
l�unit� i, si definisce probabilit� d�inclusione del primo ordine, che
indichiamo con π
i
, la somma delle probabilit� dei campioni appartenenti
ad A
i
:
Se estendiamo la nozione al caso di un gruppo di due unit�, si avr� la
cosiddetta probabilit� d�inclusione del secondo ordine: siano i e j due
unit� della popolazione, e sia A
ij
l�insieme dei campioni che contengono
entrambe le unit�. La suddetta probabilit�, che indichiamo con π
ij
, � data
(Somma estesa a tutti i campioni dell�insieme A
i
)
π
ij
A
ps
ij
=
∑
()
dalla somma delle probabilit� dei campioni che appartengono all�insieme
A
ij
:
Un piano campionario � detto autoponderante se tutte le unit� della
popolazione hanno la stessa probabilit� d�inclusione del primo ordine.
A questo punto si ricorda che lo scopo dell�indagine campionaria �
quello di pervenire ad una serie di informazioni che, sulla base di
specifiche tecniche inferenziali, ci permette di fare luce su una o pi�
caratteristiche (parametri) della popolazione da cui il campione � stato
estratto. Tali tecniche si fondano su precise funzioni dei dati campionari,
dette stimatori, che, prescelto un dato campione, forniscono le cosiddette
stime dei parametri descrittivi della popolazione. � bene osservare che,
mentre lo stimatore, facendo riferimento al piano di campionamento, si
configura come variabile casuale, la stima, facendo riferimento ad un
particolare campione, assume un valore determinato.
In base a questa peculiarit� � possibile definire per il generico stimatore
una distribuzione campionaria: lo stimatore pu� assumere, in relazione
ad ogni possibile campione di una certa ampiezza, un determinato valore.
A ciascuno di tali valori � associabile la probabilit� che il campione da
cui esso scaturisce sia selezionato dalla popolazione, in base ad un
fissato piano di campionamento. Pertanto, a priori, lo stimatore presenta
una data funzione di probabilit� che ne definisce la distribuzione
campionaria.
(Somma estesa a tutti i campioni di A
ij
)
A fronte di un assegnato piano di campionamento, vi � una pluralit� di
stimatori possibili, nel cui ambito la scelta dovrebbe essere effettuata
sulla base delle propriet� di correttezza, consistenza, efficienza e, se
sussiste, di sufficienza. Il binomio costituito dal piano di campionamento
e dallo stimatore prescelto costituisce la strategia campionaria.
Consideriamo ora gli stimatori che naturalmente vengono utilizzati,
nell�ambito di un assegnato piano di campionamento, per risolvere i pi�
importanti problemi di stima, analizzando in particolare il caso di
variabili dicotomiche e quindi di stimatori relativi a proporzioni.
Una proporzione rappresenta la quota, esprimibile anche termini
percentuali, di soggetti che possiedono (o non possiedono) una certa
caratteristica, e quindi, in base ad essa, � possibile distinguere all�interno
della popolazione (e del campione) due classi complementari, C e C�, di
una certa numerosit�. Possiamo scrivere:
N° di unità in C Proporzione di unità in C
popolazione campione popolazione Campione
A a P = A/N p = a/n
in cui N e n rappresentano rispettivamente le numerosit� della
popolazione e del campione.
Ponendo, quindi, C la classe dei soggetti che, ad esempio, possiedono la
caratteristica, e C� quella dei soggetti che non la possiedono, possiamo
definire, tanto per la popolazione quanto per il campione, la variabile y
i
che assume valore 1 se l�unit� appartiene a C e valore 0 se l�unit�
appartiene a C� . � chiaro allora che:
per la popolazione, e
per il campione.
Volendo affrontare il problema della stima di P, possiamo ricondurci alla
stima della media Y di una popolazione qualsiasi in riferimento a una
variabile casuale Y non dicotomica, mediante la media campionaria y .
Non potendo, tuttavia, l�analisi prescindere dalla particolare tecnica di
estrazione del campione prescelta, consideriamo per il momento il
campionamento casuale semplice senza reimmissione, il quale �
considerato il criterio pi� elementare e intuitivo per formare un
campione. Nondimeno esso presenta una straordinaria importanza sia
perch� interviene nell�ambito di altri piani, sia perch�, anche per ragioni
di semplicit�, viene utilizzato per trattare molti problemi di teoria della
stima. Tale piano di campionamento � caratterizzato dal fatto che le unit�
vengono estratte una a una dalla popolazione senza reimmissione e con
ordine casuale, attribuendo di volta in volta alle unit� rimanenti la stessa
probabilit� di essere selezionate. Come accennato in precedenza, lo
spazio campionario generato dal procedimento di estrazione illustrato
YyA
Y
y
N
A
N
P
i
N
i
N
==
===
∑
∑
1
1
y
y
n
a
n
p
i
n
===
∑
1
;
n
N
n
N
/1
−
−
1
1
n
N
−
−
1
1
n
N
determina un numero di campioni alternativi pari a , i quali
presentano la stessa probabilit� di essere estratti, che � pari a .
� da notare che nel caso in cui la popolazione � infinita, non fa alcuna
differenza se l�estrazione delle unit� avviene in blocco o con
reimmissione (schema di estrazione bernoulliano), ma se essa � di
grandezza finita N, e il piano � quello descritto, lo schema di estrazione
diviene ipergeometrico, e le notazioni saranno quelle riportate di seguito.
Per quanto riguarda la probabilit� d�inclusione del primo ordine, se si
costruiscono tutti i campioni di n � 1 unit� tali che sia assente la
generica unit� i, essi saranno di numero pari a .
Inserendo successivamente in ciascuna combinazione l�unit� i, si
ottengono tutti i campioni di ampiezza n contenenti i, ovvero
campioni.
La probabilit� d�inclusione cercata � perci�:
dove A
i
� l�insieme dei campioni di S che contengono l�unit� i.
Procedendo in modo analogo per quanto riguarda la probabilit�
d�inclusione del secondo ordine, cio� la probabilit� che due unit� i e j
appaiano in un campione, si ha:
==
−
−
==
∑
N
n
n
N
n
N
sp
i
A
i
1
1
)(π tasso di sondaggio
)1(
)1(
2
2
)(
−
−
=
−
−
==
∑
NN
nn
n
N
n
N
sp
i
A
ij
π
()
n
S
N
n
N
nN
n
S
yV
22
1)(
−=
−
=
()
∑
=
−
−
=
N
i
i
Yy
N
S
1
2
2
1
1
()
∑
=
−=
N
i
i
Yy
N
1
22
.
1
σ
Si pu� constatare come tali probabilit� risultino indipendenti dalle
etichette, ossia dalle particolari unit� considerate.
Ora, in riferimento a questo piano, la media campionaria y si dimostra
essere uno stimatore non distorto della media della popolazione Y , in
quanto risulta che YyE =)( . La sua distribuzione presenta dunque una
dispersione che � misurata dalla sua varianza, che � pari a:
Si dimostra inoltre che [1.1] in
cui rappresenta una quantit� proporzionale
alla varianza della popolazione
Il risultato � senza dubbio interessante: conosciuto il tasso di sondaggio
n/N e il parametro S
2
, i dati del campione non solo permettono di stimare
il parametro oggetto di studio, ma anche di ricavare la stessa precisione
dello stimatore y . Notiamo altres� che la quantit� (N - n)/N rappresenta
una correzione per popolazioni finite
1
, la quale tende a 1 al crescere di N,
manifestando una convergenza tanto pi� rapida quanto pi� piccolo � il
tasso di sondaggio.
2
Quanto al parametro S
2
, esso pu� essere correttamente stimato dalla
1
Volendo esprimere il tutto in termini di varianza, tale correzione presenterebbe N-1 al
denominatore anzich� N.
2
Nel caso la correzione fosse vicina all�unit� ci si ricondurrebbe ad uno schema di
campionamento bernoulliano.
()
∑
−
=−=
S
Yy
n
N
YyEyV
2
2
1
)()(
1
)(
2
12
−
−
=
∑
n
yy
s
i
n
()
∑
=
−=
n
i
i
yy
n
1
2
2
1
σ
−
=
2
1
σ
n
n
quantit�
3
, proporzionale alla varianza campionaria
.
Infatti :
Inoltre:
Questo risultato permette di concludere che se si volesse indagare sulla
dispersione dei dati relativi alla popolazione attorno alla loro media, e
quindi di fatto risolvere un problema di stima del parametro S
2
(che per N
grande coincide con la varianza della popolazione), utilizzare come
stimatore, all�interno del piano di campionamento prescelto, la varianza
campionaria, non rappresenterebbe una scelta ottimale, in quanto essa
non presenta la propriet� della correttezza. Viceversa questa viene
recuperata facendo affidamento su una grandezza ad essa proporzionale
che � s
2
.
3
Il simbolo s non va confuso, naturalmente, con quello usato per indicare il campione.
()(){}()()
∑∑
==
−−−
−
=−−−
−
=
n
i
n
i
ii
YynYy
n
YyYy
n
s
11
222
2
1
1
1
1
() ()
∑∑
==
−
=−=
−
N
i
i
n
i
i
S
N
Nn
Yy
N
n
YyE
1
2
2
1
2
)1(
{}
22
)(
)( S
N
nN
YynE
−
=−
{}
2
2
2
)()1(
)1(
)( SnNNn
Nn
S
sE =−−−
−
=⇒
�
�
1
)1(
)2(
1
1
222
−
−
=−+
−
=
N
PNP
NPNPNP
N
S
n
s
N
n
yv
2
1)(
−=
[1.2] con [ ] )()( yVyvE = .
•
()
pq
n
n
n
yy
s
n
i
i
1
1
1
2
2
−
=
−
−
=
∑
=
Si evince che la dispersione della distribuzione dell�indice media
campionaria, in caso di S
2
incognito, � correttamente stimata mediante la
quantit�:
Queste considerazioni possono essere facilmente estese al caso di
variabili dicotomiche per risolvere problemi di stima che riguardano
proporzioni. Valgono infatti le seguenti relazioni:
• PYyEpE === )()(
ma
E quindi:
Ponendo poi Q= (1-P), si ha
Similmente:
[ ]
∑∑∑
∑∑
===
==
−+
−
=
−
+−
=
−
−
=
N
i
N
i
i
N
i
i
N
i
ii
N
i
i
YyYy
NN
YYyy
N
Yy
S
111
2
21
2
2
1
2
2
2
1
1
1
)2(
1
)(
∑∑
∑
∑∑
==
=
==
==
==
===
N
i
N
i
ii
N
i
N
i
N
i
ii
NPyYYy
NPYNY
NPAyy
1
2
1
2
2
1
2
11
2
;
;
.
1
2
PQ
N
N
S
−
=
•
•
• Infine
−
−
=
−
=
1
)(
2
n
nN
N
pq
N
nN
n
s
pv [1.4]
con
E(s
2
)=S
2
1.2 Metodi di stima
Una volta presi in esame i principali criteri per confrontare tra loro gli
stimatori e considerati analiticamente quelli che vengono prescelti
nell�ambito di un problema di stima della media e della varianza di una
popolazione qualsiasi (abbiamo poi esteso i concetti al caso di
popolazioni dicotomiche), dobbiamo affrontare il problema se una
particolare stima � �buona� o �cattiva�. In altre parole, fissata una certa
strategia campionaria, dobbiamo valutare se la singola stima prodotta
dallo stimatore θ
∧
sia sufficientemente vicina al parametro incognito θ
della popolazione.
Consideriamo una popolazione sulla quale � definita una variabile
casuale Normale Y di media Y e varianza
2
σ . Per semplificare la
notazione indicheremo la variabile casuale nel seguente modo:
Y ~ N(Y ,
2
σ ).
−
−
=
−
=
1
)(
2
N
nN
n
PQ
N
nN
n
S
pV
[1.3]
con E[V(p)] = v(p)
n
Yy
z
/σ
−
=
Estraendo con reimmissione da essa un campione di n unit� a
componenti casuali indipendenti e costruendo su di esso lo stimatore
media campionaria y , sapendo che l�n-pla estratta � una variabile
casuale, possiamo concludere che la media campionaria stessa, essendo
una combinazione lineare di variabili casuali, � una variabile casuale.
Per l�ipotesi fatta sulla popolazione, si pu� facilmente dimostrare che y si
distribuisce come una Normale, di media uguale al parametro Y e
varianza uguale a
2
σ /n:
y ~ N(Y ,
2
σ /n)
La sua funzione di densit� risulta pertanto essere:
4
La corrispondente variabile casuale standardizzata sar� in tal caso
distribuita come una Normale con parametri 0 e 1:
Osserviamo che se si considera sempre uno schema di campionamento
bernoulliano ma a priori non possiamo dire nulla circa la distribuzione
del carattere oggetto d�indagine sulla popolazione, per il teorema del
limite centrale vale:
~ N(0 , 1) per n sufficientemente grande
4
Ci� a prescindere dalle dimensioni del campione.
()
22
2/
2
2
)(
σ
σπ
nYy
e
n
yf
−−
=
n
Yy
z
/σ
−
= ~ N(0 ,1) la cui funzione di densit� �:
2/
2
2
1
)(
z
ezf
−
=
π
2
χ
()
2
1-n
2
2
~
1
χ
σ
sn −
αθ −=≤≤ 1)Pr(
ul
LL
Se invece lo schema di estrazione non � di tipo bernoulliano, bens�
ipergeometrico, in cui le unit� vengono selezionate senza reimmissione
da una popolazione di grandezza finita N, la varianza di y deve tenere
conto della correzione per popolazioni finite. Tuttavia, anche in questa
circostanza, il teorema del limite centrale conserva la sua validit�, ed �
possibile assumere l�approssimazione Normale per n sufficientemente
grande, a patto che il tasso di sondaggio sia abbastanza piccolo. Ci�,
peraltro, risulta significativo in caso di popolazioni dicotomiche
nell�ambito dei processi di stima di proporzioni.
Importante � anche ricordare la distribuzione dello stimatore della
varianza di una popolazione normale, che � data in termini della variabile
casuale , cos� definita:
Un importante procedimento di stima dei parametri incogniti di una
popolazione va sotto il nome di stima per intervalli ed � basato sulla
costruzione degli intervalli di confidenza. Il metodo ha lo scopo di
individuare un intervallo all�interno del quale il parametro incognito �
incluso con un preassegnato livello di probabilit� 1-α. La procedura
consiste dunque nel determinare, sulla base della distribuzione
campionaria dello stimatore, due valori, L
l
(limite inferiore) e L
u
(limite
superiore), in modo tale che:
per 0<α<1
in cui L
l
e L
u
sono, nell�universo dei campioni, variabili casuali in quanto
funzioni degli n elementi campionari, e dove 1-α � denominato livello di
confidenza. Un livello di confidenza pari, ad esempio, a 0,95 sta ad
indicare che su 100 campioni 95 daranno luogo ad intervalli che
includono il valore vero del parametro incognito. � chiaro allora che
sarebbe improprio affermare che con probabilit� del 95% il parametro
incognito � compreso in detto intervallo, in quanto la procedura riguarda
lo spazio campionario, non gi� il singolo campione osservato. Tuttavia,
poich� a priori la probabilit� di ottenere un campione cui � associato un
intervallo valido, ossia un intervallo che contenga il parametro, � del
95%, si ha �fiducia� che l�intervallo effettivamente determinato sia un
intervallo valido. Per gli intervalli di confidenza risulter� sempre una
relazione diretta tra il livello di confidenza e l�ampiezza dell�intervallo,
nel senso che all�aumentare del primo (che rappresenta l�attendibilit�
della stima mediante intervallo), aumenta l�ampiezza dell�intervallo e si
riduce la sua capacit� informativa. Chiaramente, un modo per ridurre
l�ampiezza dell�intervallo, a parit� di livello di confidenza, � quello di
aumentare la dimensione del campione. Ci�, infatti, diminuisce la
varianza della distribuzione campionaria dello stimatore e quindi
aumenta la precisione della stima.