delle variabili indicatori della mancata risposta e di alcune variabili esplicati-
ve. Si valuta la concreta applicabilita` di questi modelli attraverso uno studio
di simulazione e successivamente attraverso un’applicazione a dati italiani
relativi a sondaggi elettorali post-voto.
La tesi viene cos`ı articolata: nel primo capitolo si introduce il problema
dei dati mancanti, elencando una classificazione formale e i principali metodi
proposti in letteratura per superare l’incompletezza delle rilevazioni.
Nel secondo capitolo si sono descritti i metodi di stima per variabili cate-
goriali con dati mancanti basati sulla verosimiglianza, con particolare atten-
zione a due argomenti che rappresentano la base teorica della tesi: l’algoritmo
EM e i modelli log-lineari.
Viene introdotto nel terzo capitolo il mondo dei sondaggi elettorali, una
breve storia e le differenze fra i vari tipi di rilevazioni elettorali (sondaggi,
proiezioni ed exit-polls).
Nel quarto capitolo viene presentato uno studio di simulazione dove si
applicano le tecniche presentate al secondo capitolo, successivamente, nel
quinto capitolo, i modelli vengono verificati con un’applicazione a dati reali.
In appendice vengono presentati tutti i risultati ottenuti ed il listato del
programma scritto per eseguire la simulazione.
Capitolo 1
I dati mancanti
1.1 Il problema dei dati mancanti
Nell’analisi dei dati provenienti da indagini campionarie si deve affrontare
spesso il problema dei dati mancanti. Le cause che conducono all’incomple-
tezza dell’informazione sono numerose e diverse, ma si possono riassumere in
tre grandi categorie:
1. mancata copertura
2. mancate risposte totali
3. mancate risposte parziali
Per mancata copertura si intende l’esclusione dalla lista di campionamen-
to di alcune unita` appartenenti alla popolazione obiettivo. Dato che queste
unita` hanno probabilita` nulla di essere selezionate, rimangono escluse dai
risultati dell’indagine. Le cause possono riguardare omissioni nel preparare
le liste della popolazione, esecuzioni difettose sul campo oppure la cattiva
qualita` delle liste di campionamento causata da mancate denunce o ritardi
2 Capitolo 1. I dati mancanti
di aggiornamento. Questo tipo di incompletezza e` abbastanza difficile da in-
dividuare e da trattare e la compensazione della mancata copertura avviene
utilizzando informazioni provenienti da fonti esterne
Il secondo tipo di incompletezza dei dati deriva dalla non risposta totale.
La non risposta totale puo` avvenire per rifiuto a collaborare da parte degli
individui oggetto dell’indagine, o perche` non si riesce a contattare l’indivi-
duo da intervistare, o l’intervistatore e` impossibilitato a comunicare con gli
individui, ad esempio per problemi di lingua o malattia, o ancora perche`
l’intervistatore perde il questionario.
L’effetto della mancata risposta totale puo` essere grave soprattutto quan-
do le persone non intervistate sono in qualche modo diverse da quelle inter-
vistate. Cio` puo` infatti causare distorsioni nelle stime dei parametri delle
quantita` di interesse.
L’ultimo tipo di incompletezza dei dati e` dato dalla mancata risposta
parziale. Per mancata risposta parziale si intende la mancata risposta ad
uno o piu` quesiti di un questionario. Tale situazione si ha se l’intervistato
si rifiuta o non e` in grado di rispondere ad una determinata domanda, o se
l’intervistatore si dimentica di fare o registrare una risposta, o ancora se la
risposta rilevata risulta incongruente e quindi cancellata in fase di revisione
dei dati, ed infine se vi sono stati degli errori nella registrazione del supporto.
Tale tipo di incompletezza risulta la piu` semplice da gestire in quanto si
dispone di una serie di informazioni ausiliarie sull’individuo in questione.
La conseguenza immediata della non risposta parziale e` che non si dispone
di un dataset rettangolare e dunque le analisi statistiche tradizionali non sono
piu` direttamente applicabili, inoltre diminuisce l’efficienza delle stime poiche`
la numerosita` campionaria viene ridotta.
1.1. Il problema dei dati mancanti 3
Per quanto riguarda il rifiuto a collaborare da parte dell’intervistato, le
variabili che hanno il potere di influenzare questo fenomeno della mancata
collaborazione sono [Bosio, 1997]:
• Caratteristiche del contesto sociale
Incidono sulla disponibilita` a rispondere caratteristiche generali del con-
testo sociale, quali il livello di urbanizzazione, l’adesione al valore della
privacy, la percezione di legittimazione delle istituzioni e il grado di
coesione sociale.
• Caratteristiche del proponente, dell’oggetto, degli scopi della ricerca
Appare ampiamente verificata la maggiore propensione a collaborare a
fronte di proponenti autorevoli o di ambito pubblico (universita`, organi-
smi di emanazione pubblica). Anche il tema dell’indagine (conoscenza,
rilevanza, interesse, riservatezza) influenza l’orientamento a cooperare;
sembrano qui in gioco dimensioni di valutazione non solo individuali ma
anche collettive: la desiderabilita` sociale dell’argomento o la dimensio-
ne dell’imbarazzo sociale. La conoscenza degli scopi di un’indagine
(finalita`, modalita` di impiego), infine, favorisce la partecipazione piu´
che la semplice informazione sui contenuti.
• Caratteristiche del disegno di ricerca
Tecniche specifiche di raccolta dei dati (indagine postale, telefonica,
personale) si dimostrano diversamente efficaci nell’arruolare i rispon-
denti. Le proprieta` dello strumento di rilevazione svolgono anch’esse
un ruolo non trascurabile: la lunghezza del questionario, il formato e il
colore, il “wording” e la diramazione delle domande.
4 Capitolo 1. I dati mancanti
• Caratteristiche delle persone del campione
E’ questa senza dubbio l’area piu´ esplorata e piu´ ricca di riferimenti,
sono state identificate connessioni fra propensione a rispondere e carat-
teristiche del rispondente, quali: eta`, istruzione, livello socioeconomico,
sesso e razza.
• Caratteristiche dell’intervistatore
Per quanto sia diffusa la consapevolezza circa l’importanza della va-
riabile intervistatore in rapporto al fenomeno dei non rispondenti, le
evidenze di ricerca sono scarse e spesso sono sostituite da considerazio-
ni di buon senso circa i tratti socioculturali, psicologici e professionali
desiderabili per un’intervistatore.
Prima di elencare i metodi presenti in letteratura per trattare i dati man-
canti presentiamo la terminologia che verra` usata in seguito, e le condizioni
che permettono di ignorare il processo generatore dei dati mancanti, quando
si fanno inferenze sui parametri di interesse.
1.2 Classificazione dei dati mancanti
In questo lavoro si usa la terminologia e la classificazione che e` stata introdot-
ta per la prima volta da Rubin [Rubin, 1976]. Secondo Rubin i dati mancanti
sono mancanti a caso (MAR - Missing At Random) se la probabilita` che un
dato sia mancante non dipende dal valore del dato stesso; i dati sono osser-
vati a caso (OAR - Observed At Random) se la probabilita` che un dato sia
osservato non dipende dal valore dei dati osservati. Se i dati sono mancanti a
caso (MAR) e osservati a caso (OAR) allora sono mancanti completamente a
caso (MCAR - Missing Completely at Random). Esemplificando nel caso di
1.2. Classificazione dei dati mancanti 5
due variabili casuali: si consideri X completamente osservata e Y con alcuni
valori mancanti. Se la probabilita` che un dato sia mancante non dipende ne`
da Y ne` da X allora i dati sono MAR e OAR; si puo` dire che sono mancan-
ti completamente a caso (MCAR). Se invece la probabilita` che un dato sia
mancante dipende da X ma non da Y allora i dati mancanti sono MAR, ma
i dati osservati sono OAR. Se viceversa tale probabilita` dipende sia da X che
da Y i dati non sono ne` MAR ne` OAR e il meccanismo che genera i dati
mancanti viene detto non ignorabile (Not-MAR).
Rubin dimostra che se si effettuano inferenze basate sulla distribuzione
campionaria di Y, ignorando il meccanismo che causa i dati mancanti, e` neces-
sario assumere che i dati siano mancanti completamente a caso (MCAR). Se
si effettuano invece inferenze basate sul principio di massima verosimiglianza
ed inferenze bayesiane, e` sufficiente assumere che i dati siano mancanti a
caso (MAR) e che i parametri θ e φ siano distinti cioe` lo spazio parametrico
congiunto di (θ, φ) sia il prodotto di due spazi parametrici.
Formalizzando quanto detto, si indichi con Y l’insieme dei dati completi
che si otterebbe in assenza di valori mancanti (Y e` una matrice (K × N)
di K variabili misurate su N osservazioni), con θ un vettore di parametri
ignoti e con f(Y | θ) la densita` di Y dipendente da θ. Cio` che interessa e`
fare inferenza su θ. Una volta specificato il modello per i dati completi, per
discutere degli effetti provocati dai dati mancanti e` conveniente introdurre
un modello anche per le non risposte. Si definisce allora per ogni componente
di Y una variabile indicatore R che prende valore 0 se la componente di Y e`
osservata ed il valore 1 se e` mancante:
Rik =
0 se Yik e` osservato
1 se Yik e` mancante
i = 1...N, k = 1...K.
6 Capitolo 1. I dati mancanti
Sia φ un vettore di parametri per il modello di non risposta e f(R | Y, φ) la
densita` condizionata della variabile casuale R dati Y e φ, cioe` la distribuzione
per il meccanismo di non risposta. Data la variabile R, la matrice Y dei dati
completa puo` essere partizionata in Y = (Yo, Ym) dove Yo sono le componenti
di Y che sono osservate e Ym quelle mancanti. Pertanto f(Y | θ) puo` essere
indicata anche con f(Yo, Ym | θ). Usando queste notazioni, i valori osservati
sono (Yo, R) con funzione di densita`
f(Yo, R | θ, φ) =
∫
f(Y | θ)f(R | Y, θ)dYm (1.1)
Si distinguono tre casi:
• Dati mancanti completamente a caso (MCAR)
Vuol dire che il meccanismo di non risposta non dipende da Y cioe` Yo
e R sono indipendenti, quindi si ha
f(R | Y, φ) = f(R | φ) (1.2)
L’equazione 1.1 puo` essere fattorizzata in
f(Yo, R | θ, φ) = f(R | φ)
∫
f(Y | θ)dYm (1.3)
Con il risultato che la densita` di Yo e` semplicemente l’usuale densita`
marginale
f(Yo | θ) =
∫
f(Y | θ)dYm (1.4)
In questo caso, se le inferenze sono basate sulla distribuzione campio-
naria, e` corretto ignorare il processo generatore dei dati mancanti in
quanto Yo puo` essere considerato un sottocampione casuale di Y .
1.2. Classificazione dei dati mancanti 7
• Meccanismo di non risposta ignorabile (MAR)
La probabilita` di non risposta dipende dalla risposta osservata Yo ma
non da quella mancante Ym, quindi i dati mancanti sono MAR ma i
dati osservati non sono OAR e il meccanismo viene detto ignorabile.
Il termine ignorabile sta ad indicare che non serve specificare un modello
di non risposta f(R | Yo, φ), o stimare i parametri, per ottenere valide
inferenze (basate sulla verosimiglianza) riguardo a θ1.
Per definizione
f(Y | θ) = f(Yo, Ym | θ) = f(Ym | Yo, θ)f(Yo | θ) (1.5)
Se si sostituisce la 1.5 in 1.1 e si considera che
f(R | Y, φ) = f(R | Yo, φ)
per il meccanismo di non risposta, risulta che la densita` dei dati osser-
vati si fattorizza in
f(Yo, R | θ, φ) = f(Yo | θ)f(R | Yo, φ) (1.6)
Se si e` interessati a fare inferenza su θ, si vede che f(R | Yo, φ) non da
alcun contributo alla verosimiglianza dei dati osservati e pertanto puo`
essere ignorata. Dall’equazione 1.6 si vede anche chiaramente che Yo e
R non sono indipendenti e quindi che la densita` di Yo dato R dipende
dal modello di non risposta.
1Da notare che e` il meccanismo di non risposta, non il dato mancante, che puo` essere
ignorato.
8 Capitolo 1. I dati mancanti
• Meccanismo di non risposta non ignorabile
Si e` in presenza di meccanismo di non-risposta non ignorabile quando le
probabilita` di non risposta dipende sia dai valori osservati che da quelli
non osservati. In questo caso valide inferenze possono essere fatte solo
specificando f(R | Y, φ). Inoltre se il modello di non risposta ha dei
parametri ignoti, questi devono essere stimati dai dati.
1.3 Metodi per trattare i dati mancanti
I metodi proposti in letteratura per l’analisi dei dati in presenza di osserva-
zioni mancanti si possono classificare in:
• Metodi basati sulle sole unita` osservate
• Metodi di imputazione
• Procedure di ponderazione
• Metodi basati sui modelli
Nel metodo basato sulle osservazioni complete vengono eliminate le rile-
vazioni parziali e l’analisi viene condotta considerando solo le unita` completa-
mente osservate. Si ha una maggiore semplicita` di trattazione, tuttavia non
si utilizza tutta l’informazione osservata (si riduce la numerosita` campionaria
e, quindi, l’informazione) ed e` indicato solo nel caso in cui l’ammontare dei
dati mancanti e` limitato e i dati mancanti sono mancanti completamente a
caso (MCAR).
I metodi di imputazione vengono usati prevalentemente nel caso di man-
cate risposte parziali e consistono nel sostituire i valori mancanti con valori
1.3. Metodi per trattare i dati mancanti 9
opportunamente calcolati. Rientrano in questa categoria molti criteri ef-
fettivamente usati in realta`, essi risultano particolarmente attraenti perche`
semplici e inuitivi e permettono di ricondursi a situazioni di dati completi
senza scartare nessuno dei dati osservati.
Le procedure di ponderazione sono usate per compensare la non risposta
totale e consistono nel modificare i pesi assegnati alle unita` effettivamente
osservate a rilevazione avvenuta al fine di rappresentare anche quelle non
registrate. Anche qui il vantaggio e` la semplicita` di applicazione, mentre gli
svantaggi riguardano le difficolta` nel reperire le informazioni per costruire i
pesi.
Un modo efficiente per trattare il problema dei dati mancanti e` quello di
ipotizzare un modello parametrico sottostante ai dati e stimare i parametri
di tale modello attraverso il metodo di massima verosimiglianza. Si e` visto
nel precedente capitolo che se si assumono dati mancanti a caso (MAR) e i
parametri della funzione di densita` dai dati sono distinti dai parametri del
meccanismo che genera i dati mancanti, si puo` fare inferenza sui parametri di
interesse attraverso la funzione di verosimiglianza, ignorando il meccanismo
che genera i dati mancanti.
Una esauriente trattazione di tutti i metodi per l’analisi dei dati in pre-
senza di dati mancanti viene presentata in [Little e Rubin, 1987].
10 Capitolo 1. I dati mancanti