6
l'informazione disponibile su un dato evento possono modificare le probabilità che l'evento stesso si realizzi.
Questi due aspetti non trovano spazio nell'approccio classico.
E' prevista una distribuzione "a priori" p(q ) sul parametro q che rispecchia l'opinione che se ne ha fino a quel
momento, questa viene aggiornata, grazie al teorema di Bayes, usando la verosimiglianza del campione p(Y/q );
ora, se si indica l'aggiornamento con p(q /Y), la formula è:
p q Y( )=
p Y q( )p q( )
p Y( )
;
questo è il fulcro dell'analisi bayesiana.
Nell'ambito di questo lavoro è proprio la presenza di dati censurati che costituisce l'informazione a priori
su cui basare l'aggiornamento. Un'osservazione che si può fare è che se si dà luogo ad una equiripartizione
rettangolare delle probabilità a priori allora aggiornamento e verosimiglianza coincidono.
7
CAPITOLO 1 - DATI MANCANTI
1.1 - DATI MANCANTI
Si possono distinguere due casi in base al motivo per cui i dati mancano:
- i dati non sono disponibili per motivi sconosciuti a chi li elabora e indipendentemente dal fatto che altre
osservazioni nel campione sono complete; in tal caso queste ultime costituiscono l'insieme dei dati utilizzabili e, se
non si è interessati all'efficienza delle stime, il fatto che manchino delle osservazioni non crea alcun problema,
viene semplicemente ignorato.
- la presenza di dati mancanti è strettamente collegata al fenomeno oggetto di studio e bisogna tenerne
conto nell'elaborazione.
Il secondo è il caso affrontato in questo studio.
1.2 - VARIABILI CENSURATE E TRONCATE
L'evidenza empirica genera dati in modo differente da quello con cui essi sono successivamente usati nei
modelli (per esempio si utilizza la spesa, discreta, per rappresentare il consumo, continuo), quindi nell'analisi dei
dati disponibili è il fenomeno il centro del problema. La teoria non fornisce indicazioni su come misurare i
fenomeni, quindi teorie diverse possono presupporre criteri diversi non solo relativamente alle conclusioni ma
anche per la "partenza", vale a dire per la misurazione, cioè, nel caso specifico, in come scegliere il tipo di
imputazione, come assegnare i valori di censura; questi generalmente sono forniti dal fenomeno stesso ma il modo
in cui devono essere trattati è deciso da chi elabora la teoria.
Il criterio più generale per descrivere il meccanismo di generazione dei dati è di supporre l'esistenza di un
processo di selezione (censura, inosservabilità, troncamento) per poter usare informazioni che provengono da
campioni non probabilistici, così il problema dei dati mancanti ha più facile trattazione e la selezione è più
strettamente legata al fenomeno. Il valore di censura non è nel modello ma nell'osservabilità, nella misura che si
può fare del fenomeno; se si ha un troncamento nell'insieme delle variabilili osservate cadono le ipotesi classiche
sul termine d'errore, infatti esso diventa funzione delle specifiche caratteristiche dell'oggetto misurato e si crea una
relazione con la formulazione del modello (l'errore non è più "white noise"), la conseguenza è che la stima fatta coi
minimi quadrati ordinari è distorta.
Il trattamento dei dati troncati e censurati non è affrontato nello stesso modo in ambito bayesiano e
classico, viste le differenze di fondo delle due teorie. In ambito econometrico i dati mancanti vengono "introdotti"
nel modello tramite una variabile latente atta a descrivere il fenomeno di censura o troncamento, però essa non ha
influenza dal punto di vista calcolatorio, resta inosservata e i dati usati per le stime sono quelli effettivamente
8
disponibili, tale variabile consente di descrivere adeguatamente il processo censorio che modifica il modello di
regressione trasformandolo da solo continuo in discreto e continuo congiuntamente.
In ambito bayesiano invece il trattamento di dati mancanti, censurati o troncati, è fatto generando le
imputazioni con algoritmi specifici per la generazione di numeri casuali che andranno a coprire i valori mancanti.
Lo scopo, in questo caso, non è solo la stima dei parametri d'interesse, ma, più che altro, l'individuazione di una
nuova distribuzione degli stessi determinata dalla struttura censurata delle informazioni, senza che la forma
originaria della distribuzione venga completamente snaturata.
1.2.1 - Variabili troncate
Quando i dati sono estratti da una sottopopolazione e si vuole utilizzarli per fare inferenza su
caratteristiche dell'intera popolazione ci si trova nell'ambito delle variabili troncate. La distribuzione troncata è la
parte della distribuzione originaria che sta sopra (o sotto) il valore di troncamento specificato. Se la distribuzione
non troncata è normale con parametri µ e σ si ha:
P(y >a) =1-Φ((a-µ)/σ)=1-Φ(α), dove Φ(.) è la funzione di ripartizione normale standardizzata.
La distribuzione normale troncata al punto a è quindi:
f y y > a( )=
f y( )
1− Φ a( )
=
=
1
s
f
y − m
s
1− Φ a( )
perciò si tratta di correggere la densità con un fattore di scala in modo che l'integrale per y>a sia pari a 1; φ(.) è
la densità della normale standardizzata.
I momenti della distribuzione troncata si definiscono generalmente come segue:
E y y > a( )= y f y y > a( )dy
a
∞
∫ .
Si possono fare due osservazioni relative ai valori che i momenti assumono a seconda che il troncamento
sia dall'alto o dal basso: nel primo caso infatti la media è più piccola dell'originale, nel secondo più grande e le
varianze sono, in entrambi i casi, inferiori.
Nel caso di normalità distributiva si definiscono:
E(y / troncamento) = µ + σλ(α)
Var (y / troncamento) = s 2 (1 - δ(α ))
9
dove:
l a( ) =
f a( )
1− Φ a( )
l a( ) =
−f a( )
Φ a( )
d a( ) = l a( ) l a( )− a( )
Il primo λ(α) (hazard function), si usa se y>a , il secondo se y<a , δ(α ) assume sempre valori compresi fra 0 e
1, estremi esclusi.
L'analisi della regressione con i criteri classici non si può fare quando sono coinvolte variabili troncate.
1.2.2 - Variabili censurate
Sono quelle i cui valori compresi in un certo intervallo oppure al di sotto (sopra) di una certa soglia sono
ridotti ad un unico valore: per esempio, i redditi che non superano la soglia di povertà sono registrati al livello della
soglia. Sostanzialmente il processo di censura è una "mancanza" nel campionamento; se i dati non fossero
censurati il campione sarebbe, probabilmente, rappresentativo. Il difetto delle tecniche classiche di regressione è
che non distinguono tra gli "zeri" dovuti alla censura e quelli che rappresentano valori osservati pari al livello limite
ed è questo a rendere distorte le stime. Per lo studio di dati censurati si definisce una nuova variabile y che è una
trasformata della y* originale:
y = 0se y ∗ ≤0,
y = y ∗ se y ∗ > 0.
Se y* è distribuita come una normale con parametri µ e σ la y sarà normale per y*>0 e pari a 1-Φ(µ/σ) per
y=0 , quindi la distribuzione della variabile censurata modificata è un misto di una parte continua e una discreta,
questo perché tutta la probabilità della regione censurata è assegnata al valore di censura (qui lo zero). I momenti
della normale censurata sono:
E y( )= Φ a( ) + 1− Φ( ) m + sl( )
Var y( )= s 2 1− Φ( ) 1− d( )+ a − l( )2Φ[ ]
10
con:
Φ((α−µ)/σ) = Φ(α) = Prob(y* a) = Φ, λ = φ/(1−Φ) e δ = λ(λ−α).
1.3 - ANALISI DELLA REGRESSIONE
L'analisi della regressione con i criteri classici non si può fare quando sono coinvolte variabili troncate o
censurate perché l'ambito nel quale si opera è limitato, il dominio della variabile dipendente è un sottinsieme (una
restrizione) di quello originale.
Nel modello di regressione censurato le variabili esogene -X - sono osservate anche per le unità in cui la variabile
dipendente assume valori superiori (o inferiori) alla soglia, mentre nel modello di regressione troncato queste
osservazioni sono completamente eliminate dal campione.
Un modo per affrontare la questione senza perdere di vista i presupposti dell'approccio classico è
descrivere i modelli di Tobin, che risultano efficaci soprattutto per l'analisi di piccoli campioni, nei quali la variabile
dipendente è limitata; essi sono detti TOBIT (Goldberger 1964) perché presentano caratteristiche simili ai modelli
Probit. La classificazione dei modelli Tobit può seguire due criteri: in base alla forma della funzione di
verosimiglianza oppure in base alla funzione media condizionata utilizzata nel modello di regressione.
Analizzando brevemente il secondo tipo di classificazione si può dire che il modello è sostanzialmente una
regressione fatta sui valori attesi definiti sopra; a seconda del tipo di indagine da fare si usa una diversa forma
della media condizionata. In generale si ha:
y
i
∗ = b T x
i
+ e
i
y
i
= 0 se y
i
∗ ≤ 0
y
i
= y
i
∗
se y
i
∗ > 0.
-per la variabile indice (indicatrice) detta anche variabile latente E y
i
∗
( ) é b
T
x
i
(1)
-se si considerano solo le osservazioni non censurate, il che non significa eliminare le osservazioni limite,
dato che in tal modo si otterrebbe semplicemente il modello di regressione troncato, si torna nell’ambito classico.
-per una osservazione estratta casualmente dalla popolazione che può o meno essere censurata si ha: (2)
11
E y
i
x
i
( )= Φ b
T
x
i
s
b
T
x
i
+ sl
i
( )
con l
i
=
f b T x
i
s( )
Φ b T x
i
s( )
Per esempio se si vuole fare una previsione sul numero di biglietti venduti ad uno spettacolo la grandezza da usare
è la media censurata (2), invece se lo scopo è analizzare la necessità di nuove apparecchiature per un'impresa è
più utile la media della variabile latente (1). Nei due modelli ci sono differenze anche a livello degli effetti
marginali, infatti nel primo (1) si ha:
�E y
i
∗
x
i
( )
�x
i
= b
mentre nel secondo (2):
�E y
i
x
i( )
�x
i
= bΦ b
T
x i
s
ovviamente la scelta fra i due dipende dal tipo di problema.
12
CAPITOLO 2 - L'APPROCCIO BAYESIANO
2.1 - ANALISI BAYESIANA DI DATI INCOMPLETI
Lo studio di dati incompleti porta a stime e valutazioni distorte se fatto con i criteri classici perché cadono
le ipotesi sulla distribuzione del termine d'errore; si è voluto quindi esaminare il problema con strumenti diversi e
precisamente quelli che hanno come fondamento l'approccio Bayesiano.
Il criterio di rilevazione dei dati troncati o censurati genera zeri dovuti al processo di censura; una
soluzione numerica si ottiene applicando gli algoritmi iterativi, in base ai quali il processo continua finché non è
soddisfatto un qualche criterio di convergenza o stabilità. Tali algoritmi sono gli strumenti per l'analisi bayesiana di
fenomeni descritti da campioni non casuali e che presentano particolarità dovute al "selection bias" : questa
espressione indica la distorsione generata dal fatto che i dati sono in un certo senso "selezionati" a causa dei
fenomeni di censura e troncamento, perciò non completi, questo genera campioni non casuali ed ha effetti negativi
sulle proprietà degli stimatori convenzionali.
2.1.1 - Il teorema di Bayes
La conoscenza a priori di una distribuzione sul parametro consente di aggiornare la valutazione della
probabilità del fenomeno in esame. Il teorema di Bayes analizza la questione partendo dall'ipotesi che il parametro
è una variabile casuale e che è nota una distribuzione su questo (a priori), inoltre deve essere specificato anche un
"modello" (verosimiglianza), che è definito partendo dai dati; la formula di Bayes pone in relazione queste due
quantità con la distribuzione a posteriori, cioè con il valore aggiornato della probabilità del parametro alla luce
delle nuove informazioni. Il processo di stima quindi non è una mera derivazione dei valori di parametri prefissati,
quanto piuttosto un continuo aggiornamento di convinzioni soggettive, personali sullo stato del mondo. Nel caso
studiato le informazioni a priori sono i fenomeni di censura dei dati che, come già detto, rendono improprio
l'utilizzo delle tecniche di stima classiche .
Condizionando rispetto ai dati osservati la formula di Bayes è il fulcro di tale metodologia e permette di
trovare la distribuzione a posteriori del parametro, che è:
p q Y( )=
p Y q( )p q( )
p Y( )
13
tale distribuzione può essere vista come la a priori che si realizza quando diventa disponibile un nuovo gruppo di
dati. Il principio basilare dell'approccio bayesiano è che la conoscenza delle caratteristiche della distribuzione dei
parametri viene continuamente aggiornata.
2.1.2 - La distribuzione a priori
E' utile ricordare che la scelta della distribuzione a priori da utilizzare nelle analisi non è mai banale, spesso
infatti condiziona i risultati. Capita che i dati sperimentali siano molto più informativi di qualunque informazione a
priori, perciò la specificazione di tutti i dettagli necessari a definirla, sebbene possano sembrare la cosa migliore
da fare, in realtà portano ad un incremento del peso calcolatorio, senza fornire efficace aiuto per il lavoro.
Una seconda osservazione relativa alla specificazione della a priori è la seguente: si può supporre che se
si sceglie una distribuzione non appropriata, "improper prior", oppure se non la si usa affatto, si ottengano gli
stessi risultati, ma nella realtà ciò non accade. Questo fatto, lungi dall'indicare l'inconsistenza dei metodi bayesiani,
mostra anzi che solo attenendosi fedelmente ad essi si riesce ad evitare il paradosso che è generato da una
violazione anche minima. Solo l'utilizzo di una "improper prior" non informativa fa sì che i risultati dell'analisi
bayesiana coincidano, spesso esattamente, con quelli dell'analisi fatta con gli strumenti usuali; ciò mostra come
non sia possibile rifiutare la "improper prior" senza dover contemporaneamente rifiutare i metodi ormai acquisiti
che portano agli stessi risultati.
2.2 - ANALISI BAYESIANA DEL MODELLO DI REGRESSIONE LINEARE CON LE IPOTESI
CLASSICHE
Il modello di regressione classico è costruito attorno alla distribuzione condizionata:
f y b ,s,X( )= N X b,s 2I[ ]=
= 2ps 2( )
−n 2
e
− 1 2s 2( )( )y− Xb( )T y −X b( )
L'analisi bayesiana parte dalla specificazione di una distribuzione a priori sui parametri. Se in un primo
tempo si suppone che tale "a priori" sia non informativa, cioè non si hanno informazioni di nessun tipo inizialmente
sui parametri, si ha un effetto nullo sulle stime che sono uguali a quelle ottenute con le tecniche classiche, ciò è
14
dovuto al fatto che la combinazione della "mancanza" di informazioni a priori sui parametri e dei dati campionari fa
sì che le stime siano strettamente definite da questi ultimi, perciò sono identiche a quelle classiche. La differenza
in questo caso non è percepibile tanto a livello di risultati, quanto piuttosto in relazione all'interpretazione che se
ne può dare, e, visto che l'unico apporto informativo è dato dal campione, è logico che le conclusioni dipendano
solo da esso e che coincidano con quelle classiche.
L'ipotesi alternativa è che la densità a priori del parametro sia informativa e che il suo influsso sulle stime
non sia trascurabile, ma anzi fortemente incisivo. La "a priori" informativa è fonte di complicazioni in termini di
calcolo, soprattutto quando si tratta di ottenere le marginali; per ovviare a tale complessità si introduce la
distribuzione a priori coniugata, ovvero la distribuzione predictive di cui si parlerà in modo approfondito più
avanti, che può essere vista come la densità a posteriori risultante da un'analisi precedente, e che, avendo la
stessa forma della densità condizionata, è più facile da integrare. Se si suppone che la densità a priori di β è
normale k-variata e σ è nota allora la posteriori è normale; invece se σ è incognita e anche per essa è definita una
distribuzione a priori allora la distribuzione a posteriori risultante diventa davvero complessa. La distribuzione a
priori coniugata per β e σ è:
f (β,σ)=f (β/σ)f (σ)
che è una gamma inversa.
2.2.1 - La distribuzione predictive
A questo punto conviene definire una funzione che avrà ampio uso nella trattazione seguente: la
distribuzione predictive.
Sia Y = y 1,...,y n( ) l'insieme dei dati osservati e y f indichi un'osservazione futura (oppure mancante o
censurata o troncata); la distribuzione "prevista" per y
f
(predictive distribution) è:
p y
f
Y( )= p y
f
Y ,q( )∫ p q Y( )dq
Una sua approssimazione si calcola col metodo Monte Carlo e da essa si ottiene un campione col metodo della
composizione.
Quando i dati a disposizione sono molti il processo inferenziale o decisionale è sostanzialmente
indifferente alla specificazione di una distribuzione a priori, mentre questa assume sempre maggiore peso se
l'informazione fornita dal campione diminuisce. A volte l'informazione a priori è disponibile in forma campionaria,
ma più spesso è soggettiva e demandata ad esperti che devono quindi pronunciarsi su caratteristiche di parametri
a loro per lo più sconosciuti. Le distribuzioni predictive hanno la funzione di ovviare a tale inconveniente, esse,
15
infatti, si basano sui campioni e coinvolgono variabili osservabili anziché parametri non osservabili e vengono
utilizzate per definire le distribuzioni a priori; inoltre non sono specifiche per un particolare modello, quindi si può
considerare uno stesso insieme di predictive al variare del modello scelto per descrivere il processo generatore
dei dati o della a priori. Dato come prima il vettore di osservazioni Y = y 1,...,y n( ), la distribuzione
campionaria f(y|θ) è nota con θ vettore dei parametri; l'inferenza classica si fonda su f(y|θ) vista come
distribuzione campionaria di y con θ fissato oppure come funzione di verosimiglianza di θ per valori fissati di y.
Nel processo inferenziale bayesiano su θ f(y|θ) è la verosimiglianza ed è un input per l'inferenza insieme con la
distribuzione a priori g(θ); per applicare il teorema di Bayes è necessario conoscere queste due distribuzioni e,
mentre la verosimiglianza, di solito, è nota, così non è per la a priori, soprattutto quando la dimensione dello
spazio dei parametri è elevata o i parametri non si possono supporre indipendenti a priori.
Sia t
i
= t
i1
,...,t
ip( ) un generico vettore di statistiche di cui si vuole conoscere la distribuzione. Per i
Bayesiani tale distribuzione, che è marginale rispetto a θ, è la predictive h t
i
( ) che è in relazione con la a priori e
con la verosimiglianza come segue:
h t
i
( )= f t
i
q( )
Θ
∫ g q( )dq
La distribuzione predictive è quindi una media pesata delle distribuzioni campionarie f t
i
q( ) con g(θ) che è la
funzione peso. Ora, dato che sia h t
i
( ) che f t
i
q( ) sono note, l'unico elemento incognito è la a priori; il
problema però non è più cercare una funzione alla cieca, quanto piuttosto trovare quella che rende il valore
dell'integrale il più possibile vicino alla predictive stimata. La scelta è certamente non facile e si complica se
l'ambito preso in considerazione è molto ampio, perciò è consigliabile porre dei vincoli restrittivi come, per
esempio, scegliere g che appartenga alla famiglia delle distribuzioni coniugate (come detto precedentemente) al
modello che descrive il processo generatore dei dati.
2.2.2 - Verosimiglianza nel caso di dati mancanti
Quando non tutte le unità presentano un valore della variabile in esame si prevede l'insieme completo delle
misure sempre tramite la formula di Bayes come segue:
f Y X( )= f Y q( )
f X q( )f q( )
f X q( )f q( )dq
Θ
∫Θ
∫ dq = f Y q( )f q X( )
Θ
∫
16
dove però la verosimiglianza f(X|θ) usata per l'aggiornamento non è semplicemente quella ottenuta sull'insieme dei
dati disponibili. Infatti, se è possibile avere un modello che descrive i dati completi e se si pone per ipotesi
l'indipendenza fra l'insieme dei dati completi e quello dei dati censurati, allora f(X|θ) si ottiene marginalizzando il
modello completo rispetto ai dati mancanti. Perciò per un generico dato x
i , j1
,...,x
i ,j
t
dell'i-esimo individuo che
ha solo t caratteristiche si ha:
f x
i , j1
,...,x
i , j
t
q( )= .. f X 1 ,...,X k q( )dx j
t +1
...dx
jk∫∫
l'integrale si ripete k-(t+1) volte. Tramite produttorie su tutti gli individui, i gruppi e su tutte le variabili si ottiene
V(X|θ) che è la verosimiglianza da usare nella formula per la previsione dei dati mancanti.
2.3-GLI ALGORITMI
Quelli descritti e utilizzati nel presente studio sono specifici per i dati a disposizione e per il tipo di analisi
che se ne vuole fare, infatti permettono di determinare la distribuzione di uno stimatore e di calcolare una statistica
test come il rapporto di verosimiglianza.
Specificamente gli algoritmi qui considerati sono quelli in cui i dati disponibili, che sono censurati, vengono
"aumentati" con dati mancanti, valori dei parametri, o statistiche sufficienti. Tale procedimento permette di
ottenere una forma più semplice della distribuzione a posteriori aumentata p(θ/Y,Z) e questa poi è il punto di
partenza per calcolare la p(θ/Y), cioè la distribuzione a posteriori su θ.
Si possono ricordare:
- algoritmo con aggiunta di dati (daa)
- algoritmi "del povero" (pmdaa)
- SIR (sampling / importance resampling)
- metodi di imputazione generali
- Gibbs sampling e algoritmo Metropolis
Tutti questi sono algoritmi Monte Carlo, usano numeri pseudo casuali e sono iterativi, inoltre consentono di
ottenere un campione di valori del parametro o una marginale dalla funzione di verosimiglianza o dalla
distribuzione a posteriori.
17
2.3.1 - DAA ( data augmentation algorithm)
Lo scopo di questo algoritmo è di ottenere la verosimiglianza o la distribuzione a posteriori di θ completa.
L'idea di fondo è aumentare i dati osservati (incompleti) Y con una quantità Z (dati latenti); si suppone che, dati Y
e Z, si possa campionare o fare calcoli dalla posteriori aumentata p(θ/Y,Z). Le imputazioni multiple di Z sono
generate dalla distribuzione predictive p(Z/Y), poi, per ottenere la posteriori su θ, si calcola la media delle
p(θ/Y,Z) sui valori imputati; poiché p(Z/Y) dipende dalla posteriori su θ, l'algoritmo con cui si trova la posteriori
è iterativo.
Ci sono due identità alla base del daa:
- posterior identity:
p q Y( )= p q Y ,Z( )
Z
∫ p Z Y( )dZ
- predictive identity:
p Z Y( )= p Z f ,Y( )p f Y( )
Θ
∫ df
Sostituendo la seconda nella prima e scambiando l'ordine d'integrazione si ha che la distribuzione a
posteriori soddisfa la seguente equazione integrale:
g q( )= K q ,f( )∫ g f( )df
dove:
K q,f( )= p q Z ,Y( )∫ p Z f ,Y( )dZ (1)
e g q( )= p q Y( ). Per risolvere la (1) si può usare il metodo delle sostituzioni successive oppure si può
applicare il metodo Monte Carlo alla posterior identity; quest'ultimo si sviluppa come segue:
a) (imputation step) genera un campione z 1,...,z m dall'attuale approssimazione alla predictive p(Z /Y).
b) (posterior step) aggiorna l'approssimazione corrente alla posteriori su θ in modo che sia una media delle
distribuzioni a posteriori aumentate su θ, dato il campione generato al punto precedente,cioè:
18
g
i+1 q( ) =
1
m p q z j ,Y( )j=1
m
∑ .
Data la valutazione corrente sulla posteriori, g
i
q( )( ), si applica il metodo di composizione alla predictive
identity per ottenere un campione di dati latenti.
a1 - generaq ∗ da g
i
q( ).
a2 - genera z da p Z q ∗ , Y( ), dove q
∗
è il valore generato in a1.
I due punti sono ripetuti m volte fino ad ottenere z 1,...,z m , note come "imputazioni multiple". Il daa consiste
nell'iterazione dei due passi -a - e -b-.
Due problemi importanti sono il controllo della convergenza dell'algoritmo e il calcolo del numero ottimo (m) delle
imputazioni. In generale si può fermare l'algoritmo in qualunque punto e realizzare un campione da p(θ/Y) invece
che da g(θ), pesando i valori campionari con pesi w
j
proporzionali a
p q
j
Y( )
g
i
q
j
( )
.
Ci sono più strumenti per la valutazione della convergenza (si ricorda l'analisi grafica di percentili selezionati o
della distribuzione a posteriori stimata). Si descrivono qui i tre metodi basati sulla distribuzione dei pesi w
j
visti
prima:
-primo - data l'approssimazione corrente alla posteriori g, se la stima corrente della distribuzione a posteriori è
buona, la distribuzione dei w
j
sarà degenere su una costante (pari a 1/m se i pesi sono normalizzati con
w
j
=1);
-secondo - si può costruire una serie di diagrammi che rappresentano la distribuzione dei pesi a una data
iterazione;
-terzo - si può calcolare un parametro che descrive la distribuzione dei pesi (per es. la deviazione standard) e
analizzare il suo andamento al crescere delle iterazioni, quando tale parametro comincia a fluttuare attorno a un
certo valore si può decidere di aumentare m o di terminare l'algoritmo in funzione del grado di precisione
richiesto.
Per precisione sembra utile descrivere brevemente il metodo della composizione su cui si basa l'algoritmo
daa:
sia f(y/x) una densità dove x e y possono essere vettori, il metodo permette di ottenere un campione
y 1 ,...,y m ≈
iid
J y( ) = f y x( )∫ g x( )dx e si sviluppa come segue:
a) si estrae x*~g(x)
b) si estrae y*~f(y/x*)
19
Questi due punti si ripetono m volte e il campione costituito dalle coppie x
i
,y
i
( ) è estratto dalla densità
congiunta h(x,y)= f(y/x)g(x), mentre le y 1 ,...,y m sono estrazioni iid da J(y).
Se x è una variabile casuale discreta si sceglie un intero (i) con probabilità g(i) e si estrae y* da f
i
y( ); il
campione risultante è estratto dalla distribuzione la cui densità è: f
j
y( )
j=1
∞
∑ g j( ).
Se x assume un numero finito n di valori si sceglie (i) con probabilità 1/n, si estrae y* da f
i
y( ) e ad esso si
assegna massa g(i); in questo caso il campione è estratto dalla stessa distribuzione, ma la sommatoria va solo fino
a n.
2.3.2 - Algoritmi daa del povero (PMDA)
Sono tre e sono utilizzati come buoni punti di partenza per l'analisi completa dei dati "aumentati" o per una
sua approssimazione. Sono detti "del povero" perché sono usati da chi non si può permettere direttamente
l'analisi daa completa.
-pmda 1
Avendo ottenuto con gli strumenti precedenti la moda ˆ q di p(θ/Y) l'algoritmo è il seguente:
- genero z 1,...,z m ≈ p Z Y ,
ˆ q ( )
- approssimo la distribuzione a posteriori con 1m p q z i ,Y( )i=1
m
∑ .
L'algoritmo è non iterativo e fornisce un'approssimazione che vale per forme non normali della posteriori.
- pmda exact
In questa versione il campione viene estratto dalla predictive esatta p(Z/Y) invece che da p(Z/Y,θ):
- genero z 1,...,z m ≈ p Z Y ,
ˆ q ( )
- calcolo w
j
=
p z
j
Y( )
p z
j
Y , ˆ q ( )
j = 1,...,m
- calcolo la posteriori come
w
j
p q z
j
,Y( )
j=1
m
∑
w
j
j=1
m
∑
.