9
Introduzione
Questa tesi affronta un tema oggetto di recente interesse tra gli economisti: lo
studio del ruolo che le aspettative su shock tecnologici di futura realizzazione
hanno nel determinare le realizzazioni macroeconomiche correnti. I
macroeconomisti si sono infatti resi conto che i cambiamenti nelle aspettative
sul futuro possono essere una grande fonte di fluttuazioni economiche. In questo
lavoro analizzeremo quindi un modello con “news shock”, partendo dalle
conoscenze offerte dalla letteratura in questo ambito.
Cos’è un “news shock”?
Un “news shock” è uno shock la cui realizzazione è attesa da parte degli agenti;
esso si modella come un elemento stocastico ritardato e consiste nell’aspettativa
razionale al tempo t della variabile al tempo t+1. Ovvero, a oggi gli agenti si
attendono che domani uno shock si realizzerà e colpirà la variabile al tempo
t+1. Poiché i modelli macroeconomici hanno equilibri basati su aspettative
razionali, i news shock influenzano le aspettative e quindi l’equilibrio delle
variabili al tempo t.
Ci sono ampie prove della presenza di news shock nelle quantità
macroeconomiche; si veda ad esempio come nonostante la diffusione di nuove
tecnologie possa richiedere tempo, l’impatto di queste è spesso anticipato dagli
agenti (si veda Beaudry e Portier (2006) per un’analisi con un modello VAR).
L'idea che i cambiamenti nelle aspettative circa il futuro andamento economico
delle esogene fondamentali possono rappresentare una fonte importante di
fluttuazioni aggregate ha una lunga storia in economia, che risale almeno a
Pigou (1927). In seguito Davis (2007), ha stimato l'effetto di uno shock
anticipato e costatato che esso spiega circa metà volatilità della crescita della
produzione statunitense. Il suo lavoro consisteva in una stima bayesiana di un
10
modello dinamico stocastico di equilibrio generale (DSGE) utilizzando i
convenzionali aggregati macroeconomici e suggeriva che news shock sono
importanti per capire le fluttuazioni economiche. Dopo Davis, Ippei Fujiwara,
Yasuo Hirose, e Mototsugu Shintani (2008), hanno stimato e confrontato il ruolo
di news shock in Giappone e negli Stati Uniti. A tal fine, hanno proposto un
modello dinamico stocastico di equilibrio generale, à la Christiano, Eichenbaum,
ed Evans (2005), includendo news shock sulla produttività totale dei fattori e
stimando il modello con metodi bayesiani. I loro risultati delle stime sul
Giappone e le economie degli Stati Uniti dimostrano che i news shock giocano
un ruolo importante nei cicli economici, con un orizzonte di previsione più
lungo hanno effetti più forti sulle variabili nominali, e che l'effetto complessivo
della produttività totale dei fattori sulle ore lavorate diventa ambiguo, in
presenza di news shock. Schmitt-Grohe e Uribe (2008) hanno studiato il ruolo di
news shock in un modello RBC (Real Business Cycle) facendo una stima
bayesiana strutturale del contributo di uno shock anticipato ai cicli economici
del dopoguerra negli Stati Uniti. Essi hanno scoperto che i due terzi della
volatilità del ciclo economico degli Stati Uniti possono essere attribuiti allo
shock tecnologico previsto. Recentemente Khan e Tsoukalas (2009), hanno
stimato un modello DSGE includendo news shock per la produttività totale dei
fattori e investimenti in tecnologia specifica, utilizzando dati trimestrali Usa
1954-2004 e metodi bayesiani.
In questa panoramica s’inserisce questo lavoro che si propone di studiare
l’influenza del news shock null
, da noi aggiunto nell’equazione di Eulero
loglinearizzata, sulle variabili macroeconomiche quali inflazione, output gap e
tasso d’interesse nominale che entrano in gioco nel nostro sistema. Il modello
che presentiamo è un modello Neo-Keynesiano del ciclo economico americano
per il periodo 1966:I – 2007:II. A differenza di quanto fatto da Schmitt-Grohe ed
Uribe (2008), noi studiamo il ruolo di news shock all’interno di un modello che
prevede la politica monetaria. In particolare facciamo entrare nel nostro modello
11
anche l’equazione di Taylor, che formalizza la funzione di reazione della banca
centrale agli aggregati macroeconomici, così come recentemente sostenuta da
Coibion e Gorodnichenko (2011). Inoltre diversamente dal loro lavoro noi
consideriamo news shock solo all’interno dell’equazione di Eulero log-
linearizzata.
L’approccio che usiamo per stimare il modello è quello bayesiano; tale
approccio permette di formalizzare l’uso delle distribuzioni a priori provenienti
da precedenti studi e creare un collegamento con la letteratura passata e inoltre
l’uso delle distribuzioni a priori per i parametri strutturali del modello rende più
stabile l’ottimizzazione lineare dell’algoritmo.
La struttura della tesi è la seguente.
Nel primo capitolo spiegheremo cosa sono i modelli DSGE, perché preferiamo
un modello di questo tipo per la nostra analisi ed illustreremo il metodo di stima
bayesiano usato con i suoi vantaggi. Nel secondo capitolo presenteremo
inizialmente un modello semplificato al fine di capire bene in cosa consiste un
news shock, in seguito il modello DSGE oggetto di studio con le equazioni che
lo compongono ed i dati utilizzati. Il terzo capitolo consiste nell’analisi
bayesiana vera e propria del nostro modello, ne riportiamo la convergenza, i
risultati del processo di stima, l’analisi delle densità a posteriori, le funzioni di
risposta ad impulso e la decomposizione della varianza dell’errore di previsione.
Nel quarto capitolo ripetiamo la stessa analisi separatamente per due
sottocampioni ristretti e li confrontiamo. Nel quinto capitolo forniremo tre
controlli di robustezza a sostegno della nostra tesi. Il sesto capitolo contiene le
conclusioni tratte da questo lavoro.
12
13
Capitolo 1
STIMA BAYESIANA MODELLI DSGE
1.1 Perché un modello DSGE
I modelli DSGE (Dynamic Stochastic General Equilibrium) sono molto usati dai
macroeconomisti contemporanei al fine di spiegare fenomeni economici
aggregati, quali la crescita economica, cicli economici, e gli effetti della politica
monetaria e fiscale, sulla base di modelli macroeconomici derivati da principi
microeconomici. Uno dei motivi principali per cui i macroeconomisti
preferiscono tali modelli rispetto ai più tradizionali modelli SEM o VAR è che a
differenza di tali modelli di previsione, i modelli DSGE non sono vulnerabili
alla critica di Lucas. Secondo Lucas, infatti, i modelli in forma ridotta fanno
previsioni poco probabili perché si basano sulle correlazioni passate osservate
sulle variabili. Egli sostiene che tali correlazioni potrebbero cambiare con
l’introduzione di nuove politiche, rendendo non valide le previsioni condizionate
alle politiche precedenti. I modelli DSGE superano la critica di Lucas perché
sono costruiti sulla base delle preferenze degli agenti, ai quali è possibile
chiedere se le politiche utilizzate sono pareto ottimali o anche come essi
soddisfino altri criteri di benessere sociale derivanti dalle loro preferenze.
Come per altri modelli di equilibrio generale, lo scopo di quelli DSGE è
descrivere il comportamento dell'economia nel suo complesso, analizzando
l'interazione di molte decisioni microeconomiche. Le decisioni considerate nella
maggior parte dei modelli DSGE corrispondono ad alcune delle principali
grandezze studiate in macroeconomia, come il consumo, il risparmio, l’offerta di
14
lavoro e la domanda di lavoro. I responsabili delle decisioni nel modello sono gli
'agenti', possono essere le famiglie, le imprese, i governi o le banche centrali.
Inoltre, come indica il nome, i modelli DSGE sono dinamici, studiano cioè
l’evoluzione dell'economia nel tempo. Sono anche stocastici, in quanto
l'economia è influenzata da shock casuali, come il cambiamento tecnologico, le
fluttuazioni del prezzo del petrolio, o cambiamenti nelle politiche
macroeconomiche.
1.2 Metodo di stima bayesiana
Per stimare il modello DSGE utilizzeremo la statistica bayesiana.
La differenza principale con l’inferenza frequentista sta nel fatto che il
parametro θ, non è più una quantità fissata ed incognita, ma diventa una
variabile aleatoria la cui distribuzione iniziale dipende dalle informazioni in
nostro possesso. Tale informazione è soggettiva ovvero varia da individuo a
individuo poiché rappresenta la sintesi delle informazioni che il singolo
individuo possiede sul problema specifico. Attraverso il Teorema di Bayes
possiamo formalizzare tutto ciò che conosciamo su θ in termini di una
distribuzione di probabilità iniziale o a priori null null null null , null ⊂ null ovvero una legge di
probabilità sui sottoinsiemi A di Θ, dove Θ rappresenta l’insieme dei valori
assumibili dal nostro parametro θ. Le informazioni a priori hanno dunque un
ruolo molto importante nell’approccio bayesiano, esse introducono nell’analisi
una componente soggettiva
1
.
1
Un altro ricercatore, con un diverso bagaglio di conoscenze, potrebbe arrivare a conclusioni
inferenziali diverse dalle nostre. Questo aspetto è tuttora al centro di un acceso dibattito
scientifico. I sostenitori dell’approccio bayesiano affermano che il fare uso di particolari
informazioni, contingenti, è il modo in cui ogni essere razionale opera in situazioni di
incertezza: non a caso, le persone prendono spesso decisioni differenti di fronte ad una scelta.
Chi critica questo approccio sostiene che la statistica, per conservare la dignità scientifica e
per poter essere utilizzata nella pratica, deve garantire una oggettività delle conclusioni che si
15
Distribuzione a priori e funzioni di verosimiglianza sono combinate dalla regola
di Bayes per dare la distribuzione finale o a posteriori. Vediamo come.
Le distribuzioni a priori possono essere viste come i pesi sulla funzione di
verosimiglianza, al fine di dare più importanza ad alcune zone del sottospazio
parametrico. Le distribuzioni a priori sono descritte dalla funzione di densità
null ( null | null ) , dove θ rappresenta il vettore dei parametri (che in statistica bayesiana
sono essi stessi variabili casuali), A è il nostro modello e null (∙) sta per funzione di
probabilità o densità a seconda che i parametri siano variabili casuali continue o
discrete.
La funzione di verosimiglianza descrive la densità delle osservazioni e può
essere scritta come p( null
| null , null ) , dove null
sono le osservazioni a disposizione.
La posteriori è quindi ottenuta come:
null null null | null
, null null = p null null
| null , null null ∗ null ( null | null ) ∫
p null null
| null , null null ∗ null ( null | null ) null ∝p null null
| null , null null ∗ null null null | null null = null null null | null
, null null
dove l’integrale al denominatore è una costante di normalizzazione e serve a
garantire ∫
null ( null | null
, null ) null = 1 .
La distribuzione a posteriori, è proporzionale al prodotto della distribuzione a
priori con la funzione di verosimiglianza (dato che la densità marginale è una
costante o uguale per ogni parametro), ovvero alla densità a posteriori non
normalizzata, chiamata anche posteriori di Kernel
2
. La distribuzione a posteriori
rappresenta la distribuzione di probabilità del parametro θ oggetto di interesse,
condizionata al risultato dell’esperimento. In esse è racchiusa tutta
l’informazione su θ e su di essa ci si basa per produrre indicatori sintetici, quali
possono trarre da un esperimento e perciò queste non possono dipendere dalle informazioni di
chi conduce l’esperimento.
2
Questa è l’equazione fondamentale che ci permetterà di ricostruire tutti i momenti delle a
posteriori di interesse. Il trucco sarà stimare la funzione di verosimiglianza con l’aiuto del
filtro di Kalman e poi simulare la posteriori di Kernel usando il campionamento o il metodo di
Monte Carlo così come il Metropolis Hastings.
16
la moda e la media a posteriori come vedremo per i parametri d’interesse nel
modello che andremo ad analizzare.
1.3 Passi del processo di stima
Per stimare la funzione di verosimiglianza si utilizza il filtro di Kalman
3
, che
permette di aggiornare la verosimiglianza ogniqualvolta arriva una nuova
osservazione.
Per ottenere la distribuzione a posteriori si simula attraverso l’algoritmo
Metropolis-Hastings, ritenuto in letteratura particolarmente efficiente. Tale
algoritmo opera in due passi.
Al primo passo del processo di stima cerca la moda della distribuzione a
posteriori cioè il punto più probabile della distribuzione, ottenuta
massimizzando la posteriori logaritmica di kernel, usando metodi numerici.
Al secondo passo del processo di stima, per simulare la distribuzione a posteriori
fino alle code, l'algoritmo si basa sul fatto che sotto le condizioni generali la
distribuzione dei parametri sarà asintoticamente normale. L'algoritmo costruisce
un’approssimazione Gaussiana attorno alla moda della posteriori e usa una
versione in scala della matrice di covarianza asintotica della matrice di
covarianza della distribuzione proposta.
Questo permette un’esplorazione efficiente della distribuzione a posteriori
almeno nelle vicinanze alla moda (An and Schorfheide (2007)).
L’algoritmo sceglie un punto iniziale null ′
, che tipicamente è la moda a posteriori,
con null ′
= null + null dove null ~ null (0, null ) e null è l’inverso della matrice hessiana calcolata
3
Il filtro di Kalman è un algoritmo ricorsivo per calcolare i momenti del vettore di stato null
condizionatamente alle osservazioni contenute in null
= null null
,…, null
null . Data la distribuzione di null
condizionata a null
, all’arrivo della nuova osservazione null
vogliamo aggiornare la
distribuzione di null
condizionata a null
. Il filtro consiste di due insiemi di equazioni, di
previsione e di aggiornamento.
17
nella moda a posteriori. Questo punto null ′
, viene sorteggiato a caso, tramite un
processo chiamato random walk Metropolis –Hastings, e solitamente si sceglie
un numero molto alto di pescate, di cui una parte viene poi eliminata, al fine di
convergere alla distribuzione ergodica della posteriori. Nel nostro caso faremo
400.000 pescate ed elimineremo il 90% dei sorteggi. Per decidere se accettare o
no questo punto scelto a caso, si calcola il tasso di accettazione: null = (
′
|
) ( |
) , e lo
si confronta con un punto u, realizzazione da una U(0,1). Se r > u, null ′
viene
accettato altrimenti si rifiuta.
Questo procedimento deve essere ripetuto un numero sufficientemente alto di
volte in modo da ottenere una quantità elevata di punti null ′
accettati che saranno
quelli che poi ci daranno la distribuzione a posteriori.
Una cosa da notare è che in questo meccanismo un ruolo importante è giocato da
null , anzi più precisamente è fondamentale il fattore scalare c posto davanti a esso,
cioè null ~ null (0, nullnull ) , perché tanto più c è piccolo tanto più il rapporto r è elevato e
viceversa. Inoltre questa matrice di varianza e covarianza del termine d’errore è
aggiustata in modo da ottenere un tasso di accettazione dei valori compreso tra il
23% e il 40%. Si sceglie questo intervallo di accettazione per evitare di cadere
nei due casi estremi: quello di accettare sempre o di rifiutare sempre. Infatti, se
accettassimo sempre, perderemmo probabilmente troppo tempo sulle code e
quindi rifiutiamo un po’ sulle code per accettare di più nella parte alta della
distribuzione. Nel caso opposto invece, cioè quello di rifiutare sempre,
riusciremmo solo a trovare la moda della distribuzione a posteriori ma non
saremmo in grado di disegnare il resto della distribuzione che è invece
l’obiettivo di questo metodo di simulazione.