Capitolo 1
Catene di Markov
1.1 Definizioni e propriet` a generali
Un processo stocastico ` e una famiglia (X
t
)
t∈T
di variabili aleatorie definite
su uno stesso spazio di probabilit` a (Ω,F,P) ed a valori in (E,B
E
), doveB
E
` e una σ-algebra su E, cio` e
X
t
: (Ω,F,P)→ (E,B
E
), t.c.
X
−1
t
(B)∈F ∀B∈B
E
.
Se pensiamo che il parametro t, su cui ` e indicizzata la successione, sia un
istante temporale, allora possiamo considerare i processi stocastici come
modelli matematici di fenomeni aleatori che evolvono nel tempo.
Definizione 1.1 Siparladiprocessostocasticoatempo continuo seT⊂R
+
e di processo stocastico a tempo discreto se T⊂N
0
.
Per la nostra trattazione assumeremo che l’insieme E sia discreto, finito
oppure infinito numerabile e lo chiameremo spazio degli stati.
Definizione 1.2 Se, per qualche k in N, vale X
k
= i∈ E, diremo che il
processo si trova nello stato i all’istante k.
Definizione 1.3 Sianoi
0
,i
1
,...,i
n
∈E. Sidefinisce traiettoria dellacatena
una famiglia
{X
0
=i
0
, X
1
=i
1
,...,X
n
=i
n
}
di valori assunti dal processo.
1.1 Definizioni e propriet` a generali 9
Definizione 1.4 Un processo stocastico a tempo discreto (X
n
)
n∈T
, T⊆N
0
,
si chiama catena di Markov se, per i,j∈ E,n∈N, vale
P(X
n+1
=j|X
n
=i,X
n−1
=i
n−1
,...,X
1
=i
1
) = (1.1)
=P(X
n+1
=j|X
n
=i).
La(1.1)` enotacome propriet` a di Markov. Possiamo darneun’interpreta-
zione intuitiva nel modo seguente: per avere informazioni su quello che sar` a
il valore di X
n+1
occorre e basta conoscere quello assunto da X
n
, mentre la
conoscenza aggiuntiva dei valori di X
1
,...,X
n−1
` e superflua; in altre parole,
il comportamento futuro del sistema dipende solo dal presente e non dalla
sua storia passata.
La probabilit` aP(X
n+1
= j|X
n
= i) rappresenta una transizione della
catena dallo stato i allo stato j all’instante n.
Definizione 1.5 Le probabilit` a
p
ij
(n) =P(X
n+1
=j|X
n
=i) (1.2)
sono dette probabilit` a di transizione.
In questo lavoro ci siamo occupati di catene particolari:
Definizione 1.6 Si dicono catene di Markov omogenee nel tempo catene di
Markov per cui le p
ij
(n) non dipendono esplicitamente da n, ovvero catene
per cui valga p
ij
(n) = p
ij
per ogni n∈ N. Nel caso di catene omogenee la
(1.2) diventa
p
ij
=P(X
n+1
=j|X
n
=i). (1.3)
1.1.1 Matrice di transizione
Se l’insieme degli stati E ` e finito (diciamo di cardinalit` a N), possiamo di-
sporre i numeri p
ij
in una matrice quadrata P di dimensione N× N. Ci
riferiremo alla matrice P = (p
ij
)
i,j∈E×E
definendola semplicemente matrice
di transizione.
Proposizione 1.1 LamatriceditransizioneP godedelleseguentipropriet` a:
1. 0≤p
ij
≤ 1 per ogni i,j∈E;
2.
N
null j=1
p
ij
= 1 per ogni riga i fissata.
1.1 Definizioni e propriet` a generali 10
Dim. Tali propriet` a sono conseguenze dirette della definizione di p
ij
. Mostriamo,
per chiarezza, la seconda:
null j∈E
p
ij
=
null j∈E
P(X
n+1
=j|X
n
=i) =P
null null j∈E
{X
n+1
=j}|X
n
=i
null =
=P(X
n+1
∈E|X
n
=i) = 1.
Osservazione 1.1 Osserviamo quindi che, come funzione di j, p
ij
` e la pro-
babilit` a condizionata di X
n+1
, dato X
n
=i.
Osservazione 1.2 Spesso, nei testi che trattano questo argomento, la matrice
di transizione ` e definita come la trasposta di P e la notazione per indicare la
probabilit` a di transizione da uno stato i ad uno stato j ` e p
ji
invece di p
ij
(da cui
l’ovvia conseguenza che ` e la somma degli elementi delle colonne — e non delle
righe — ad essere uguale ad 1). Il vantaggio di questa scelta, diversa dalla nostra,
consiste nel ricordare la notazione comunemente usata nell’ambito dei modelli
deterministici. Infatti, se x
n+1
= Ax
n
rappresenta la dinamica di un sistema che
si evolve nel tempo, il termine a
ij
della matrice A rappresenta l’effetto che la
variabile y
j
ha su y
i
nell’intervallo di tempo [n,n+1].
Definizione 1.7 Una matrice che gode delle propriet` a 1 e 2 della proposi-
zione 1.1 ` e detta stocastica.
Se anche la somma degli elementi sulle colonne` e uguale a 1 allora la matrice
` e detta bistocastica.
Vedremo, nella prossima sezione, che la matrice di transizione P fornisce
la probabilit` a di una variazione di stato dopo un singolo passo temporale, e
inoltre vedremo che per calcolare la probabilit` a che la catena di Markov si
trovi, dopo m passi, in un dato stato j, dovremo calcolare le entrate della
potenza m-esima della matrice di transizione.
Definizione 1.8 Definiamo matrice di transizione dopo m passi la matrice
P
(m)
= (p
(m)
ij
)
i,j∈E×E
, le cui componenti sono date da
p
(m)
ij
=P(X
n+m
=j|X
n
=i) =P(X
m
=j|X
0
=i). (1.4)
Proposizione 1.2 Se la catena di Markov ` e omogenea, allora la matrice di
transizione dopo m passi P
(m)
coincide con la potenzam-esima della matrice
di transizione P, cio` e
P
(m)
=P
m
.
1.1 Definizioni e propriet` a generali 11
Dim.
p
(m)
ij
=
P(X
n+m
=j, X
n
=i)
P(X
n
=i)
=
null h∈E
P(X
n+m
=j, X
n+m−1
=h, X
n
=i)
P(X
n
=i)
=
=
null h∈E
P(X
n+m
=j, X
n+m−1
=h, X
n
=i)
P(X
n+m−1
=h, X
n
=i)
null P(X
n+m−1
=h, X
n
=i)
P(X
n
=i)
=
=
null h∈E
P(X
n+m
=j|X
n+m−1
=h, X
n
=i)P(X
n+m−1
=h|X
n
=i) =
=
null h∈E
p
hj
p
(m−1)
ih
.
Dal primo e l’ultimo termine di questa catena di uguaglianze si legge infatti
la definizione formale del prodotto tra matrici, P
m
= P
m−1
P, che si ottiene
induttivamente ponendo (P
2
)
ij
= (Pnull P)
ij
=
null k∈E
p
ik
p
kj
.
Osservazione 1.3 Possiamo osservare immediatamente che per m = 1 la
(1.4) si traduce nella (1.3). Notiamo, inoltre, che per m = 1 e m = 0 risulta,
rispettivamente, P
m
= P
1
= P e P
m
= P
0
= I dove, I indica la matrice
identica.
Proposizione 1.3 Se P ` e una matrice stocastica, allora anche P
n
` e stoca-
stica, per ogni intero positivo n.
Dim. Dimostriamo questa proposizione per induzione. Consideriamo quindi una
matrice stocastica P, di ordine N×N
P =
p
11
p
12
... p
1N
p
21
p
22
... p
2N
.
.
.
.
.
.
.
.
.
.
.
.
p
N1
p
N2
... p
NN
.
che soddisfi le propriet` a 1 e 2 della proposizione 1.1.
Mostriamo che tali propriet` a sono soddisfatte anche da P
2
.
Il generico elemento di posto (i,j) di P
2
` e del tipo
N
null k=1
p
ik
p
kj
, ed ` e chiaramente
non negativo e minore di 1. Mostriamo che la somma degli elementi sulle righe ` e
uguale a 1; per i fissato, calcoliamo
N
null j=1
p
(2)
ij
=
N
null j=1
null N
null k=1
p
ik
p
kj
null =
N
null k=1
p
ik
N
null j=1
p
kj
null nullnull null =1
=
N
null k=1
p
ik
=
(2)
1
1.2 Distribuzioni di probabilit` a legate ad una catena di Markov12
dove la prima uguaglianza ` e valida poich´ e si tratta di somme finite ed ` e possibile
invertire l’ordine delle sommatorie.
Supponiamoora che le propriet` a 1 e 1 della proposizione 1.1 valgano per P
n−1
e mostriamo che valgono per P
n
. Tutti gli elementi di P
n
, essendo somma di
prodotti dielementi diP eP
n−1
(perlequali vale (1)) sonoanch’essi nonnegativi.
Inoltre
N
null j=1
p
(n)
ij
=
N
null j=1
null N
null k=1
p
(n−1)
ik
p
kj
null =
N
null k=1
p
(n−1)
ik
N
null j=1
p
kj
null nullnull null =1
=
N
null k=1
p
(n−1)
ik
che ` e uguale ad 1 per ipotesi induttiva.
Pi` u in generale possiamo ottenere delle relazioni che legano le probabilit` a
di transizione al passo (m) e quelle al passo (n).
Proposizione 1.4 Per ogni coppia di istanti i,j in E e per ogni coppia di
interi positivi n,m si hanno le seguenti equazioni
p
(n+m)
ij
=
null k∈E
p
(n)
ik
p
(m)
kj
. (1.5)
Leequazioni(1.5)sononoteconilnomediequazionidiChapman-Kolmogorov.
Dim.
p
(n+m)
ij
=P(X
n+m
=j|X
0
=i) =
null k∈E
P(X
n+m
=j,X
n
=k|X
0
=i) =
=
null k∈E
P(X
n+m
=j|X
n
=k,X
0
=i)P(X
n
=k|X
0
=i) =
=
null k∈E
P(X
n+m
=j|X
n
=k)P(X
n
=k|X
0
=i) =
null k∈E
p
(m)
kj
p
(n)
ik
.
1.2 Distribuzionidiprobabilit` alegateaduna
catena di Markov
Per ogni n∈N
0
indichiamo con π
n
la legge di X
n
, cio` e π
n
=P
Xn
. Per ogni
i∈E abbiamo quindi
π
n
i
=P(X
n
=i) =P({ω t.c. X
n
(ω) =i}).
Pensiamo quindi a π
n
come a vettori riga di dimensione pari alla cardinalit` a
dell’insieme E (eventualmente infinita), per ogni n.
1.2 Distribuzioni di probabilit` a legate ad una catena di Markov13
Definizione 1.9 Diremo che la catena di Markov ha distribuzione iniziale
π
0
se vale
P(X
0
=i
0
) = π
0
. (1.6)
Il primo risultato matematico che presentiamo stabilisce che la probabi-
lit` a di una traiettoria ` e completamente caratterizzata dalla distribuzione di
probabilit` a dello stato iniziale X
0
e dalla matrice di transizione.
Teorema 1.1 Un processo stocastico (X
n
)
0≤n≤N
` e una catena di Markov
con distribuzione iniziale π
0
e matrice di transizione P se e solo se per ogni
i
0
,...,i
N
∈E si ha
P(X
0
=i
0
,X
1
=i
1
,...,X
N
=i
N
) = π
0
i
0
p
i
0
i
1
p
i
1
i
2
nullnullnull p
i
N−1
i
N
. (1.7)
Dim. Supponiamo (X
n
)
0≤n≤N
sia una catena di Markov con distribuzione ini-
ziale π
0
. Consideriamo il termineP(X
0
= i
0
,X
1
= i
1
,...,X
N
= i
N
); usando la
definizione di probabilit` a condizionata, l’espressione (1.6) e la propriet` a di Markov
(1.1), possiamo riscriverlo cos` ı
P(X
0
=i
0
,X
1
=i
1
,...,X
N
=i
N
) =
=P(X
N
=i
N
|X
0
=i
0
,...,X
N−1
=i
N−1
)P(X
0
=i
0
,...,X
N−1
=i
N−1
) =
=P(X
N
=i
N
|X
0
=i
0
,...,X
N−1
=i
N−1
)P(X
N−1
=i
N−1
|X
0
=i
0
,...,X
N−2
=i
N−2
)null nullP (X
0
=i
0
,...,X
N−2
=X
N−2
) =
=P(X
N
=i
N
|X
0
=i
0
,...,X
N−1
=i
N−1
)P(X
N−1
=i
N−1
|X
0
=i
0
,...,X
N−2
=i
N−2
)null ...
nullP (X
1
=i
1
|X
0
=i
0
)P(X
0
=i
0
) =
=π
0
i
0
p
i
0
i
1
p
i
1
i
2
nullnullnull p
i
N−2
i
N−1
p
i
N−1
i
N
,
e da questo segue la tesi.
Dimostriamo ora l’altra implicazione. Supponiamo che valga l’uguaglianza
(1.7) per N; riscriviamo il termine a sinistra come
P(X
N
=i
N
|X
0
=i
0
,...,X
N−1
=i
N−1
)nullP (X
0
=i
0
,X
1
=i
1
,...,X
N
=i
N
)
e sommiamo entrambi i membri su i
N
∈ I. Ricordando che
null j∈E
p
ij
= 1 notiamo
che (1.7) vale anche per N−1, cio` e
P(X
0
=i
0
,X
1
=i
1
,...,X
N−1
=i
N−1
) =π
0
i
0
p
i
0
i
1
p
i
1
i
2
nullnullnull p
i
N−2
i
N−1
.
Per induzione possiamo mostrare che
P(X
0
=i
0
,X
1
=i
1
,...,X
N
=i
N
) =π
0
i
0
p
i
0
i
1
p
i
1
i
2
nullnullnull p
i
n−1
in
(1.8)
1.2 Distribuzioni di probabilit` a legate ad una catena di Markov14
per n = 0,1,...N. In particolareP(X
0
= i
0
) = π
0
i
0
, cio` e la catena di Markov ha
distribuzione iniziale π
0
. Inoltre, per n = 0,1,...,N−1
P(X
0
=i
0
,X
1
=i
1
,...,X
N+1
=i
N+1
)
P(X
0
=i
0
,X
1
=i
1
,...,X
N
=i
N
)
=
π
0
i
0
p
i
0
i
1
p
i
1
i
2
nullnullnull p
i
n−1
in
p
ini
n+1
π
0
i
0
p
i
0
i
1
p
i
1
i
2
nullnullnull p
i
n−1
in
=
=p
i
n−1
in
.
come richiesto dalla definizione 1.4 di catena di Markov.
L’equazione (1.7) fornisce la distribuzione congiunta di una catena di
Markov ad N stati temporali consecutivi. Calcoliamo ora la distribuzione
della catena ad un generico istante k, cio` e calcoliamo la marginale n-esima
della (1.7).
Proposizione 1.5 Data una catena di Markov con matrice di transizione P
e distribuzione iniziale π
0
, la legge π
n
della catena all’istante n ` e data da
π
n
= π
0
P
n
. (1.9)
Dim. Calcoliamo la componenti di π
n
:
π
n
k
=P(X
n
=k) =
null h∈E
P(X
n
=k|X
0
=h)P(X
0
=h) =
null h∈E
p
(n)
hk
π
0
h
.
Dall’ultima relazione scritta osserviamo che i vettori π
0
e π
n
sono legati dalla
relazione (1.9): abbiamo dunque ottenuto la tesi.
Infine forniamo una generalizzazione del Teorema 1.1 definendo la distri-
buzione congiunta di (X
n
1
,X
n
2
,...,X
n
k
), dove gli n
h
sono k istanti generici.
Proposizione 1.6 Sia (X
n
)
n∈N
0
una catena di Markov. Dati gli istanti
0<n
1
<...<n
k
, si ha
P(X
n
1
=i
1
,X
n
2
=i
2
,...,X
n
k
=i
k
) =
null j∈E
π
0
j
p
(n
1
)
ji
1
p
(n
2
−n
1
)
i
1
i
2
nullnullnull p
(n
k
−n
k−1
)
i
k−1
i
k
.
(1.10)
Dim.
P(X
n
1
=i
1
,X
n
2
=i
2
,...,X
n
k
=i
k
) =
=P(X
n
1
=i
1
,...,X
n
k−1
=i
k−1
)nullP (X
n
k
=i
k
|X
n
k−1
=i
k−1
,...,X
n
1
=i
1
) =
=P(X
n
1
=i
1
,...,X
n
k−1
=i
k−1
)null p
(n
k
−n
k−1
)
i
k−1
i
k