INTRODUZIONE
Statistical thinking will one day be as necessary for
efficient citizenship as the ability to read and write.
HERBERT G. WELLS, 1866-1946
I processi stocastici riguardano successioni di eventi (sia nel tempo che nel-
lo spazio) governati da leggi probabilistiche. Fenomeni nei quali entrano in
gioco quantità non prevedibili con certezza e che nel mondo reale risultano
complessi vengono descritti tramite modelli stocastici e leggi probabilisti-
che che ne formalizzano, in maniera semplice ed elegante, i vari elementi
che li caratterizzano. Di questi fenomeni se ne incontrano molti, e una pro-
va di ciò sta nella presenza dei processi stocastici in molti e diversi campi
di studio quali la fisica, la biologia, la medicina, la psicologia ed in altre
discipline.
In questo primo capitolo si è preferito inserire una parte, che stabilisce la
terminologia e le notazioni del testo, costituita da definizioni e teoremi
necessari alla comprensione degli argomenti protagonisti della tesi ed una
seconda parte puramente storica riguardante la nascita dell’interesse per i
processi e i modelli stocastici ed il susseguente sviluppo.
1.1 Nozioni preliminari
n insieme è una collezione di oggetti chiamati elementi. Un sottoinsieme B
U
di un insiemeA è un insieme i cui elementi sono anche elementi diA. Tutti
gli insiemi presi in considerazione saranno sottoinsiemi di un insieme che sarà
1
1.1. NOZIONI PRELIMINARI 2
chiamato spazio. Nella teoria della probabilità lo spazio è detto evento certo
o spazio campionario, i suoi elementi risultati sperimentali e i suoi sottoinsiemi
eventi. L’insieme vuoto; è l’evento impossibile e l’evento consistente in un singolo
elemento è detto evento elementare.
1.1.1 Spazi di probabilità, indipendenza, leggi 0 1 e
Borel-Cantelli
Allo scopo di misurare la probabilità di un evento si aggiunge allo spazio una
struttura di misura che porta alla nozione di -algebra.
Definizione 1.1 ( -algebra). Una collezione A di sottoinsiemi di è chiamata
-algebra se sono soddisfatte le seguenti tre proprietà:
(i) 2A,
c
(ii) A2A)A = nA2A,
S
(iii) A 2A) A 2A.
n n
n2N
Se A è una -algebra, si dice uno spazio misurabile, e gli elementi di A si
chiamano insiemi misurabili in . Se è uno spazio misurabile,Y è uno spazio
topologico, e f è un’applicazione di in Y , si dice che f è misurabile quando
1
f (A) è un insieme misurabile in per ogni aperto A contenuto in Y . Inoltre
si chiamerà filtrazione, dato uno spazio misurabile ( ,F), una successione di -
algebrefFg conF F per ognit e
t t 0 t
t t )F F ,
1 2 t t
1 2
dove l’insieme dei valori dit può essere discreto o continuo, limitato o non.
Osservazione 1.1. SeA è una -algebra eA è una successione inA, allora sono
n
soddisfatte le seguenti proprietà:
T
1. A 2A,
n
n2N
T S
1 1
2. lim sup A := A 2A,
n n
n n=1 m=n
S T
1 1
3. lim inf A := A 2A,
n n n
n=1 m=n
4. SeA eB sono algebre, alloraA\B è una algebra,
1.1. NOZIONI PRELIMINARI 3
T
5. SefAg è una famiglia di -sottoalgebre di A, allora A è una -
i i
i2I
i2I
algebra.
Se C è una collezione di sottoinsiemi di , esiste una -algebra (C) in che è
la più piccola delle -algebre contenentiC. La -algebra (C) è detta -algebra
generata daC. Se (E,O) è uno spazio topologico, doveO è l’insieme degli aper-
ti in E, allora (O) è chiamata -algebra di Borel dello spazio topologico. Gli
elementi di (O) si chiamano insiemi di Borel.
Definizione 1.2 (misura di probabilità). Si dice misura di probabilità sullo
spazio una funzione P : (C)! R, dove (C) è una -algebra generata da
elementi diC, che gode delle seguenti proprietà, dette assiomi di Kolmogorov :
(i) P (A) 0 8A2 (C)
(ii) P ( ) = 1
(iii) ( -additività) sefA g è una successione di eventi incompatibili, os-
n n2N
sia una famiglia di elementi di (C) tali che A \A =;,8i = j, allora
i j
S P
P ( A ) = P (A ).
n n
n2N n2N
Definizione 1.3. Dicesi spazio di probabilità ogni tripla ( , A, P), dove è
uno spazio,A è una -algebra generata da sottoinsiemi di eP è una misura di
probabilità su .
La misura di probabilità soddisfa le seguenti proprietà:
1. P (;) = 0
2. A B)P (A) P (B)
S P
3. P ( A ) P (A )
n n
n n
c
4. P (A ) = 1 P (A)
5. 0 P (A) 1
Due eventi A e B che non possono verificarsi contemporaneamente si dicono
incompatibili e si denotano conA\B =;; formalmente si scrive
A\B =;,P (A\B) = 0: (1.1)
6
1.1. NOZIONI PRELIMINARI 4
In probabilità e in statistica grande importanza riveste il concetto di indipendenza.
Due eventi si dicono indipendenti se il verificarsi dell’uno non influenza il verifi-
carsi dell’altro e viceversa. Dati due eventi,A eB, di cui si conosce la probabilità,
P (A) e P (B), ci si può chiedere se il verificarsi dell’uno, per esempio B, possa
influenzare la probabilità del verificarsi dell’altro, in questo caso la probabilità di
A. In termini matematici, la probabilità diA condizionata dal verificarsi l’evento
B si scriveP (AjB) e si legge probabilità diA datoB. Essa si definisce così:
Definizione 1.4. Dato un insiemeB2A conP (B)> 0, si definisce
P (A\B)
P (AjB) = (1.2)
P (B)
la probabilità condizionata diA rispetto aB, ovvero la probabilità dell’eventoA
sotto la condizione che si verifichi l’eventoB.
PoichéP (AjB) =P (A) seA eB sono indipendenti, dalla (1.2) si ha:
1
Definizione 1.5. Due eventiA eB si dicono indipendenti se
P (A\B) =P (A)P (B): (1.3)
Definizione 1.6. La probabilità condizionata soddisfa i seguenti postulati detti di
Keynes:
1. P (AjB) 0;
2. P (AjA) = 1;
c
3. P (AjB) +P (AjB) = 1;
4. P (A\BjC) =P (AjC)P (BjA\C).
Definizione 1.7. Un insieme finitofA ;:::;A g A è detto partizione finita di
1 n
S
n
se A = eA \A =; 8i =j.
j i j
j=1
1
Una famigliafAg di sotto- -algebre diA si dice indipendente, se per ogni sottoin-
i i2I
T P
sieme finitoJ I e per ogniA 2A ,P ( A ) = P (A ). Una famiglia di varia-
j j j j
j2J j2J
bili aleatoriefXg è detta indipendente sef (X )g sono -algebre indipendenti.
j j2J j j2J
c
Una famiglia di insiemifAg è detta indipendente se le -algebreA =f;;A ;A ; g
j j2J j j
j
sono indipendenti.
6
1.1. NOZIONI PRELIMINARI 5
Teorema 1.1.1 (Bayes). Data una partizione finitafA ;:::;A g inA eB2A con
1 n
P (B)> 0, si ha
P (BjA )P ((A )
i i
P
P (AjB) = : (1.4)
i
n
P (BjA )P (A )
j j
j=1
Teorema 1.1.2 (Borel-Cantelli). Se A , A , . . . è una successione di eventi per la
1 2
P
1
quale risulta P (A )<1, si ha
n
n=1
P (lim supA ) = 0: (1.5)
n
n!1
Teorema 1.1.3 (Leggi 0-1 di Kolmogorov). Sia A , A , . . . una successione di
1 2
eventi indipendenti. Allora
P
1
a) P (A )<1 se e solo seP (lim supA ) = 0;
n n
n=1
P
1
b) P (A ) =1 se e solo seP (lim supA ) = 1;
n n
n=1
1.1.2 Variabili aleatorie e integrazione
La stretta connessione tra il calcolo della probabilità e la statistica è rappresentato
2
dalle variabili aleatorie . Considerando la ripetizione di un esperimento casuale
in cui viene rilevata la distribuzione di un certo fenomeno statistico, l’insieme dei
valori che possono essere assunti dal fenomeno e la probabilità che gli attribuiamo
costituiscono un modello matematico. Le variabili aleatorie sono tali modelli mate-
matici ovvero sono una descrizione di quello che può verificarsi e delle probabilità
con cui ci si aspetta che questi eventi si verifichino. Un esempio classico di varia-
bile aleatoria è il numero totale di «croci» in dieci lanci di moneta.
Dato uno spazio di probabilità ( ,A,P), si può definire la variabile aleatoriaX.
Una variabile aleatoria è una funzioneX : !R A-misurabile, nel senso che
la controimmagine di ogni insieme di Borel B di R è un elemento di A; quindi
la variabile aleatoria è una funzione misurabile da ( ,A) a (R,B), doveB è la
-algebra di Borel diR. La nozione di misurabilità ricorda la definizione di conti-
nuità di una funzione da uno spazio topologico ( ,O) allo spazio topologico (R,
1
U). In topologia, una funzione è continua sef (U)2O per tutti gli apertiU2U.
2
Il termine aleatorio, fu coniato nel secolo XVI e derivato da quello latino aleatorius che
significa: che dipende dal caso o dalla sorte, esso trae la sua origine dal gioco degli aliossi e
dai dadi.
1.1. NOZIONI PRELIMINARI 6
Nella teoria della probabilità, se le funzioni sono denotate con lettere maiuscole,
1
una variabile aleatoriaX è misurabile seX (B)2A per tutti gli insiemi di Bo-
rel B2B. Quindi qualsiasi funzione continua è misurabile nel senso di Borel.
1 1
Ogni variabile aleatoriaX definisce una -algebraX (B) =fX (B)jB2Bg,
denotata con (X), detta -algebra generata daX.
Definizione 1.8 (algebra). Una collezioneA di sottoinsiemi di è una algebra
se soddisfa le seguenti proprietà:
(i) 2A
c
(ii) A2A)A 2A
(iii) A;B2A)A[B2A
Una funzione -additiva daA a [0;1[ è detta misura.
Definizione 1.9 (integrale). Fissato uno spazio di probabilità ( ,A,P), indicata
con L l’algebra di tutte le variabili aleatorie (spazio vettoriale sul campo R dei
numeri reali in cui è definita l’operazione di moltiplicazione) allora un elemento
diL della forma
n
X
X = (1.6)
i A
i
i=1
è chiamato funzione elementare dove 2 R, gli insiemi A 2 A sono insiemi
i i
3
disgiunti e è la funzione indicatrice . Denotata conS l’algebra delle funzioni
A
i
elementari, perX2S si può definire l’integrale
Z
n
X
XdP = P (A ): (1.7)
i i
i=1
1
Definizione 1.10 (valore atteso). DefinitoL L come l’insieme delle variabili
aleatorieX, per cui
Z
sup Y dP (1.8)
Y2S;Y j Xj
3
La funzione indicatrice : X !f0; 1g di un sottoinsieme A di un insieme X è
A
definita come
8
<
1 sex2A,
(x) :=
A
:
0 sex2= A.
1.1. NOZIONI PRELIMINARI 7
1
è finito, perX2L , si può definire il valore atteso (o media)
Z Z Z
E[X] := XdP = sup Y dP sup Y dP (1.9)
+
Y2S;Y X Y2S;Y X
+ 1
doveX = max(X; 0) eX = max( X; 0). Lo spazio vettorialeL è detto spazio
di variabili aleatorie integrabili.
24
Definizione 1.11 (varianza e deviazione standard). PerX2L , si può definire
la varianza
2 2 2
Var[X] := E[(X E[X]) ] = E[X ] E[X] : (1.10)
1=2
Il numero non negativo [X] = Var[X] è detta deviazione standard
La deviazione standard misura la dispersione dei dati intorno al valore atteso. Il
valore atteso è il valore della media della variabile aleatoria, mentre la deviazione
standard misura quanto ci si aspetti che la variabile aleatoria dévi dalla media.
2
Definizione 1.12. PerX;Y 2L si definisce la covarianza
Cov[X] := E[ (X E[X]) (Y E[Y ]) ] = E[XY ] E[X] E[Y ]: (1.11)
Se le deviazioni standard [X]; [Y ] sono entrambi differenti da zero allora si può
definire il coefficiente di correlazione
Cov[X;Y ]
Corr[X;Y ] := (1.12)
[X] [Y ]
2
che varia nell’intervallo [ 1; 1]. Due variabili aleatorie in L sono dette non
correlate se Corr[X;Y ] = 0.
Osservazione 1.2. La varianza, la covarianza e il coefficiente di correlazione
soddisfano le seguenti proprietà:
1. Var[X] 0;
2 2
2. Var[X] = E[X ] E[X] ;
2
3. Var[ X ] = Var[X];
4. Var[X +Y ] = Var[X] + Var[Y ] + 2 Cov[X;Y ];
4 2 2 1
Si definisce conL lo spazio vettorialefX2LjjXj 2Lg.
1.1. NOZIONI PRELIMINARI 8
5. Cov[X;Y ] = E[XY ] E[X] E[Y ];
6. Cov[X;Y ] [X] [Y ];
7. Corr[X;Y ]2 [0; 1];
8. Corr[X;Y ] = 1 seX E[X] =Y E[Y ].
m
Definizione 1.13 (momento). SeX è una variabile aleatoria allora = E[X ]
m
è detto momento d’ordine m di X. Il momento centrale di ordine m di X è
0
m
definito come = E[(X E[X]) ].
m
Definizione 1.14 (funzione generatrice dei momenti). La funzione generatrice
tX
dei momenti di X è definita come M (t) = E[e ]. Essa permette un veloce
X
calcolo di tutti i momenti. La funzione (t) = log(M (t)) è detta funzione
X X
generatrice dei cumulanti.
Quando la funzione generatrice dei momenti di una variabile aleatoria X non
esiste si preferisce utilizzare la funzione caratteristica diX definita da
itX
(t) = E[e ]; (1.13)
X
p
cont2 ] 1 ; +1[ , dovei = 1.
2
Definizione 1.15. SeX2L è una variabile aleatoria con mediam e deviazione
standard , allora la variabile aleatoriaY = (X m)= ha mediam = 0 e devia-
zione standard = 1. La variabile aleatoria così definita è detta normalizzata.
1.1.3 V. a. discrete e continue, formula dei momenti
Una variabile aleatoriaX può essere descritta dalla sua funzione di distribuzione:
Definizione 1.16. Data una variabile aleatoriaX, la funzioneF :R! [0; 1] così
X
definita
1
F (x) =P [!2 : X(!) x] =P [X x] =P [X (j 1 ;xj)] = (]1 ;x])
X
(1.14)
prende il nome di funzione di distribuzione della variabile aleatoriaX.
1.1. NOZIONI PRELIMINARI 9
Teorema 1.1.4. La funzione di distribuzione F (x) di una variabile aleatoria X
X
gode delle seguenti proprietà:
(i) F (x) è non decrescente inR
X
8x ;x 2R :x <x )F (x ) F (x );
1 2 1 2 X 1 X 2
(ii) F (x) è continua a destra in ognix2R;
X
(iii) lim F (x) = 0 e lim F (x) = 1.
X X
x! 1 x!+1
Osservazione 1.3. Ogni misura di probabilità di Borel suR determina una fun-
R
x
zione di distribuzioneF di qualche variabile aleatoriaX da d (x) = F (x).
X
1
Dalle proprietà della funzione di distribuzione si può definire una classe di fun-
zioni di distribuzione costituita dalle funzioni reali F che soddisfano (i), (ii) e
(iii).
Definizione 1.17. Sia X una variabile aleatoria e sia F (x) la sua funzione di
distribuzione. Si dice che X è una variabile aleatoria discreta, e F (x) è detta
discreta, se esistono una funzione p(x) : R! [0; 1] e una successione x finita o
n
numerabile di reali distinti tali che8x2 R la funzione F (x) si possa esprimere
nella seguente forma
X
F (x) = p(x ) (1.15)
n
fn:x xg
n
La funzione p(x) prende il nome di funzione di probabilità della variabile alea-
toriaX; la successionefp(x )g si dice distribuzione di probabilità diX. In virtù
n
P
della terza proprietà del teorema 1.1.4 si ha p(x) = 1, che è detta condizione
n
di normalizzazione. Il valore atteso di una variabile aleatoriaX discreta è dato
da
Z
+1
X
E[X] = xdF (x) = xP [X =x]: (1.16)
1
x
Esempi di variabili aleatorie a distribuzione discreta
a) La distribuzione binomiale
n
k n k
P [X =k] = p (1 p) (1.17)
k
n
n!
dove = è il coefficiente binomiale,p è la probabilità di successo
k (n k)!k!
della singola prova, n è il numero di prove effettuate e k è il numero di
1.1. NOZIONI PRELIMINARI 10
successi ottenuti in n prove. Ovviamente k = 0; 1;:::;n. Si verifica che
E[X] =np e Var[X] =np(1 p);
b) La distribuzione di Poisson
k
P [X =k] =e ; (1.18)
k!
dove è un qualsiasi valore positivo equivalente al numero di successi che
ci si aspetta che si verifichino in un dato intervallo di tempo ek è il nume-
ro delle occorrenze (successi) per cui si vuole prevedere la probabilità. Si
verifica che E[X] = e Var[X] = ;
c) La distribuzione uniforme discreta suf1;:::;ng è una variabile aleatoria
discreta per la quale la funzione di probabilità assume l’identico valore per
tutti i valori
1
P [X =k] = ; (1.19)
n
per fare un esempio, è la variabile che descrive il lancio di un dado (n = 6) o
2
n+1 n 1
di una moneta (n = 2) onesti. Si verifica che E[X] = e Var[X] = ;
2 12
d) La distribuzione geometrica dove, se la probabilità di successo di ogni sin-
gola prova èp, allora la probabilità che allak-esima prova si abbia il primo
successo è data da
k
P [X =k] =p(1 p) : (1.20)
1 p 1 p
Si verifica che E[X] = e Var[X] = ;
2
p
p
e) La distribuzione di primo successo dove, se la probabilità di successo di
ogni singola prova è p, allora la probabilità che ci siano k fallimenti prima
del primo successo è data da
k 1
P [X =k] =p(1 p) : (1.21)
1 1 p
Si verifica che E[X] = e Var[X] = ;
2
p p
f) La distribuzione binomiale negativa descrive il numero X di insuccessi
che precedono l’s-esimo successo in una successione di prove ripetute di
1.1. NOZIONI PRELIMINARI 11
5
Bernoulli in cui la probabilità di successo èp, la sua funzione di probabilità
è data da
s +i 1
s i
P [X =i] = p (1 p) (1.22)
i
1 p 1 p
coni = 0; 1; 2;::: Si verifica che E[X] = s e Var[X] = s.
2
p p
Definizione 1.18. Sia X una variabile aleatoria e sia F (x) la sua funzione di
distribuzione. Si dice cheX è una variabile aleatoria assolutamente continua, e
F (x) viene detta assolutamente continua, se esiste una funzionef(x) non negativa
tale cheF (x) possa esprimersi nella forma
Z
+1
F (x) = f(t)dt (1.23)
1
8x2 R. La funzione f(x) prende il nome di densità di probabilità della va-
riabile aleatoriaX. Dalle proprietà della funzione di distribuzioneF (x) segue la
condizione di normalizzazione
Z
+1
f(t)dt = 1: (1.24)
1
Il valore atteso di una variabile aleatoriaX assolutamente continua è dato da
Z Z
+1 +1
E[X] = xdF (x) = xf(x)dx: (1.25)
1 1
Esempi di variabili aleatorie a distribuzione continua
2
a1) La distribuzione normale o di GaussN( ; ) con densità di probabilità
2
(x )
1
2
2
f(x) =p e (1.26)
2
conx2 ] 1 ; +1[. La sua importanza nelle scienze naturali, come modello
dei fenomeni quantitativi, è dovuta al teorema centrale del limite. La di-
stribuzione normale riesce ad approssimare bene molte misure e fenomeni
fisici (come il rumore). Inoltre essa si presenta in molte aree della statistica,
grazie al fatto che anche se la distribuzione di una popolazione dalla quale
5
La variabile casuale bernoulliana, dal nome dello scienziato svizzero J. Bernoulli, è la
più semplice di tutte le variabili casuali. È una variabile dicotomica, e quindi con due sole
possibili realizzazioni (0 e 1), cui sono associate le rispettive probabilitàp e 1 p.
1.1. NOZIONI PRELIMINARI 12
6
un campione è stato prelevato non è normale, la distribuzione campiona-
7
ria della media del campione è, approssimando, normale. Si verifica che
2
E[X] = e Var[X] = ;
b1) La distribuzione di Cauchy ha densità di probabilità
1 b
f(x) = 8x2R (1.27)
2 2
b + (x m)
Tra i fisici è conosciuta come la distribuzione di Breit-Wigner. La sua im-
portanza nella fisica è dovuta al fatto che essa è la soluzione all’equazione
differenziale che descrive la risonanza. In spettroscopia, descrive la distri-
buzione delle intensità nelle righe spettrali di emissione e di assorbimento
degli atomi. Si verifica che non ha né media né varianza;
c1) La distribuzione uniforme su [a;b] con densità di probabilità
1
f(x) = 8x2 [a;b] (1.28)
b a
Nella teoria della probabilità e nella statistica, la distribuzione continua uni-
forme è una famiglia di distribuzioni di probabilità tali che per ogni membro
della famiglia, tutti gli intervalli della stessa lunghezza sul supporto della
distribuzione sono ugualmente probabili. Il supporto è definito dai due pa-
rametri,a eb, che sono i relativi valori di minimo e di massimo. Si verifica
2
(b a)
b+a
che E[X] = e Var[X] = .;
2 12
d1) La distribuzione esponenziale con parametro > 0 ha densità di probabi-
lità
x
f(x) = e 8x 0 (1.29)
Il parametro che definisce la funzione di distribuzione esponenziale è lo
stesso della distribuzione di Poisson, cioè è uguale al numero medio di
1 1
arrivi nell’unità di tempo. Si verifica che E[X] = e Var[X] = ;
2
6
Un campione di taglia n estratto da una popolazione è, per definizione, un vet-
tore (X ;X ;:::;X ) di variabili aleatorie osservabili indipendenti ed identicamente
1 2 n
distribuite.
7
La distribuzione campionaria è la distribuzione di una variabile aleatoria osserva-
bile g(X ;X ;:::;X ), detta statistica, che non dipende da parametri incogniti e che è
1 2 n
funzione delle variabili aleatorie osservabiliX ,X , . . . ,X costituenti un campione.
1 2 n
1.1. NOZIONI PRELIMINARI 13
e1) La distribuzione Beta con parametrip> 1,q> 1 ha densità di probabilità
p 1 q 1
x (1 x)
f(x) = 8x2 [0; 1] (1.30)
B(p;q)
avendo definito la funzione Beta
Z
1
p 1 q 1
B(p;q) = x (1 x) dx: (1.31)
0
Essa viene usata nella teoria della stima nonché per descrivere le durate di
progetti e svolge un importante ruolo nell’ambito dell’inferenza bayesiana.
p pq
Si verifica che E[X] = e Var[X] = ;
2
p+q
(p+q+1)(p+q)
f1) La distribuzione Gamma con parametri > 0 e > 0 ha densità di
probabilità
1 x
x e
f(x) = 8x 0 (1.32)
( )
avendo definito la funzione Gamma perx> 0 come
Z
1
x 1 t
( x) = t e dt (1.33)
0
dove ( n) = (n 1)! pern2N. Essa viene usata nell’ambito della teoria del-
le file d’attesa e delle telecomunicazioni, mentre in statistica viene usata per
via di alcuni suoi casi particolari e per il suo ruolo nell’inferenza bayesiana.
Si verifica che E[X] = e Var[X] = .
2
Un modo elegante di calcolare i momenti di una variabile aleatoria si ha
usando la seguente formula dei momenti che sfrutta le funzioni caratteristiche
itX tX
(t) = E[e ] o le funzioni generatrici dei momenti M (t) = E[e ]:
X X
Z
n
d M
X
n n
E[X ] = x d = (t) (1.34)
n
dt t=0
R
Z
n
d
X
n n n
E[X ] = x d = ( i) (t) (1.35)
n
dt t=0
R
1.1.4 Funzione di distribuzione congiunta
Definizione 1.19. La funzione di distribuzione congiunta F di due variabili
aleatorieX eY è definita da
F (x;y) =P [X x; Y y]: (1.36)
1.1. NOZIONI PRELIMINARI 14
Le funzioni di distribuzione diX eY :
F (x) =P [X x] e F (y) =P [Y y]
X Y
possono essere ottenute nel seguente modo. Sia y , con n 1, una successione
n
crescente convergente a1, poiché gli eventifX x;Y y g, con n 1, sono
n
crescenti e
1
[
limfX x; Y y g = fX x; Y y g =fX xg (1.37)
n n
n!1
n=1
segue dalla proprietà di continuità che
lim P [X x; Y y ] =P [X x] (1.38)
n
n!1
o equivalentemente
F (x) = lim F (x;y) (1.39)
X
y!1
e
F (y) = lim F (x;y): (1.40)
Y
x!1
Definizione 1.20. Le variabili aleatorieX eY si dicono indipendenti se
F (x;y) =F (x)F (y)
X Y
per ognix ey.
Definizione 1.21. Un insieme di variabili aleatorie è detto identicamente distri-
buito se ogni variabile aleatoria nell’insieme ha la stessa funzione di distribuzione.
Invece sono dette indipendenti e identicamente distribuite se le variabile alea-
torie sono indipendenti e identicamente distribuite. È di uso comune abbreviare
tali variabili con la sigla IID.
2
Teorema 1.1.5 (Pitagora). Se due variabili aleatorieX;Y 2L sono indipendenti
allora Cov[X;Y ] = 0. SeX eY sono correlate allora
Var[X +Y ] = Var[X] + Var[Y ]: (1.41)
Lemma 1.1.6. SeX eY sono variabili aleatorie indipendenti allora le loro funzioni
generatrici dei momenti soddisfano
M (t) = M (t) M (t): (1.42)
X+Y X Y
1.1. NOZIONI PRELIMINARI 15
Definizione 1.22. Due variabili aleatorie si dicono congiuntamente continue se
esiste una funzionef(x;y) chiamata densità di probabilità congiunta, tale che
Z Z
P [X2A; Y 2B] = f(x;y)dxdy (1.43)
A B
per ogni insiemeA eB.
La funzione di distribuzione congiunta di una qualsiasi famiglia di variabili alea-
torieX ,X , . . . ,X è definita da
1 2 n
F (x ;x ;:::;x ) =P [X x ;X x ;:::;X x ]: (1.44)
1 2 n 1 1 2 2 n n
Inoltre len variabile aleatorie si dicono indipendenti se
F (x ;x ;:::;x ) =F (x )F (x ) F (x ): (1.45)
1 2 n X 1 X 2 X n
1 2 n
dove F (x ) = lim F (x ;:::;x ) con j = i. Si può definire anche la funzione
X i 1 n
i
x!1
j
generatrice dei momenti congiunta delle variabili aleatorieX , . . . ,X come
1 n
n
X
M[t ;:::;t ] = E[expf t Xg] (1.46)
1 n j j
j=1
o la funzione caratteristica congiunta
n
X
(t ;:::;t ) = E[expfi t Xg]: (1.47)
1 n j j
j=1
1.1.5 Probabilità condizionata e v. a. senza memoria
SeX eY sono due variabile aleatorie discrete allora la probabilità condizionata
diX, datoY =y, è definita, per ogniy tale cheP [Y =y]> 0, da
P [X =x; Y =y]
P [X =xjY =y] = : (1.48)
P [Y =y]
La funzione di distribuzione condizionata diX datoY =y è definita da
F (xjy) =P [X xjY =y] (1.49)
e il valore atteso condizionato diX datoY =y da
Z
X
E[XjY =y] = xdF (xjy) = xP [X =xjY =y]: (1.50)
x
6