2
importanti per la rappresentazione dei dati spaziali: il metodo areale e il metodo
delle distanze.
All’interno del secondo capitolo abbiamo introdotto l’importante concetto di
contiguit spaziale, da cui derivano tutte le misur e di autocorrelazione che
abbiamo presentato.
Nel terzo capitolo abbiamo studiato i modelli temporali AR(m), MA(q) e
ARMA(m,q) per le serie storiche, i modelli spaziali autoregressivi di ordine (l), a
media mobile di ordine (p) e autoregressivi a media mobile di ordine (l,p) per le
serie spaziali, e quelli spazio-temporali STAR(l,m), STMA(p,q) e
STARMA(l,m;p,q) che ci consentono di analizzare sia l’aspetto diffusivo
(spaziale) che quello evolutivo (temporale) del fenomeno considerato:
l’inquinamento.
Concluderemo la tesi nel quarto capitolo con un esempio di analisi di dati
relativi all’inquinamento atmosferico, che abbiamo ricavato dai bollettini che
giornalmente vengono pubblicati dall’ARPAT (Azienda Regionale per la
Protezione dell’Ambiente, Toscana). In particolare effettueremo un’analisi
dell’autocorrelazione spaziale calcolando l’indice del conteggio dei legami e gli
indici di Moran e di Geary, ovvero due degli indici piø utilizzati in un campo di
indagine come quello prescelto.
Al termine del nostro lavoro cercheremo di realizzare una previsione di tipo
temporale sull’inquinamento atmosferico (inquinante 10PM ) del comune di
Capannori; realizzeremo inoltre una previsione spaziale (inquinante CO ) sui
comuni di Camaiore, Borgo a Mozzano e Montecarlo dove non sono presenti
centraline di rilevamento partendo dalle rilevazioni effettuate nei comuni di
Viareggio, Lucca, Capannori e Porcari ed utilizzando i diversi criteri di
contiguit presi in esame con i primi capitoli dell a tesi.
3
CAPITOLO 1
LE CARATTERISTICHE DEI DATI SPAZIALI
1.1 Rappresentazione dei dati spaziali
I dati statistici che riguardano un qualsiasi fenomeno che si manifesta su un
territorio si distinguono tra loro a seconda della natura delle tre unit di
rilevazione che possono essere impiegate: i punti, le linee, le aree (o poligoni).
Esempi di dati che vengono rilevati mediante punti potrebbero essere le
precipitazioni rilevate nelle stazioni metereologiche dislocate su un determinato
territorio.
Le linee invece, vengono impiegate ad esempio quando facciamo riferimento al
viaggio di alcuni turisti che devono seguire una determinata linea di trasporto.
Infine le aree, possono essere utilizzate ad esempio quando vogliamo
rappresentare i dati relativi alla popolazione di una regione.
Quando utilizziamo la tipologia dei dati areali, dobbiamo distinguere
ulteriormente i dati a seconda che vengano collocati in griglie regolari o
irregolari (Arbia, 1993).
Per tutte queste situazioni Ł utile far riferimento ad alcuni processi che
vengono definiti processi stocastici, i quali vengono impiegati per ricercare e
spiegare quelle particolari configurazioni assunte dalle unit di una stessa specie,
sui territori nei quali le unit sono insediate iso latamente o a gruppi. In questo
tipo di analisi (pattern analisys) una configurazione spaziale pu essere
4
rappresentata da un insieme di punti o gruppi di punti, da linee che congiungono
tali punti, da aree formate intorno ad essi (Lunetta, 1984).
Negli ultimi dieci anni, si Ł assistito ad una vera e propria rivoluzione
nell’approccio ai problemi che emergono nell’ambito spaziale grazie alla sempre
maggior diffusione delle tecnologie informatiche, in particolare con
l’introduzione del GIS (Geographical Information Systems). Il GIS Ł un moderno
strumento (un software) a cui Ł stato assegnato il compito, sicuramente non
semplice, di recuperare grandi quantit di dati sta tistici, di analizzarli ed infine di
rappresentarli su di una mappa. Parallelamente alla rapida crescita delle
tecnologie GIS si stanno sviluppando sempre piø le tecniche di analisi statistica
spaziale. Il GIS viene oggi impiegato oltre che per analizzare dati geografici,
anche nel campo dei trasporti, dell’allocazione dei posti di lavoro, nella
valutazione dell’impatto ambientale di determinati fenomeni, quale ad esempio lo
scarico di materiali altamente inquinanti in un corso d’acqua.
Sicuramente il GIS rappresenta uno strumento utile in campo statistico, grazie
al fatto che con tale strumento siamo in grado di avere delle informazioni sulla
posizione degli individui all’interno dello spazio considerato. Con il continuo
progredire delle tecnologie non solo informatiche, ma anche statistiche, Ł facile
prevedere che le possibilit di applicazione del GI S si amplieranno notevolmente
nel corso dei prossimi anni (Arbia, 1993).
1.2 Modelli probabilistici che spiegano le configurazioni di
punti
I modelli che spiegano le configurazioni di punti analizzano la tendenza
all’aggregazione di unit di una stessa specie. Il vantaggio della rappresentazione
mediante punti Ł che, scegliendo una scala appropriata, qualsiasi oggetto, anche i
piø grandi, possono essere rappresentati mediante punti. Non dobbiamo per mai
perdere di vista il fatto che questi ultimi costituiscono sempre e comunque
un’approssimazione della realt (Upton e Fingleton, 1985).
5
Per spiegare una configurazione di punti vengono utilizzati i metodi messi a
punto per l’analisi dei processi stocastici. Un processo stocastico (ad esempio
quello di Poisson) nasce dall’esigenza di descrivere un fenomeno che si evolve
nel tempo e la cui evoluzione Ł regolata da leggi aleatorie. Pu essere quindi
definito come una famiglia di variabili aleatorie{ }TtX
t
∈; , dove t rappresenta i
diversi istanti in cui si analizza il fenomeno, mentre T Ł l’insieme dei possibili
valori. Si dice che il processo stocastico Ł a parametro discreto se Ł discreto
l’insieme T, a parametro continuo se invece l’insieme T Ł continuo (Daboni,
1970).
In campo ecologico una prima distinzione tra i modelli probabilistici che sono
in grado di spiegare una configurazione di punti Ł quella tra:
- modelli di distribuzione casuale;
- modelli di tipo aggregato o contagioso (Scossiroli, Clementel, Scossiroli 1974).
1.2.1 Modelli di distribuzione casuale
All’interno dei modelli di distribuzione casuale quelli che vengono
maggiormente utilizzati in campo ambientale sono sicuramente il modello
binomiale e il modello di Poisson.
Si dice che una variabile casuale discreta X ha una distribuzione binomiale se
la sua funzione di massa di probabilit Ł data dall’espressione:
xnx pp
x
n
pnxf −−
= )1(),;( , [1.1]
dove n Ł un numero intero (n>1) che rappresenta l’ampiezza del campione
considerato all’interno del quale si vuole verificare la presenza o l’assenza di una
determinata tipologia di inquinante. Con x indichiamo invece il numero di volte
in cui nelle n prove effettuate Ł comparso il fenomeno che stiamo considerando.
Per ogni singola unit campionaria considerata avre mo una probabilit p che essa
contenga quel tipo di inquinante, ed una probabilit q=1-p che al contrario non lo
contenga.
6
Per una variabile aleatoria X che segua una distribuzione binomiale si ha che
media e varianza sono rispettivamente date da E(X)=np e var(X)=npq. E’ inoltre
interessante notare che se consideriamo un campione di dimensione unitaria
(quindi n=1), la distribuzione binomiale diventa la distribuzione di Bernoulli.
Passiamo ora al modello di Poisson. Si dice che una variabile casuale discreta
X ha una distribuzione di Poisson se la sua funzione di massa di probabilit Ł
data dall’espressione:
!
);(
x
xf
xλ
λ
λ−
=
, [1.2]
dove il parametro λ Ł una costante positiva e la variabile x pu assumere i valori
0,1,2,......,∞.
PoichØ i valori che pu assumere tale variabile x sono tutti gli interi positivi, ogni
fenomeno casuale che richieda un qualche tipo di conteggio degli avvenimenti
indipendenti che avvengono nel tempo o nello spazio pu essere rappresentato
mediante il modello di Poisson (Mood, Graybill, Boes, 1997). Tale variabile Ł
particolarmente indicata per descrivere il numero aleatorio di "arrivi", ossia di
manifestazioni di un certo fenomeno all’interno di un certo intervallo I (ad
esempio il numero di inquinanti presenti nell’intervallo considerato), dove con λ
indichiamo il numero medio teorico di "arrivi" all’interno di I.
Il modello di Poisson fornisce proprio la probabilit che si verifichino x (ad
esempio che si rilevino x inquinanti) eventi in ciascuna area del territorio.
Consideriamo una regione con superficie A, all’interno della quale vi siano un
certo numero di punti sparsi casualmente; immaginiamo inoltre che la regione sia
composta da un ampio numero N di sub-regioni ognuna delle quali con superficie
A/N.
La probabilit di osservare x punti (ad esempio x inquinanti indipendenti) in
ciascuna area in cui abbiamo scomposto la nostra regione Ł data dall’espressione
sopra illustrata nell’equazione [1.2].
Il modello di Poisson si basa in definitiva su due ipotesi:
- la casualit della distribuzione dei punti, ossia i punti si possono trovare in
qualsiasi delle N sub-regioni con la stessa probabilit ;
7
- l’indipendenza, ossia i punti (ad esempio le varie tipologie di inquinanti) che
si trovano all’interno delle diverse sub-regioni sono tra loro indipendenti.
Una importante propriet del modello poissoniano Ł data dal fatto che il valore
della media E(X) Ł uguale a quello della varianza var(X) e coincide con il valore
del parametro λ.
Tale modello Ł spesso considerato come la legge teorica di distribuzione degli
eventi rari, ossia di quegli eventi che hanno una piccola probabilit di verificarsi.
1.2.2 Modelli di distribuzione di tipo aggregato (o di contagio)
Non Ł possibile pensare che il comportamento di una determinata specie
animale o vegetale, o di un determinato fenomeno come ad esempio
l’inquinamento sia totalmente indipendente dall’ambiente in cui ci si trova. Quasi
sempre infatti tali determinazioni risultano influenzate da individui della stessa
specie o da fenomeni che si sono manifestati in aree spazialmente vicine
(Scossiroli, Clementel, Scossiroli, 1974).
Forte Ł la relazione esistente tra gli individui e il contesto ambientale del quale
fanno parte; per tale motivo i modelli di distribuzione casuale affrontati nel
paragrafo precedente solo raramente sono in grado di descrivere esattamente la
realt . Sono state a tal fine sviluppate particolar i distribuzioni che vengono
definite come aggregate o di contagio per il fatto che gli individui o i fenomeni
vengono rilevati in gruppi o aggregati.
Un modello teorico che ha una certa utilit in camp o ambientale Ł il modello
binomiale negativo con il quale ogni punto che viene rilevato rappresenta un
gruppo di individui tra loro somiglianti. Si ha una sorta di contagio poichØ le
unit statistiche che presentano tra loro una qualc he relazione vengono inserite
all’interno di uno stesso gruppo.
Solitamente, la somiglianza si riduce al crescere della distanza tra le unit
considerate.
Si dice che una variabile casuale X ha distribuzione binomiale negativa se la
sua funzione di massa di probabilit Ł data da:
8
xrqp
x
rx
prxf
−+
=
1
),;( , [1.3]
dove p Ł la probabilit di avere un successo, q=1-p Ł invece la probabilit di
avere un insuccesso, mentre r Ł il numero di successi. Con x=0,1,2......
indichiamo invece il numero di insuccessi che devono avere prima di ottenere r
successi.
La distribuzione binomiale negativa Ł particolarmente utilizzata nei conteggi
riguardanti la popolazione, nelle statistiche relative alla salute, nel settore
ambientale, delle comunicazioni ed in altri conteggi simili.
Viene inoltre spesso chiamata variabile casuale tempo d’attesa, poichŁ
rappresenta il tempo (in termine di numero di insuccessi) che dobbiamo attendere
per ottenere l’r-esimo successo.
1.2.3 Modelli generalizzati
Nell’analisi statistica spaziale esistono altri due modelli probabilistici che
analizzano la formazione di configurazioni di punti, oltre a quelli gi introdotti: i
modelli generalizzati ed i modelli di vero contagio (Lunetta, 1984).
Nei modelli generalizzati si vuole analizzare la formazione di agglomerati di
insediamenti in alcune zone di un territorio. Supponiamo che su di un territorio
preso in esame si svolgano 2 processi indipendenti: il primo riguarda la scelta
delle zone di insediamento, il secondo lo sviluppo di agglomerati nelle zone
prescelte. Se indichiamo con:
- p(m) la probabilit che vengano scelte m zone del territorio; ogni zona del
territorio Ł rappresentata da un punto;
- p(x|m) la probabilit che si sviluppino x insedia menti all’interno delle m zone
considerate,
avremo che la probabilit di osservare x insediamen ti all’interno delle m zone
sar data da (Lunetta, 1984):
∑
∞
=
=
0
)|()()(
m
mxpmpxp . [1.4]
9
Nel caso particolare nel quale si supponga che la scelta della zona avvenga
attraverso un processo poissoniano con parametro 1λ , avremo che la probabilit
di scegliere m zone sar data da:
!
);(
1
1
1 m
mp
m λλ
λ
−
=
, [1.5]
con m=0,1,2.....
Se all’interno di ciascuna zona gli insediamenti sono regolati anch’essi da un
processo di Poisson con parametro 2λ , la probabilit che nelle m zone scelte vi
siano x insediamenti sar data da:
!
)(
)|;(
2
2
2
x
mmxp
mx λλ
λ
−
=
, [1.6]
con x=0,1,2.....
In definitiva la probabilit di rilevare x insediam enti sull’intero territorio sar
data da:
∑
∞
=
−−
=
0
21
!
)(
!
)(
21
m
mxm
x
em
m
e
xp
λλ λλ
, [1.7]
con x=0,1,2,.....
L’inconveniente del modello generalizzato Ł che non sempre nella pratica la
scelta di una zona viene necessariamente seguita dall’insediamento.
1.2.4 Modelli di vero contagio
Si parla di modelli di vero contagio quando le configurazioni spaziali di punti
vengono studiate mediante schemi fondati esplicitamente su di una successione
di stati attraverso i quali si ha nel tempo lo sviluppo della configurazione
(Lunetta, 1984).
Esempi di modelli di vero contagio sono le catene di Markov, le quali possono
essere utili nello studio dell’evoluzione nel tempo della distribuzione spaziale di
un fenomeno tra le diverse zone di un territorio.
Consideriamo )(),.....,(),( 21 ntXtXtX variabili aleatorie ai diversi istanti
nttt ,......,, 21 suscettibili di assumere N possibili determinazioni distinte
10
Ni xxxx ,.....,..., 21 . Supponiamo che la variabile )( ntX assuma il valore ix al
verificarsi dell’evento inE , ossia al verificarsi delle i-esima delle N determinazioni
possibili nell’istante nt .
Possiamo a questo punto definire:
{ }==∩=∩=∩== −−−−+ ))(()....)(())(())(/())((Pr 1122111 xtXxtXxtXxtXxtXob inininjn
= { }))(/()(Pr 1 injn xtXxtXob ==+ . [1.8]
Interpretando gli istanti: nt come "presente", 121 ,.......,, −nttt come "passato" e
1+nt come "futuro", possiamo concludere che il passato non ha alcuna influenza
sul futuro sotto la condizione che il presente sia noto; in altre parole effettuare
osservazioni sull’andamento temporale delle variabili casuali nei diversi istanti
passati )(),.....(),( 121 −ntXtXtX , non ha alcun interesse ai fini della previsione
dell’evoluzione futura )( 1+ntX , in quanto tutte le informazioni utili risultano
essere contenute nel valore che la variabile casuale in esame ha assunto nel
presente )( ntX .
Tali considerazioni saranno valide e le possibili determinazioni delle variabili
aleatorie )(),( 21 ++ nn tXtX ,...........saranno note qualora siano state assegnate:
1) la distribuzione iniziale di appartenenza del sistema agli N stati; questa la
indichiamo con il vettore [ ])(),.......(),.....2(),1( 11111 Naiaaaa = , dove
{ }
i
xXobia == 11 Pr)( ;
2) le probabilit subordinate di transizione
ji
p
,
dove i,j=1,2,.......,N, le quali
possono essere raccolte in una matrice di transizione i cui elementi
ji
p
,
rappresentano le probabilit supposte costanti nel tempo che un’unit
residente nella zona i-esima si trasferisca nell’unit di tempo nella zona j-
esima (ad esempio una particolare tipologia di inquinante che si trasferisce da
una zona ad un’altra).
Tale matrice (P) Ł detta matrice stocastica di transizione (Daboni, 1970):
11
NNjNN
Nijii
N
ppp
ppp
pp
P
,,1,
,,1,
,11,1
.
.
....
..
= .
Se indichiamo con
t
a il vettore riga che raffigura la distribuzione delle unit tra
le diverse zone, si ha la relazione ricorrente:
Paa
tt
=+1 . [1.9]
In tal modo con il trascorrere del tempo la distribuzione si evolve verso una
forma che dipende dalla struttura della matrice di transizione e dalla distribuzione
iniziale.
1.2.5 Modello lineare di collocamento di oggetti in celle
In questo modello scomponiamo la nostra regione in diverse celle (sub-
regioni) all’interno delle quali abbiamo un certo numero di oggetti; assumiamo
che il processo di collocazione di ogni oggetto all’interno di una cella sia
omogeneo, ossia che non vi sia alcuna preferenza sistematica nella scelta della
sub-regione; inoltre, supponiamo che la probabilit che una cella contenente x
oggetti al tempo t possa riceverne un altro nell’intervallo di tempo (t,t+dt) sia
indipendente dal tempo.
La probabilit per ciascuna cella di ricevere un ul teriore oggetto sar data da
(Rogers, 1974):
xtxf δαβ +=),( , [1.10]
dove α misura l’area della cella, β Ł un fattore di proporzionalit e αβ Ł la
probabilit iniziale che in una cella vuota si vada a collocare un oggetto; δ indica
invece la variazione di probabilit che una cella c he contiene x oggetti ne possa
accogliere un altro nell’intervallo di tempo (t,t+dt).
12
Se δ=0 la probabilit che nella cella presa in esame ca da un ulteriore oggetto
rimane costante e non varia al variare del numero di oggetti; avremo in questo
caso αβ=),( txf .
Se δ>0, la probabilit che nel periodo (t,t+dt) si coll ochi nella cella in esame
un ulteriore oggetto Ł un funzione crescente del numero di oggetti in essa
presenti; in questa fattispecie ci sar una certa a ttrazione a ricevere nuovi oggetti,
di conseguenza la probabilit di ricevere un ulteri ore oggetto tende ad aumentare
ad aumentare del numero degli stessi.
Se δ<0, la probabilit che nella cella si collochi un u lteriore oggetto nel
periodo (t,t+dt), Ł una funzione decrescente del numero di oggetti in essa
presenti; in questo caso ci sar una sorta di repul sione ad accogliere nuovi
oggetti, di conseguenza la probabilit di ricevere un ulteriore oggetto tende a
ridursi all’aumentare del numero degli stessi.
Situazioni particolari si hanno quando la probabilit di accogliere un nuovo
oggetto f(x,t)=1, in tal caso se δ>0 le celle accumulerebbero oggetti all’infinito;
mentre, se f(x,t)=1 e δ<0, avremo che tutte le celle vengono ad avere uno stesso
numero di oggetti (Zani, 1992).
1.2.6 Modello non lineare di collocamento di oggetti in celle
Per poter analizzare tale modello dobbiamo introdurre preliminarmente la
distribuzione logistica. La sua funzione di densit in una formulazione
semplificata Ł data da (Zani, 1992):
βαβα /)(1
1
),;(
−−+
=
x
xf
, [1.11]
dove i due parametri α e β possono assumere rispettivamente i valori -∞<α<+∞
e β>0.
Prendiamo ora in esame un processo logistico avente la seguente funzione di
densit (Zani, 1992):
x
txf
δ
γ
−+
=
1
1
),( , dove 1
1
−=
αβ
γ . [1.12]
13
In questo modello non lineare α misura l’area della cella, β Ł un fattore di
proporzionalit e αβ Ł la probabilit iniziale che in una cella vuota si vada a
collocare un oggetto. δ indica invece il tasso di variazione della probabilit che
esprime: se δ>0 il grado di attrazione per la collocazione di nuovi oggetti
all’interno della cella presa in esame; se δ<0 esprime il grado di repulsione alla
ricezione di un nuovo oggetto; se δ=0 avremo αβ=),( txf , come nel caso lineare
del paragrafo precedente, la probabilit di una nuo va collocazione di un oggetto
all’interno della cella presa in esame non varia al variare del numero di oggetti in
essa presenti.
Graficamente:
se δ<0 per +∞→x , abbiamo che 0),( =txf
per 0→x , abbiamo che αβ
γ
=
+
=
1
1
),( txf
Fig. 1.1 Rappresentazione della probabilit di acco glimento di un nuovo oggetto
nel caso δ <0.
X
Ci dimostra come la probabilit di accogliere un n uovo oggetto si riduce
all’aumentare degli oggetti nella cella stessa;
se δ>0 per +∞→x abbiamo che 1),( =txf ,
14
per 0→x abbiamo che αβ
γ
=
+
=
1
1
),( txf ;
Fig. 1.2 Rappresentazione della probabilit di acco glimento di un nuovo oggetto
nel caso δ >0.
X
Quindi se δ>0 la probabilit che nella cella che contiene gi x oggetti ne venga
inserito un altro aumenta all’aumentare del numero di oggetti in essa presenti.
Il processo non lineare ha l’enorme vantaggio che esso non si arresta, a meno
che non vengano posti dei vincoli; una possibile tipologia di vincoli potrebbe
essere ad esempio il numero massimo di oggetti collocabili in ciascuna delle
celle nelle quali Ł scomposta la nostra regione di studio.
1.3 Il metodo areale per l analisi dei dati spaziali
Due dei metodi maggiormente impiegati nella pratica per l’analisi dei dati
spaziali sono:
- il metodo areale;
- il metodo delle distanze.
Essi vengono utilizzati per studiare la conformit della configurazione dei punti
osservati ad un modello teorico.
15
Con il metodo areale (Upton e Fingleton, 1985) ci proponiamo di prevedere il
numero di punti che cadono nelle sub-aree selezionate. Queste ultime sono
generalmente rappresentate da quadrati (talvolta da circonferenze), che
rappresentano un campione di area del territorio, all’interno del quale si rileva il
numero di insediamenti.
Una volta che i quadrati sono stati posizionati, Ł sufficiente contare il numero
dei punti che cadono in ciascun quadrato, per poi costruire la distribuzione
secondo il numero dei punti e quindi studiarne la distribuzione sul territorio.
Fig. 1.3 Rappresentazione quadrati sparsi.
.
In alcuni casi si pu fare riferimento a dei quadra ti sparsi che possono talvolta
essere parzialmente sovrapposti cosicchØ alcuni punti possono appartenere
contemporaneamente a piø di un quadrato. In ogni caso, tali quadrati vengono
utilizzati per fare una stima del numero degli individui che cadono in ciascuna
regione di studio. Successivamente, la distribuzione delle aree in base al numero
degli insediamenti osservati viene posta a confronto con quella teorica desunta
dal modello.
L’analisi mediante quadrati presenta per alcuni difetti:
- i risultati possono variare a seconda della dimensione del quadrato che
prendiamo in considerazione;
- i punti di ogni quadrato dovrebbero essere indipendenti dai punti di ogni altro.
Ci Ł vero solo quando la misura dei quadrati Ł tale da riuscire a contenere i
gruppi di punti (clusters) che sono tra loro correlati; per ovviare a tale
eventuale problema, Neyemann, Scott e Warren (Cliff e Ord, 1975), hanno
sviluppato il modello detto centro satellite, caratterizzato da 3 aspetti:
1) si individuano inizialmente dei raggruppamenti centrali,