7
del rilievo poiché tiene conto solo di parametri geometrici (pendenza,
curvatura del profilo e curvatura tangenziale) e di conseguenza
elimina la soggettività precedentemente descritta.
Il presente lavoro di tesi è stato preceduto dallo studio di diversi
metodi sul riconoscimento automatico di immagini, eseguita in diversi
campi da vari autori. Successivamente si è sperimentato una nuova
procedura di classificazione automatica delle forme del paesaggio.
Dopo un numero elevato di tentativi e prove su aree differenti è stato
messo a punto un metodo abbastanza stabile ed efficiente che è stato
testato su due aree di studio ubicate in settori differenti dell’Arco
Calabro.
Come prima aree di studio è stata scelta la zona circostante il bacino
di Castrovillari poiché, per la suddetta, si è in possesso di una grande
quantità di dati (mappature geomorfologiche effettuate con i metodi
tradizionali) da confrontare con il modello partorito dalle elaborazioni;
invece, come seconda area, la scelta è ricaduta sulla zona che
circoscrive l’invaso artificiale del Lago Cecita per la quale non si
dispone di carte geomorfologiche ma si è voluto confrontare la mappa
prodotta dalla classificazione automatica con le carte topografiche
della stessa area. Da tale confronto si è potuto notare che i modelli
computerizzati, nella maggior parte dei casi, descrivono in modo
abbastanza dettagliato le forme del territorio delineate dall’analisi
tradizionale.
8
CAPITOLO 1
Metodologia di studio
1.1 Introduzione.
Il riconoscimento automatico di particolari elementi
geomorfologici si basa su analisi ed elaborazioni di modelli digitali del
terreno.
I DEM (Digtal elevation models) sono rappresentazioni
computerizzate della superficie topografica; si possono ottenere in
vari modi: digitalizzazione di mappe topografiche, steroscopiche da
satellite, foto aeree etc.
Il risultato di tutto ciò è un file raster che può essere immaginato
come una griglia regolare di valori rappresentanti la quota di ogni
singola cella (pixel). La posizione nello spazio di una cella è
determinata dalle proprie coordinate geografiche mentre la
risoluzione del raster non è altro che la dimensione dei pixel.
9
Le elaborazioni atte ai fini della tesi di laurea sono state effettuate in
ambiente GNU/LINUX utilizzando il software GIS GRASS (open
source) versione 5 e 6 (Neteler 1998) e l’ambiente statistico R (open
source) interfacciato allo stesso GIS tramite le apposite librerie “R-
GRASS” e “spgrass6” (Bivand 1999,2000).
Il file di partenza è in un formato testo (ascii); questo viene
importato in GRASS e convertito in un raster binario (il nostro DEM)
tramite il comando r.in.ascii. La risoluzione del DEM utilizzato è di
40metri*40metri e deriva dall’interpolazione di curve di livello con
equidistanza a 25metri (fig.1).
Fig.1- Il file ascii viene importato nel GIS e trasformato tramite il comando
r.in.ascii in un file Raster binario (DEM).
File ascii
Raster binario (DEM)
GIS GRASS
r.in.ascii
10
Dal raster possono essere estratti vari parametri morfometrici:
curvatura del profilo (profile curvature, calcolato nel senso della
locale massima pendenza; Mitasova & Hofierka,1993), curvatura
tangenziale (tangential curvature, misurata perpendicolarmente alla
direzione della locale massima pendenza; Mitasova & Hofierka,1993) ,
curvatura media (mean curvature), pendenza (slope), esposizione
(aspect), elevazione (elevation).
I suddetti parametri morfometrici vengono estratti dal DEM tramite
un modulo compreso nella tool di GRASS, r.resamp.rst, che oltre ad
estrarre i suddetti ricampiona il DEM . L’algoritmo si basa sulla
interpolazione e sulle computazioni delle analisi topografiche
effettuate sul DEM tramite l’opportuna regolazione dei parametri di
tensione e smoothing, in tal modo si possono diminuire gli errori
dovuti all’interpolazione originaria e, volendo, l’utente può cambiare
la risoluzione delle celle a suo piacimento.
11
1.2 Cluster analysis.
La cluster analysis è una tecnica di analisi multivariata attraverso
la quale è possibile raggruppare le unità statistiche (pattern), in modo
da minimizzare la “lontananza logica” interna a ciascun gruppo
(cluster) e di massimizzare quella tra i gruppi.
Lo scopo è quello di identificare un minor numero di gruppi tali che gli
elementi appartenenti ad un gruppo siano, in qualche senso, più simili
tra loro che non agli elementi appartenenti ad altri gruppi (Fig2).
Fig.2 – Esempio di raggruppamenti.
12
Il punto di partenza fondamentale è la definizione di una misura di
similarità o di distanza logica tra gli oggetti. L’altro punto è la regola
in base alla quale si formano i gruppi.
I pattern sono oggetti (od osservazioni) contenuti in insieme di dati di
cui si conoscono un numero p di variabili o attributi. Dato che il raster
ha una struttura a griglia regolare le suddette osservazioni sono
costituite da attributi associati alle celle del raster. In particolare, n è
il numero di osservazioni (che corrisponde al numero di celle del
raster) mentre p è il numero di attributi associati a ciascuna celle
dello stesso. Quindi, si può assimilare un raster ad una matrice X di
dimensioni n*p.
Nell’ ambiente software usato (R statistical) i raster possono essere
combinati in un data frame ossia un insieme di osservazioni costituite
a loro volta da vettori di attributi. In tal modo le informazioni spaziali
(coordinate geografiche) non compaiono nella lista degli attributi e
perciò non vengono utilizzate nella classificazione.
Questo non è un problema perché tali coordinate non scompaiono del
tutto ma restano latenti e ricompaiono quando si esporta il file
contenente il risultato della classificazione in un nuovo raster.
Le tecniche di classificazione possono essere distinte in non guidate
(o unsupervised) e guidate (o supervised):
¾ La procedura non supervisionata (o unsupervised) non richiede
la conoscenza degli elementi da discriminare, ma si basa
13
esclusivamente sugli attributi dei pixel del raster, consentendo
così di aggregare i dati in famiglie o cluster. I criteri secondo cui
discriminare i gruppi sono di natura statistica e vengono forniti
al calcolatore come nuclei centrali con determinati attributi,
attorno a questi vengono raggruppati i pixel (celle) con
caratteristiche simili. Nel nostro caso non è quindi necessaria
alcuna informazione sulla loro corrispondenza con l’effettiva
morfologia del territorio.
¾ Le tecniche supervisionate (o supervised) sfruttano invece la
definizione a priori delle classi tematiche di interesse del
territorio: la scelta di alcune aree campione rappresentative
delle categorie, che nel nostro caso sono costituite da particolari
forme geologiche, e consente di calcolare i parametri statistici
relativi alle classi tematiche prescelte, in base ai valori dei pixel
appartenenti alle aree campione.
Il risultato della procedura è in entrambi i casi un’ immagine in cui i
pixel vengono identificati, classe per classe, con differenti toni di
grigio o con un colore convenzionale caratteristico per ciascuna
categoria.
I due sistemi rispondono ad esigenze diverse di classificazione:
quando è importante porre in relazione gli insiemi di pixel con
categorie geomorfiche realmente presenti sul territorio, il metodo
supervisionato permette di definire delle classi informative di grande
14
utilità; quando invece si devono analizzare superfici poco conosciute e
scarsamente accessibili, la tecnica non guidata consente di eseguire
una preliminare analisi esplorativa dell’ immagine, definendo gruppi
di pixel in termini di classi morfometriche, la cui relazione con le
classi informative può emergere solo attraverso sopralluoghi in campo
o il confronto con mappe tematiche.
Nello studio di tesi si sono usati metodi non supervisionati per
eliminare la soggettività dovuta all’ assegnazione delle aree
campione.
1.3 Classificazione non supervisionata: l’algoritmo
K-means.
L’algoritmo k-means (MacQueen, 1967) è una procedura di
classificazione non supervisionata iterativa: in base alla scelta di
alcuni parametri iniziali definiti dall’operatore, si individuano dei
cluster di confronto nei quali i vari pixel vengono collocati secondo un
criterio di somiglianza morfologica. Ad ogni iterazione l’assegnazione
dei pixel nei gruppi viene ricalcolata in base alle caratteristiche dei
cluster più vicini, finché non si raggiunge un numero di ricollocazioni
15
minore di una soglia scelta dall’operatore. Quindi il numero di classi è
definito dall’operatore.
L’ obiettivo finale è quello di dividere un insieme di oggetti in K
clusters in modo da minimizzare una funzione obbiettivo, scelta a
priori, che nella maggioranza dei casi è rappresentata dall’errore
quadratico medio:
dove f² è la funzione errore quadratico medio, C è il numero dei
cluster, P è l’insieme dei pattern, K è il numero dei cluster che si
vogliono ottenere,
)( j
i
x rappresenta il pattern-iesimo (ad esempio il
vettore costituito dagli attributi di pendenza e quota associati alla
cella i-esima del DEM) all’interno del cluster, infine j e
j
c individuano i
centri dei cluster nello spazio multivariato (Esposito, 2006).
La norma ||||
)(
j
j
i
cx − indica la distanza tra il centro di un cluster ed un
vettore di attributi. Tra i vari tipi di misura di distanza si è scelto di
utilizzare quella euclidea poiché crea gruppi di forma sferica nello
spazio multivariato. In poche parole si tratta di un algoritmo di
ottimizzazione che deve minimizzare una funzione obbiettivo, quando
la funzione converge si è trovata la soluzione sub-ottimale. Il metodo
consente, anche, di scegliere il numero massimo di iterazioni da
∑∑
==
−=
K
j
n
i
j
j
i
j
cxPCf
11
2)(
||||),²(
16
effettuare e un valore di tolleranza oltre il quale la convergenza si
ritiene raggiunta. L’algoritmo funziona nella seguente maniera:
1. Sceglie casualmente i centri iniziali dei cluster.
2. Assegna ogni oggetto al punto di centro più vicino
3. Ricalcola la posizione dei centri in modo da minimizzare la
funzione obiettivo scelta (errore quadratico medio).
4. Ripete gli step 2 e 3 finché lo spostamento dei centri non è
inferiore ad una prefissata tolleranza, cioè fino quando non si
raggiunge la convergenza o fino ad un numero massimo prefissato di
iterazioni. In pratica la convergenza è raggiunta quando il ricalcolo
dei cluster riesce a rendere minima la somma degli scarti quadratici
medi dei cluster, cioè la rende inferiore della soglia di tolleranza
prefissata (Fig. 3 a e b).
STEP 1 STEP 2
STEP 3
a)