Extended abstract
L’approvvigionamento idrico della città di Milano avviene tramite un sistema di pozzi di
captazione dell’acqua di falda, che fanno capo a 27 stazioni di rilancio. Ogni stazione opera
attraverso 12 - 24 pozzi, per un totale di circa 400. L’intero sistema è gestito dall’ente MM
(Metropolitana Milanese) responsabile anche dell’estesa rete di monitoraggio sia dell’acqua di
falda che di quella distribuita nella rete a seguito dei trattamenti di potabilizzazione.
Scopo del presente progetto di tesi è l’analisi esplorativa dei dati di qualità dell’acqua di
falda, resi disponibili dalla rete di monitoraggio gestita da MM.
La distribuzione spaziale dei pozzi, e le diverse caratteristiche di ciascuno di essi fanno
sì che l’acqua emunta presenti caratteristiche chimiche variabili; ulteriore variabilità è
introdotta su scala temporale dall’andamento della falda e da una serie di fenomeni
meteorologici, chimico-fisici e biologici. La struttura dei dati di monitoraggio chimico risulta
quindi particolarmente complessa: essi consistono in campioni prelevati negli anni 2007-2013
in punti diversi del territorio di interesse (il comune di Milano) e a diverse profondità e
comprendono un numero molto significativo di parametri. Per lo studio di un dataset di tale
natura si è ritenuto opportuno avvalersi del potere di sintesi di tecniche di analisi
multivariata. Esse offrono infatti la possibilità di sintetizzare in modo efficace l’informazione
ridondante, descrivendo i dati attarverso un numero ridotto di variabili.
L’approccio, essenzialmente di tipo “bottom-up” (ovvero basato sulle misure
disponibili, senza aver definito a priori un modello dinamico), consente di ricavare
i
Extended abstract
informazioni sul tipo di contaminazione presente e sulle tipologie di sorgente inquinante che
potrebbero averlo determinato, utilizzando strumenti appartenenti alla famiglia delle tecniche
chemiometriche.
Al fine di meglio interpretare i risultati delle analisi statistiche, è stata condotta,
parallelamente alle analisi statistiche, una caratterizzazione idrogeologica dell’area milanese.
In particolare è stato ricostruito un modello tridimensionale, che mostrasse la struttura del
sottosuolo nei 195 metri sottostanti al comune di Milano, permettendo una migliore
comprensione del sistema di acquiferi e della distribuzione di lenti di argilla di separazione
degli stessi. Un confronto delle sezioni stratigrafiche con le caratteristiche tecniche dei pozzi
(profondità e fenestrature) ha permesso quindi di chiarire le ragioni di almeno una parte della
variabilità riscontrata nei dati, rendendo maggiormente interpretabili i risultati delle
sopracitate analisi.
La prima fase, di sintesi, è consistita in una riduzione del numero di variabili tramite
Factor Analysis (FA). Questa tecnica, fondata sullo studio delle correlazioni tra i descrittori
chimici disponibili, permette di individuare un numero ristretto di fattori latenti in grado di
spiegare la maggior parte della variabilità dei dati, tralasciandone quindi solo una percentuale
trascurabile. La struttura di tali fattori permette già di per sé di ricavare informazioni
specifiche sui dati e di individuare, tramite la loro interpretazione, tipologie specifiche di
contaminazione e plausibilmente di fare ipotesi sulla loro sorgente.
I fattori individuati nella prima fase sono stati la base di partenza per ricavare ulteriori
informazioni dal dataset tramite l’applicazione di altre tecniche di analisi. Tramite la Cluster
analysis (svolta in questo studio con la tecnica K-Means) è stato possibile individuare nelle
singole misure profili comuni di distribuzione spaziale e temporale degli inquinanti.
L’elaborazione di Self Organizing Map (Mappe di Kohonen) ha permesso invece di indagare
la naturale distribuzione dei dati in termini di similarità e diversità; queste due analisi
costituiscono il secondo step del presente studio. Nell’ultima fase del lavoro di tesi ci si è
invece avvalsi di tecniche di analisi multicriteri per il supporto alle decisioni (MCDM) allo
scopo di elaborare indici che evidenziassero la qualità dell’acqua emunta dai vari pozzi (sotto
forma di un ordinamento migliore-peggiore – rank analysis) sulla più recente finestra
ii
Extended abstract
temporale 2011-2012-2013. Sono stati elaborati parallelamente due ordinamenti: sulla base
dei factor scores legati a solventi e BTEX da un lato, fitofarmaci dall’altro. Per entrambi
sono riportati indici elaborati secondo le funzioni di desiderabilità, utilità e dominanza.
La prima informazione importante ottenuta dai dati disponibili è stata l’individuazione
dei fattori latenti: l’analisi ha evidenziato 19 fattori, in grado di spiegare il 75% della varianza
totale dei dati. Il primo fattore racchiude i parametri chimici legati all’interazione dell’acqua
con la matrice del suolo, ma anche inquinanti come nitrati, cloruri e solfati ovvero quei
contaminanti di origine antropica caratterizzati da una diffusione più areale, opposta quindi
ai fenomeni di contaminazione puntuale, legati a singole fonti inquinanti che determinano le
concentrazioni degli altri composti oggetto di studio.I fattori successivi raggruppano le
variabili chimiche, sulla base delle fonti e dei comportamenti ambientali: alcuni fattori
rappresentano quindi gruppi di pesticidi, o di solventi organici. Troviamo gli IPA suddivisi in
due fattori sulla base del peso molecolare, i metalli in un unico fattore (con la sola eccezione
del cromo che appare slegato) e i BTEX di maggiore rilievo, presenti in falda a seguito di
sversamenti/perdite di materiali di origine fossile, in un ulteriore fattore.
Un secondo livello di informazione è stato ricostruito per mezzo della cluster analysis e
delle Self Organizing Maps. Esse evidenziano come, dal punto di vista macroscopico, si
possa individuare un profilo di contaminazione da solventi e BTEX riguardante la fascia
nord della città ed un secondo profilo, associato a fitofarmaci, caratterizzante le zone del
centro-sud.Ad una scala a maggiore dettaglio, difficilmente troviamo in una stessa centrale
valori significativamente alti di più di un fattore, fatto salvo alcune eccezioni tra cui spicca la
centrale Armi fortemente contaminata da diversi pesticidi, solventi e cromo.
Tali considerazioni, oltre al numero di fattori particolarmente elevato, hanno portato
alla necessità di elaborare due rank analysis separate: soventi e BTEX e, separatamente,
fitofarmaci. Si riportano di seguito le mappe rappresentanti l’ordinamento secondo la
funzione di desiderabilità, per i solventi in alto, e per i pesticidi in basso. Si possono
osservare in esse andamenti generali per le varie centrali, ma rimangono allo stesso tempo
evidenti differenti comportamenti di pozzi vicini, spiegabili alla luce di un confronto con il
modello tridimensionale della struttura dell’acquifero e delle caratteristiche tecniche dei
iii
Extended abstract
singoli pozzi. Le tecniche chemometriche utilizzate hanno quindi permesso di ricavare
agilmente informazioni di tipo e grado di dettaglio diverso, evidenziando criticità nella qualità
dei dati, e informazioni rilevanti sullo stato ambientale del comparto studiato, mantenendo al
contempo carattere di sinteticità e immediatezza di comprensione.
Figura 1 – Classificazione dei pozzi del comune di Milano, secondo l’ordinamento elaborato sui fattori
legati a solventi e BTEX
Figura 2 – Classificazione dei pozzi del comune di Milano, secondo l’ordinamento elaborato sui fattori
legati a fitofarmaci
iv
Capitolo 1
Introduzione
Scopo del presente progetto di tesi è un’analisi esplorativa dei dati disponibili dalla rete
di monitoraggio gestita da MM (Metropolitana Milanese, gestore dell’Acquedotto di Milano)
riguardanti la qualità degli acquiferi del milanese. L’approvvigionamento idrico della città di
Milano avviene tramite captazione dell’acqua di falda, attraverso un sistema di pozzi, che
fanno capo a 27 stazioni di rilancio. Ogni stazione opera attraverso 12 - 24 pozzi, per un
totale di circa 400 pozzi.
La distribuzione spaziale dei pozzi, e le diverse caratteristiche di ciascuno di essi fanno
sì che l’acqua emunta presenti caratteristiche chimiche variabili; un’ulteriore variabilità è
introdotta su scala temporale dal flusso della falda e da una serie di fenomeni meteorologici,
chimico-fisici e biologici. La struttura dei dati di monitoraggio risulta quindi particolarmente
complessa: essi consistono in campioni prelevati negli anni 2007-2013 in punti diversi del
territorio di interesse (il comune di Milano) e a diverse profondità e comprendono un
numero notevole di parametri. Per lo studio di un dataset di tale natura si è optato per
tecniche di analisi statistica multivariata. Esse offrono infatti la possibilità di sintetizzare
l’informazione, descrivendo i dati con un numero ridotto di variabili, eliminando nel
contempo l’informazione spuria.
I dati provenienti dalla rete di monitoraggio del comune e della provincia di Milano
sono stati rielaborati negli ultimi anni secondo un approccio “univariato” fondato sullo
studio di ogni singola variabile chimica (progetto qualfalda, 2002 Rapporto annuale 2012
1
Introduzione
sullo stato delle acque sotterranee, ARPA) puntando ad identificarne i plume di
contaminazione. Le analisi statistiche utilizzate in questo studio consentono una visione
integrata e multivariata del sistema, basata sull’individuazione dei fattori latenti (es. medesima
origine, analoghe caratteristiche di mobilità ambientale e caratteristiche chimiche) che
sottendono alle variabili chimiche e che ne spiegano la variabilità sul territorio.
L’approccio, essenzialmente di tipo “bottom-up” (ovvero basato sulle misure
disponibili, senza l’elaborazione di un modello concettuale dinamico), utilizzando strumenti
appartenenti alla famiglia delle tecniche chemometriche, consente di ricavare informazioni
sul tipo di contaminazioni presenti, sulla loro evoluzione nel tempo e sulle tipologie di
sorgente inquinante che potrebbero averle determinate,
La prima fase, di sintesi, consiste in una riduzione del numero di variabili tramite Factor
Analysis (FA). Questa tecnica, fondata sullo studio delle correlazioni tra i descrittori chimici
disponibili, permette di individuare un numero ristretto di fattori latenti in grado di spiegare
la maggior parte della variabilità dei dati, tralasciando quindi una percentuale ridotta di
varianza generalmente considerata trascurabile (Williams et al., 2012). La struttura di tali
fattori permette già di per sé di ricavare informazioni specifiche sui dati e di individuare,
tramite la loro interpretazione, tipologie specifiche di contaminazione e la loro plausibile
sorgente. Permette inoltre di quantificare l’importanza di ciascuno di essi rispetto alla totale
variabilità dei dati, di identificare quindi quelli di maggiore rilievo.
L’approccio tradizionale punta ad esaminare il maggior numero possibile di variabili
singole, studiandone andamenti temporali e spaziali. Questo approccio particolarmente
laborioso porta talvolta all’esigenza, in fase di elaborazione dei dati, di raggruppare le variabili
chimiche in famiglie di contaminanti accumunate generalmente sulla base della tipologia di
sorgente. Questo studio permette invece di identificare fattori latenti in grado di raggruppare
al loro interno variabili tra loro correlate, prescindendo da una suddivisione a priori, ed
elaborando invece una più efficace sintesi dei dati fondata sull’informazione che essi stessi
portano.
I fattori di contaminazione individuati nella prima fase sono stati ulteriormente indagati
attraverso tecniche di segmentazione (Cluster Analysis, Self Organizing Maps) finalizzati ad
2
Introduzione
individuare nelle singole misure profili comuni di distribuzione spaziale e temporale degli
inquinanti.
Determinati i fenomeni di contaminazione presenti sul territorio e i profili ricorrenti su
scala spaziale e temporale, ci si è proposti in questo studio di rielaborare le informazioni
raccolte, rendendole maggiormente funzionali alla pianificazione della rete di monitoraggio.
Per questa ultima fase ci si è avvalsi di tecniche di analisi multicriteri per il supporto alle
decisioni (MCDM) allo scopo di elaborare indici che evidenziassero la qualità dell’acqua
emunta dai vari pozzi (sotto forma di un ordinamento migliore-peggiore) sulla più recente
finestra temporale 2011-2012-2013. Tali indici permettono quindi di identificare quali pozzi
valga la pena campionare e monitorare più frequentemente. Al fine di meglio interpretare i
risultati delle analisi statistiche, e osservarne l’efficacia è stata condotta, parallelamente alle
altre analisi, una caratterizzazione idrogeologica dell’area milanese. In particolare è stato
ricostruito un modello tridimensionale, che mostrasse la struttura del sottosuolo nei 195
metri sottostanti al comune di Milano, permettendo una migliore comprensione del sistema
di acquiferi e della distribuzione di lenti di argilla. Un confronto delle sezioni stratigrafiche
con le caratteristiche tecniche dei pozzi (profondità e fenestrature) permette quindi di
chiarire parte della variabilità dei dati, rendendo maggiormente interpretabili i risultati delle
sopracitate analisi.
La presente trattazione illustra le tecniche utilizzate e i risultati che hanno prodotto. In
particolare, nel secondo capitolo sono riportati dei cenni teorici di statistica multivariata e di
geostatistica. Nei capitoli 3 e 4 sono esplicitati gli strumenti informatici utilizzati e le scelte
operative effettuate in fase di elaborazione rispettivamente per la ricostruzione delle
stratigrafie e per l’analisi esplorativa dei dati. Il quinto capitolo illustra invece i risultati e
l’interpretazione che di essi è stata formulata.
1.1 Inquadramento territoriale
La Pianura lombarda dispone di un ricco patrimonio che consiste nelle proprie acque
sotterranee che garantiscono la gran parte dell’approvvigionamento idrico del territorio.
L’area metropolitana a nord di Milano che si estende tra il torrente Seveso a ovest e il fiume
Adda a est, deve buona parte della propria crescita economica e sociale alla presenza, alla
3