1 Introduzione
indirizzare lo sperimentatore verso regioni sperimentali più
informative.
Nella costruzione di un disegno sperimentale si possono
distinguere alcuni passi principali: la selezione dei fattori da
considerate, i diversi livelli con cui possono essere valutati e le
variabili di processo.
Nel nostro caso le variabili di processo sono determinate a priori
dallo sperimentatore, quindi lo scopo di questo elaborato è
determinare un sottospazio di variabili e di livelli ridotto e che sia il
più informativo possibile. Disegni degli esperimenti per misture sono
stati ampiamente trattati in letteratura (Cornell, 2001, Montgomery,
2005), ma gli approcci tradizionali trattano casi in condizione di bassa
dimensionalità; in problemi di alta dimensionalità richiedono troppe
osservazioni per essere economicamente attuabili (Lewis, 2001).
Per determinare il disegno sperimentale ottimale per questo tipo di
sperimentazione, analizzeremo e confronteremo differenti tipi di
modelli statistici. Un confronto tra modelli lineari e non lineari, ci
permetterà di identificare, quali variabili e quali interazioni
definiscono il disegno sperimentale ottimale. Inoltre considereremo
l'approccio delle reti Bayesiane per l'identificazione delle variabili
rilevanti per il sistema e procederemo all'applicazione di una rete
Bayesiana per la determinazione delle relazioni di dipendenza tra di
esse.
9
1.1 La scelta delle variabili per la costruzione di un disegno ottimale
1.1 La scelta delle variabili per la costruzione di un
disegno ottimale
Sperimentare, significa investigare attraverso un test, o una
insieme di test, un particolare processo fisico o un particolare
sistema. Il processo, rappresentato dalla figura 1.1, viene identificato
come una combinazione di operazioni che trasformano alcuni input,
spesso materie prime, in uno o più output,
Y={y
1,
,y
q
}
misurabili
(Montgomery 2005). Alcuni tipi di variabili entranti nel processo
X
1,
,X
p
, sono controllabili e misurabili, altre invece non sono
controllabili,
z
1,
,z
t
.
Gli obiettivi di un esperimento possono solitamente comprendere,
secondo la definizione data dal Montgomery (2005):
– la determinazione di quali variabili hanno più influenza sulla
risposta Y.
10
Figura 1.1: Modello generale di un processo
PROCESSO
. . . .
. . . .
Fattori Controllabili
X
1
X
2
X
p
z
1
z
2
z
t
Fattori non Controllabili
Input
Output
y
1
... y
q
1.1 La scelta delle variabili per la costruzione di un disegno ottimale
– la determinazione dei valori da assegnare alle
X
j
più influenti
in modo che la risposta Y sia vicina alla richiesta della specifica,
rendendo la variabilità di Y più piccola possibile
– la determinazione delle
X
j
in modo tale da minimizzare
l'effetto delle variabili non controllabili sulla risposta Y.
Per raggiungere gli obiettivi suddetti, e quindi per individuare il set
di variabili più influenti e le loro combinazioni, in modo da controllare
e prevedere le dinamiche del processo, di grande utilità è la
costruzione di un disegno statistico degli esperimenti. Il disegno degli
esperimenti può dunque essere utilizzato sia nella messa a punto del
processo sia per ottenere un processo robusto, cioè insensibile alle
sorgenti esterne di variabilità. Questa definizione di disegno degli
esperimenti ben si adatta sia a processi di tipo industriale sia a
processi di ricerca scientifica.
Nel caso della ricerca scientifica, l'interesse maggiore per il disegno
sperimentale è quello di determinare le influenze che alcuni fattori
hanno sulla variabile risposta, avendo poche o nessuna informazione
su come opera il sistema oggetto di studio. È facile dunque capire che
condurre degli esperimenti sia fondamentale per ottenere
informazioni su un processo non noto.
Molto spesso però il costo unitario di un esperimento è
estremamente elevato, e risulta improponibile analizzare l'intero
spazio sperimentale di definizione del problema. Un buon disegno
sperimentale porta ad un aumento significativo dell'efficienza del
processo e una diminuzione sostanziale dei costi di sperimentazione.
L'applicazione di analisi statistiche nel disegno degli esperimenti
può inoltre apportare al disegno sperimentale le conoscenze che si
riescono ad estrapolare da una analisi dei dati. In particolare il
disegno statistico degli esperimenti è la metodologia che studia i
modi per condurre e pianificare gli esperimenti per ottenere la
11
1.1 La scelta delle variabili per la costruzione di un disegno ottimale
massima informazione con il minimo numero di prove (Trygg e Wold
2002). Quindi il disegno sperimentale e le analisi statistiche devono
essere strettamente correlate al fine di ottenere un incremento
dell'efficienza del processo. Ovviamente l'applicazione statistica
risulta totalmente inutile o dannosa se non vi è un'accurata condotta
sperimentale ed una corretta misurazione del problema oggetto di
studio.
Risulta quindi determinante ai fini di una buona programmazione
degli esperimenti che tutte le fasi del processo siano eseguite in
modo corretto e compiute con massima accuratezza. Le fasi del
disegno sperimentale vengono riassunte in Montgomery (2005) nel
seguente modo:
– Riconoscimento ed enunciazione del problema: sebbene
possa sembrare una fase in un certo senso scontata, molto spesso
è difficile cogliere quale sia il vero problema che dev'essere
sottoposto ad un analisi sperimentale. Riuscire a determinare con
accuratezza il problema, consente di definire sia gli obiettivi
dell'esperimento, sia la procedura per eseguirli.
– Scelta dei fattori, dei loro livelli e dei loro domini:inun
processo produttivo è molto importante riuscire ad indagare tutti i
fattori ritenuti determinanti per la risposta; si ricorda al lettore che
tra i fattori esistono sia variabili di processo (controllabili) sia
variabili di rumore (non controllabili). Scegliere correttamente i
fattori da analizzare significa avere piena conoscenza del problema
da studiare. Una volta selezionate queste componenti, lo
sperimentatore deve scegliere una dominio in cui esse possono
variare durante la fase sperimentale, e inoltre i livelli, cioè i valori
che possono assumere.
– Scelta della variabile risposta: lo sperimentatore seleziona
la/le variabile/i risposta, in base all'obiettivo del processo. Le
12
1.1 La scelta delle variabili per la costruzione di un disegno ottimale
variabili risposta devono essere informative del processo oggetto
di studio. Per garantire una corretta informazione utile allo studio
del processo, dev'essere determinata la più appropriata misura
che permetta di osservare valori differenti con lo sviluppo del
processo.
I prime tre passi fin qui descritti sono definiti solitamente come
programmazione pre-sperimentale e devono essere eseguiti in modo
accurato.
– Scelta del disegno sperimentale: se la progettazione della
fase pre-sperimentale è stata eseguita correttamente la
determinazione del disegno sperimentale tratta in modo più
esaustivo quali e quante volte e a quali livelli devono essere
valutati i fattori, sempre tenendo ben presente l'obiettivo della
processo. Nel delineare il disegno sperimentale si deve tenere
conto che verranno analizzati i fattori più rilevanti, le loro
interazioni e la forza delle relazioni tra i singoli fattori con l'output.
In base ai fattori e ai livelli viene quindi definita la numerosità
sperimentale. Per definire correttamente il disegno sperimentale,
si dovranno seguire tre punti fondamentali: la randomizzazione
degli esperimenti, la loro replicazione e il raggruppamento degli
esperimenti che provengono da condizioni sperimentali simili.
– Esecuzione degli esperimenti: in questa fase viene
fisicamente realizzato l'esperimento; esso non deve essere
inficiato da errori nella procedura , che ne possa compromettere la
validità; è quindi molto importante che la fase sperimentale sia
soggetta a un monitoraggio continuo.
– Analisi statistica dei dati: l'analisi statistica dei risultati si
propone di trarre delle conoscenze sul processo studiato. Una
volta ottenuti i risultati sperimentali, è possibile quindi applicare
molteplici metodologie statistiche per il data mining, al fine di dare
13
1.1 La scelta delle variabili per la costruzione di un disegno ottimale
allo sperimentatore risposte ai dubbi sul processo produttivo.
Possono quindi essere raccolte molte informazioni grazie a
particolari metodi statistici quali lo studio della variabilità del
processo, una modellazione dei dati, che possa esprimere la
relazione che intercorre tra le variabili in input e le variabili in
output, la capacità di prevedere correttamente la risposta per casi
non ancora verificati nel disegno sperimentale, classificare
correttamente le variabili e le osservazioni, validare con dei test
d'ipotesi le affermazioni fatte sul sistema.
È importante ricordare che l'intero processo che delinea un disegno
degli esperimenti, si basa sulla formulazione di ipotesi riguardo il
sistema, sulla esecuzione di esperimenti, e sull'analisi dei risultati
ottenuti dal processo. Impostare la programmazione in modo
iterativo su questi tre punti, amplifica notevolmente il successo della
tecnica della programmazione degli esperimenti, in quanto significa
che ottenuti i primi risultati, essi vengono utilizzati per formulare
nuove ipotesi, da cui determinare nuovi punti sperimentali da testare
e così via fino al raggiungimento dell'obiettivo della sperimentazione.
Il letteratura vengono proposte numerose tipologie di disegno
sperimentale classico, che solitamente trattano problemi con un
numero di variabili non molto elevato. In questo elaborato abbiamo
affrontato il problema del disegno degli esperimenti in ambito bio-
chimico, che presenta molteplici questioni a cui un disegno
sperimentale classico non riesce a dare adeguate risposte.
In primo luogo, abbiamo affrontato il problema dell'alta
dimensionalità; con alta dimensionalità si intende un alto numero di
variabili entranti nel processo (per il processo biochimico preso in
esame sono 16 tipi di molecole). In secondo luogo, essendo il costo
per ogni singolo esperimento elevato, il set di dati a nostra
disposizione risulta essere non troppo numeroso. Lo studio quindi
14
1.1 La scelta delle variabili per la costruzione di un disegno ottimale
deve tenere sempre presente queste due problematiche: l'alta
dimensionalità e il basso numero di osservazioni. Inoltre
l'esperimento biochimico che consideriamo impone che ogni
esperimento sia una mistura, cioè che la somma delle componenti
utilizzate per ogni osservazione sia pari a uno, il che significa che le
variabili in input non sono più indipendenti.
Esistono tecniche di disegno sperimentale appositamente studiate
per problemi di tipo “misture”, che permettono di risolvere problemi
di ottimizzazione di un processo sotto questi vincoli.
Per affrontare il problema della definizione di un disegno degli
esperimenti ottimale con il problema di alta dimensionalità, le
tecniche statistiche maggiormente utilizzate si basano su modelli di
regressione polinomiale per dati con misture; in esperimenti
biochimici l'identificazione delle variabili più significative e la
valutazione delle interazioni tra le componenti risulta essere di vitale
interesse per il ricercatore.
Come detto in precedenza, è molto utile applicare la
programmazione degli esperimenti in modo iterativo, che parta da un
disegno iniziale sperimentale, spesso scelto casualmente, e utilizzi le
informazioni ottenute attraverso l'analisi dei risultati sperimentali per
definire nuovi disegni. Questo consente di indirizzare in modo più
efficiente lo studio, verso quello che è l'obiettivo sperimentale (fig
1.2)
15
Figura 1.2: Ciclo della programmazione degli esperimenti
DISEGNO ESPERIMENTO ANALISI
1.1 La scelta delle variabili per la costruzione di un disegno ottimale
Il contributo che si vuole proporre in questa tesi è l'applicazione di
differenti modelli statistici e in particolare l'utilizzo di una rete
Bayesiana con lo scopo di valutare le componenti più significative in
un problema sperimentale biochimico, e quindi determinare un
disegno statistico degli esperimenti ottimale. Una rete Bayesiana, è
un modello che permette l'individuazione di particolari legami tra le
variabili in input, così da dare informazioni utili sui fattori che
maggiormente influiscono sul sistema e soprattutto sulle interazioni
più rilevanti tra componenti (Pearl, 1988). La determinazione di
variabili tra loro connesse e influenti per il processo ci consente
quindi di indirizzare le analisi sperimentali verso regioni che
aumentano significativamente la variabile risposta.
Il vantaggio della rete Bayesiana per la costruzione del disegno
sperimentale è quella di permettere l'apprendimento delle relazioni
che intercorrono tra le variabili, con una rappresentazione di facile
lettura, evidenziando la natura delle relazioni dipendenze-
indipendenze all'interno dei dati.
La selezione di un modello in una rete Bayesiana viene effettuata
in due parti: apprendimento della struttura, cioè il processo di
specificazione del grafo DAG
1
, e determinazione delle probabilità
condizionate associate alle variabili del dominio (i parametri della
rete). In letteratura esistono molteplici algoritmi di apprendimento
per le reti Bayesiane.
La tesi si sviluppa in una prima parte teorica, Cap 1 – 2 - 3 e una
seconda parte applicativa, Cap 4 - 5.
Il primo capitolo, descrive il tema del disegno sperimentale e
presenta alcuni approcci presenti in letteratura per affrontare il
problema dell'alta dimensionalità.
1
Direct Acyclic Graph (grafo aciclico diretto)
16
1.1 La scelta delle variabili per la costruzione di un disegno ottimale
Il secondo capitolo, definisce formalmente il modello di Rete
Bayesiana, e mostra le tecniche esistenti di apprendimento della
struttura e dei parametri della rete.
Il terzo capitolo è dedicato all'approfondimento di modelli,
considerati classici, per l'analisi dei dati, e che risultano essere molto
utilizzati per problemi di disegno degli esperimenti. In particolare
verranno presentati modelli di regressione lineare polinomiali e reti
neurali per l'individuazione di variabili significative.
I Capitoli 4 e 5 descrivono il processo biochimico, oggetto di studio,
per il quale definiamo un disegno sperimentale ottimale. Per
raggiungere il nostro obiettivo verranno studiati differenti approcci
alla selezione delle variabili e alle possibili interazioni significative tra
variabili e in ultima analisi alla soluzione di un problema di
ottimizzazione.
1.2 Presentazione del problema
L'elevato costo sperimentale e l'alta dimensionalità del problema,
non permettono la generazione di molti esperimenti in laboratorio.
Affrontare queste problematiche sperimentali, richiede l'applicazione
di particolari metodologie statistiche per selezionare le variabili
rilevanti per il problema. In questa tesi, abbiamo approfondito
tecniche di disegno degli esperimenti per un processo biochimico,
attraverso l'analisi di molteplici metodologie statistiche.
L'analisi statistica delle relazioni che intercorrono tra ogni fattore,
le possibili interazioni di fattori e la variabile risposta osservata
permette allo sperimentatore di ridurre i costi e di cercare un ottimo
in uno sottospazio più ristretto dello spazio sperimentale. Il processo
17
1.2 Presentazione del problema
biochimico che analizzeremo in particolare, è quello della creazione di
vescicole da misture di aggregati anfifilici. Le molecole anfifiliche sono
composte da una parte (coda) idrofoba e da una parte (testa)
idrofila. La caratteristica di questo molecole è che in soluzioni
acquose tendono ad auto-organizzarsi e auto-assemblarsi e formare
delle strutture complesse. In particolare nel esperimento oggetto di
studio gli sperimentatori cercano di ottenere una superficie chiusa,
formata da un doppio strato di anfifili, che prende il nome di vescicola
(fig 1.3).
In questo tipo di esperimento non esistono informazioni precise
riguardanti quale sia il reale comportamento del fenomeno sotto
osservazione.
È noto però che alcune molecole anfifiliche, sotto particolari
condizioni sperimentali, si combinano in strutture complesse.
L'obiettivo quindi è quello di trovare una combinazione di anfifili, che
portino alla creazione di vescicole di grandi dimensioni.
18
Figura 1.3: Struttura della vescicola
1.2 Presentazione del problema
Il problema viene studiato attraverso la modellazione dei dati
sperimentali, con particolare attenzione all'applicazione della rete
Bayesiana sui dati sperimentali chimici, al fine di ottenere
informazioni sulle relazioni condizionali tra le variabili. In questo
modo si dovrà affrontare il problema della costruzione di una rete
Bayesiana di cui non si hanno informazioni sulla struttura del grafo e
sui parametri della rete. La scelta fatta in questo elaborato,
rappresenta una strategia importante ma ancora poco presente in
letteratura, e viene messa a confronto con altre tecniche quali la
modellazione regressiva lineare e la modellazione non lineare per
esperimenti biochimici.
1.3 Alcuni approcci metodologici per la scelta delle
variabili significative
In problemi di alta dimensionalità, la selezione delle variabili gioca
un ruolo fondamentale per il disegno sperimentale. Un disegno
sperimentale costruito su un numero elevato di variabili comporta
uno spazio sperimentale molto complesso. Tra le variabili candidate
del disegno, esistono però alcune di esse che risultano parzialmente o
totalmente irrilevanti per il raggiungimento del obiettivo
sperimentale. L'individuazione di queste variabili, permette di ridurre
la dimensionalità del dominio sperimentale; l'eliminazione di
ridondanze o di variabili non significative, ha come conseguenza la
riduzione del rumore, e inoltre permette di diminuire drasticamente il
tempo computazionale delle analisi dei dati, con un conseguente
miglioramento di efficienza e di efficacia delle tecniche statistiche
utilizzate per l'analisi dei dati (Rubinov et al., 2006).
19