INTRODUZIONE
1
I IN NT TR RO OD DU UZ ZI IO ON NE E
Le ricerche svolte negli ultimi anni nel campo della biologia molecolare e della
genetica hanno reso possibile lo sviluppo e la commercializzazione di molteplici tecnologie
per l’analisi delle molecole costituenti gli organismi viventi. In particolare, la messa a punto
delle tecniche di amplificazione e sequenziamento del DNA ha aperto la strada ai progetti di
mappatura del genoma, culminati nel 2003 con il sequenziamento completo del DNA umano
nell’ambito dell’ambizioso Progetto Genoma Umano (Collins et al., 2003).
Il risultato di questo progetto è stato la creazione di enormi banche dati che
contengono le sequenze di tutti i geni e le informazioni ad esse correlate di molti organismi
viventi e che possono essere utilizzate come vere e proprie mappe utili per lo studio e la
comprensione dei processi cellulari. Questa immensa quantità di informazioni rappresenta la
nuova, avvincente sfida dell’attuale era post-genomica. Infatti, il sequenziamento del genoma
umano segna il passaggio dall’era pre-genomica, caratterizzata prevalentemente da studi di
genomica strutturale (sequenziamento del genoma e mappaggio fisico dei geni) all’era post-
genomica, i cui sforzi principali si stanno focalizzando sempre più sull’individuazione della
funzione che singoli geni o gruppi di geni svolgono nello sviluppo e nella vita degli organismi
in generale e dell’uomo in particolare (genomica funzionale).
La complessità e il volume di dati generati dai diversi progetti di sequenziamento
hanno posto tuttavia serie limitazioni al tradizionale approccio di analisi, che prevedeva lo
studio di un gene alla volta e ha richiesto lo sviluppo di metodiche di analisi simultanea di
tutti (o quasi) i componenti di un sistema biologico. I microarray rappresentano un metodo
per esaminare contemporaneamente e in maniera sistematica decine di migliaia di geni e in
alcuni casi l’intero genoma di un organismo e promettono di diventare uno strumento di uso
comune nella ricerca biologica e medica.
I microarray per la valutazione dell’espressione genica permettono infatti di osservare
come variano i profili di espressione di popolazioni di cellule o di tessuti biologici in diversi
INTRODUZIONE
2
stadi di sviluppo, di malattia o di trattamento e di correlare tali osservazioni con i processi
biologici esaminati.
I microarray per studi di genotipizzazione consentono, invece, di determinare, in
campioni di DNA provenienti da diversi soggetti, il profilo genetico relativo a un numero
elevato di polimorfismi o addirittura, nel caso degli studi Genome Wide, a tutti i polimorfismi
noti. Diventano quindi ottimi strumenti da utilizzare negli studi di associazione “casi-
controlli” in cui si va a confrontare la variazione della frequenza di polimorfismi genetici in
due popolazioni a confronto, una con e l’altra senza un particolare fenotipo di interesse, al
fine di correlare tali variazioni al fenotipo stesso (ad es. una malattia o la diversa risposta ad
un trattamento farmacologico).
I microarray, dunque, rappresentano la risposta ideale non solo alla crescente richiesta
di saggi capaci di interrogare migliaia di geni in parallelo, ma soprattutto alla necessità di
comprendere le reti di interazioni molecolari su scala globale.
Si intravede facilmente l’immenso potenziale che questa tecnologia offre per
rispondere a quesiti sia di tipo diagnostico/prognostico, relativi ad esempio alla
classificazione dei tessuti o delle malattie su base genetica, che di indagine funzionale, ad
esempio per lo studio delle caratteristiche funzionali, strutturali o di regolazione di geni
sconosciuti o solo parzialmente noti.
Tuttavia, per sfruttare l’enorme quantità di dati generata da queste tecnologie è
fondamentale disporre di metodi di analisi efficaci. Questa necessità ha favorito la nascita di
una nuova branca di ricerca, la bioinformatica, che oggi sta assumendo le caratteristiche di
una vera e propria disciplina dopo quasi venti anni dai suoi albori negli anni ’80.
0
100
200
300
400
500
600
700
800
900
2005 2004 2003 2002 2001 2000
Year
Articles
Bioinformatics BMC Bioinformatics
Journal of Com putational Biology Com putational Biology and Chem istry
Briefings in Bioinform atics IEEE Trans . Comp. Biol. A nd Bioinformatics
Applied Bioinform atics PLoS Com putational Biology
Int.J.of Bioinf. Res.& Appl. (IJBRA)
Fig. 1: Aumento negli ultimi sei anni del numero di articoli nelle principali riviste di
bioinformatica
INTRODUZIONE
3
La bioinformatica si occupa dello sviluppo di strumenti informatici idonei alla gestione
dei dati biologici (banche dati) e studia metodi e algoritmi per il trattamento e l’estrazione
dell’informazione dagli stessi (programmi di analisi).
Con l’avvento della tecnologia dei microarray, la genomica si avvia a diventare uno
dei più importanti settori di applicazione della bioinformatica. Come vedremo meglio in
seguito, illustrando le fasi di un esperimento microarray, conoscenze di bioinformatica
entrano in gioco a tutti i livelli: dalla fase di progettazione, a quella di acquisizione e analisi
dell’immagine, dal processo di estrazione dei dati alla loro analisi statistica ed interpretazione.
Fig. 2: Fasi di un esperimento microarray
Scopo della tesi
Scopo della presente tesi è stato lo sviluppo di un algoritmo, in linguaggio R, per il
calcolo della numerosità campionaria in un esperimento di class comparison per uno studio di
espressione genica.
La tesi si articola in sei capitoli.
Il primo capitolo fornisce un’introduzione alla tecnologia dei microarray, illustrando
brevemente le differenti piattaforme tecnologiche disponibili per la caratterizzazione dei
profili di espressione genica (microarray a cDNA, microarray ad oligonucleotidi). Infatti,
sebbene i microarray possano essere utilizzati anche per scopi diversi come la
INTRODUZIONE
4
genotipizzazione, l’applicazione negli studi di espressione genica rimane quella attualmente
più diffusa.
Nel secondo capitolo vengono discussi alcuni importanti aspetti riguardanti la
progettazione degli esperimenti che utilizzano i microarray, in relazione a quelli che sono gli
obiettivi dello studio che si vuole realizzare.
Il terzo e il quarto capitolo presentano le problematiche di natura statistica coinvolte
nell’analisi dei dati generati dai microarray, con particolare riferimento agli esperimenti di
“class comparison” in cui i microarray sono utilizzati per identificare quali geni risultano
differenzialmente espressi in differenti condizioni sperimentali.
Nel quinto capitolo viene esaminato uno dei problemi principali che si deve affrontare
nella fase di progettazione di un esperimento microarray, vale a dire la scelta del numero di
campioni o del numero di array necessari per poter osservare determinati risultati e i parametri
statistici da cui essa dipende. Tale scelta è subordinata a quello che è riconosciuto come
fattore limitante nell’esperimento; in particolare se il vincolo è rappresentato dal budget a
disposizione, ciò che viene fissato è il numero massimo di array che si possono acquistare e
da esso deriva il numero di campioni da collezionare. Viceversa, se il fattore limitante è dato
dalla quantità di materiale biologico disponibile, si cerca di stabilire il numero di campioni
minimo per conferire solidità statistica all’esperimento e da questo si ricava il numero di array
da utilizzare.
Nel sesto capitolo, dopo una breve descrizione delle funzioni che R (www.r-
project.org) e Bioconductor (www.bioconductor.org) mettono attualmente a disposizione
degli utenti per il calcolo della numerosità campionaria, viene presentata la funzione
appositamente ideata durante lo sviluppo di questa tesi. A differenza delle funzioni integrate
nei vari pacchetti presenti sul mercato, che propongono una ristretta e rigida casistica di
disegni sperimentali e un’interfaccia non facilmente gestibile da chi non ha sufficiente
familiarità con il linguaggio di programmazione utilizzato, questa funzione è stata sviluppata
nell’ottica di fornire uno strumento statisticamente robusto e fruibile anche da parte dei non
“addetti ai lavori”.
Infine, il settimo capitolo contiene le conclusioni e i possibili sviluppi futuri nella
direzione di un miglioramento della funzione proposta per il calcolo della numerosità
campionaria. Le eventuali modifiche cui si può pensare dovrebbero puntare in particolare ad
una generalizzazione della funzione per renderla applicabile anche agli studi di “class
comparison” con più di 4 classi o varietà a confronto e ad una quantificazione separata delle
sorgenti di variabilità che indirettamente influiscono sul calcolo dell’ampiezza campionaria.
I MICROARRAY: TECNOLOGIA E APPLICAZIONI
5
1 1 I I M MI IC CR RO OA AR RR RA AY Y: : T TE EC CN NO OL LO OG GI IA A E E
A AP PP PL LI IC CA AZ ZI IO ON NI I
1.1 GENERALITA’
I microarray a DNA rappresentano la più recente di una serie di tecniche che sfruttano
le caratteristiche peculiari della doppia elica del DNA, ovvero la complementarità dei due
filamenti e la specificità dell’accoppiamento delle basi.
Nel 1975 E. Southern dimostrò che le molecole di acido nucleico marcate
selettivamente potevano essere utilizzate per analizzare altre molecole di acido nucleico
ancorate a supporti solidi come gel o filtri porosi (Southern, E. M., 1975). Il Southern blot
rappresentò di fatto il primo array di materiale genico ed aprì la strada alla possibilità di
analizzare i profili di espressione di un intero genoma attraverso l’accoppiamento
(ibridizzazione) tra molecole di RNA messaggero (mRNA) e librerie di cDNA ancorate a
supporti solidi. L’applicazione su larga scala di questa tecnologia si è però avuta più
recentemente grazie all’utilizzo di supporti solidi non porosi, come il vetro, e alla messa a
punto di tecniche fotolitografiche per la sintesi di oligonucleotidi ad alta densità spaziale.
Negli anni ’80, R. P. Ekins e collaboratori del Dipartimento di Endocrinologia
Molecolare dell’University College di Londra, furono i primi ad utilizzare le tecniche di
microspotting per fabbricare array per saggi immunologici ad elevata sensibilità (Ekins, R. P.,
1987). Negli Stati Uniti, un contributo notevole è stato dato da P.A. Fodor e colleghi presso
Affymetrix, Inc. (Santa Clara, California) (Fodor, S.P.A.; 1991), e da diversi gruppi di
ricercatori dell’Università di Stanford, in particolare dall’équipe di P. Brown, del
Dipartimento di Biochimica e Biofisica (Brown P.O. and Botstein D.; 1999). I protocolli
sviluppati dal gruppo di Brown permettevano di depositare automaticamente su vetrini da
microscopio ottico circa 10.000 filamenti di cDNA, di ibridizzarli a campioni di mRNA
retrotrascritti in cDNA e marcati selettivamente con molecole fluorescenti e di seguire quindi
le variazioni nei profili di espressione di colture cellulari in condizioni sperimentali diverse.
I MICROARRAY: TECNOLOGIA E APPLICAZIONI
6
Parallelamente, sfruttando le tecniche di mascheramento fotolitografico, normalmente
utilizzate nell’industria dei semiconduttori, Fodor e i suoi collaboratori realizzarono il primo
DNA microarray wafer-chip, noto come GeneChip ®, caratterizzato da oltre 400.000 sonde
oligonucleotidiche su una superficie di un pollice quadrato.
Dagli anni ‘90 ad oggi, un numero sempre maggiore di enti commerciali e gruppi
accademici ha contribuito all’avanzamento nella tecnologia dei microarray.
1.2 LA TECNOLOGIA DEI MICROARRAY A DNA
Nella sua forma più generale un microarray è costituito da un substrato solido (vetro,
plastica o silicio) sul quale possono essere immobilizzate centinaia o migliaia di molecole di
varia natura in posizioni prefissate e denominate spot. Queste molecole possono essere acidi
nucleici (DNA o RNA) o proteine (tipicamente antigeni o anticorpi), capaci di riconoscere e
legarsi con molecole ad esse complementari. Essi permettono di eseguire, pertanto, reazioni di
ibridizzazione, nel primo caso, o interazioni immunologiche, nel caso dei protein-microarray.
Per comprendere il principio di funzionamento dei microarray a DNA e la tipologia di
informazioni che il loro utilizzo rende disponibili, in particolare negli studi di espressione
genica, è indispensabile fare una breve premessa di carattere biologico.
1.2.1 Principi di biologia molecolare alla base dei microarray a DNA
Tutte le cellule di un organismo, dal più semplice al più complesso, contengono una
copia identica dell’intero genoma sotto forma di molecole di DNA. Cellule dello stesso
organismo, tuttavia, possono differire le une dalle altre sia dal punto di vista morfologico che
funzionale. Queste differenze sono determinate da una diversa espressione dei geni. Il modo
più corretto per sapere quali geni sono espressi da una cellula è identificare le proteine
presenti al suo interno. Nella pratica però, data l’elevata instabilità delle proteine e la
necessità di utilizzare metodi di identificazione immunologici molto costosi, questo approccio
risulta di difficile attuazione. Più semplice è lo studio delle molecole di RNA messaggero
(mRNA) che funzionano da stampo per la sintesi delle proteine (fig.1.1), vale a dire lo studio
del trascrittoma delle cellule. La corrispondenza tra molecole di mRNA e proteine, in realtà,
non è perfetta, perché non tutti i trascritti vengono necessariamente tradotti, alcuni sono
eliminati prima di funzionare da stampo per la sintesi proteica. Il trascrittoma, tuttavia, può
essere considerato sufficientemente rappresentativo del proteoma di una cellula, e quindi dei
geni espressi da quella cellula, dal momento che, nella maggior parte dei casi, la decisione se
esprimere o no un dato gene viene attuata prima del processo di trascrizione.
L’analisi del trascrittoma consente quindi di identificare i geni che una cellula sta
esprimendo in un dato momento in modo da poter correlare tale informazione con il fenotipo,
morfologico o funzionale, della cellula stessa.
I MICROARRAY: TECNOLOGIA E APPLICAZIONI
7
Fig 1.1: Direzione del flusso delle informazioni genetiche
In quest’ottica i microarray a DNA hanno rivoluzionato il modo in cui si studia oggi
l’espressione genica, permettendo di analizzare con un solo esperimento tutti gli RNA
trascritti da un campione biologico di interesse, ad esempio un clone di cellule o un
frammento di tessuto.
I MICROARRAY: TECNOLOGIA E APPLICAZIONI
8
Fig. 1.2: Meccanismo di ibridizzazione degli acidi nucleici
1.2.2 Descrizione di un esperimento microarray
Fisicamente i microarray a DNA sono costituiti da un supporto in vetro o silicio, su cui
sono ancorate decine di migliaia di sequenze nucleotidiche, chiamate sonde, rappresentative
nel loro insieme di tutte le sequenze espresse dal genoma di un dato organismo.
Il principio su cui si basano i microarray a DNA è dato dalla specificità con cui
ibridizzano due sequenze nucleotidiche complementari. Una sequenza, la cui estremità è
fissata al supporto, funge da sonda per l'identificazione dell'altra (il target) che corrisponde ad
uno specifico mRNA.
Nell’analisi dei profili di espressione genica, tipicamente vengono confrontati due
campioni (es: controllo/trattato, cellule sane/malate, cellule di un tipo/cellule di un altro
tipo,…).
Sperimentalmente la procedura prevede l’estrazione dell’RNA dalle cellule di interesse,
che deve essere il più possibile di ottima qualità, ossia puro e integro.
La verifica della purezza viene effettuata mediante lettura spettrofotometrica a 260 nm
(lunghezza d’onda alla quale assorbono gli acidi nucleici), a 280 nm (lunghezza d’onda alla
quale assorbono le proteine) e a 230 nm (lunghezza d’onda alla quale assorbono le sostanze
I MICROARRAY: TECNOLOGIA E APPLICAZIONI
9
organiche). Rapporti di assorbimento 260/280 e 260/230 maggiori di 2 sono indice di un RNA
sufficientemente purificato da proteine e da sostanze organiche contaminanti.
Per quanto riguarda l’integrità dell’RNA essa può essere verificata o mediante corsa
elettroforetica su gel di agarosio (metodica classica) oppure facendo ricorso a strumenti più
sofisticati come il Bioanalyzer, che, grazie ad un sistema di corsa elettroforetica capillare e ad
un software di analisi, attribuisce a ciascun campione un valore numerico, il cosiddetto RIN
(RNA Integrity Number), indicativo dell’integrità dell’RNA.
A partire dall’RNA totale estratto dai campioni in esame, solo le molecole di RNA
messaggero vengono retrotrascritte in cDNA (DNA complementare), grazie all’impiego di
primer di innesco per la trascrittasi inversa poli-T, complementari alle code di poli-A degli
mRNA. Le sequenze di cDNA ottenute vengono successivamente marcate con molecole
fluorescenti. La soluzione contenente le sequenze marcate viene poi depositata sul vetrino, in
modo da consentire l’ibridizzazione fra sonde e molecole “target”.
In relazione al tipo di marcatura e di ibridizzazione è possibile distinguere due
protocolli sperimentali indicati in letteratura come “one-color” e “two-color”.
La procedura “one-color” prevede l’ibridizzazione di un singolo campione su ogni
array (ibridizzazione assoluta) e l’utilizzo di un solo tipo di fluorocromo.
Al termine dell’ibridizzazione l’array, opportunamente lavato per eliminare le
sequenze legate in maniera non specifica, viene quindi esposto a una sorgente di luce laser di
lunghezza d’onda tale da fornire energia e indurre la fluorescenza delle molecole di marcatore.
Le intensità di segnale emesse dai vari spot vengono acquisite dalla matrice a CCD di uno
scanner e tradotte in immagine. L’intensità di uno spot è proporzionale al numero di molecole
di fluorocromo presenti su di esso e quindi al numero di molecole di acido nucleico che si
sono ibridizzate con la sonda ancorata al supporto. In questo caso, il dato di intensità fornisce
una misura assoluta della quantità di mRNA presente nel campione, cioè del livello di
espressione del gene corrispondente.
Quanto detto implica che negli esperimenti “one-color” sono necessari due vetrini per
poter confrontare i livelli di espressione dei geni nelle due condizioni di interesse. Questo
confronto può essere soggetto ad errore a causa di differenze nella forma degli spot
corrispondenti sui due array.
Il protocollo “two-color” si basa, invece, sull’utilizzo di due campioni di mRNA
diversi marcati con due fluorocromi differenti (tipicamente il rosso e il verde) e ibridizzati
sullo stesso array. Questo tipo di ibridizzazione è detta competitiva poiché i due target
competono per il legame con le sonde. Dopo l’ibridizzazione si procede alla scansione del
vetrino utilizzando uno scanner a doppio canale in grado di eccitare distintamente i due
fluorocromi ed acquisire separatamente i segnali da essi emessi. Si producono in questo modo
due immagini sovrapponibili costituite da una matrice di spot fluorescenti, ognuno
corrispondente ad un gene diverso, le cui intensità sono proporzionali al numero di molecole
target ibridizzatesi con le sonde sul vetrino. Il rapporto fra le intensità di fluorescenza del
rosso e del verde, denominato “fold-change”, è una misura della concentrazione relativa di
I MICROARRAY: TECNOLOGIA E APPLICAZIONI
10
ogni mRNA nei due campioni a confronto. Spot tendenti al giallo indicano una uguale
espressione dei geni corrispondenti nei due campioni; spot tendenti al verde o al rosso
indicano una aumentata espressione in un campione rispetto all’altro.
Rispetto alla procedura “one-color”, il protocollo “two-color” consente di eliminare gli
errori dovuti alla forma diversa degli spot su array distinti dal momento che entrambi i
campioni sono ibridizzati sugli stessi spot.
Fig. 1.3: Schema di un esperimento “two-color”
1.2.3 Tipologie di microarray
1.2.3.1 “Spotted” Array
Nei microarray di questo tipo le sonde sono costituite da molecole di cDNA di
lunghezza compresa tra le 200 e le 400 paia di basi, amplificate mediante PCR (Polymerase
Chain Reaction) e successivamente depositate sul vetrino.
Le sonde vengono scelte direttamente da banche dati genomiche (GenBank, dbEST,
UniGene), benché sia possibile usare anche librerie proprietarie costituite da cDNA non
ancora completamente sequenziato.
Le sonde sono fissate al vetrino per deposizione meccanica mediante un braccio
robotico che preleva le sonde a doppio filamento direttamente da piastre da 96 o da 384
pozzetti, utilizzate per la PCR, attraverso un sistema di pennini, e ne deposita quantità
microscopiche (dell’ordine di 100-500 μg/mL) sulla superficie del vetrino. In questo modo si