INTRODUZIONE
I microarray sono uno strumento importantissimo delle così dette nanotecnologie. Introdotto
nel 1996, sono tutt’ora diventati uno strumento affidale e preciso per lo studio
dell’espressione genica.
L’ultimo decennio ha visto l’implementazione e la diffusione di numerosi package per
l’analisi di questa tipologia di dati. Di massima, i package, possono essere classificati in tre
grandi categorie.
La prima categoria è orientata all’operatore medico e permette di effettuare operazioni di
definizione e regolarizzazione dell’immagine grafica fino ad estrarre da essa i dati
campionati.
La seconda categoria comprende metodi per affinare i dati numerici normalizzandoli rispetto
ai valori fuori range o definendo un intervallo di tolleranza al di fuori del quale il dato è
considerato non valido.
La terza categoria, prevalentemente rivolta agli operatori informatici, supporta la definizione
di algoritmi per effettuare operazioni di ranking e di classificazione, cioè per definire quali
geni sono veramente rilevanti rispetto ad una data patologia.
Spesso tali packages sono di tipo generale e necessitano di essere personalizzati con
procedure “ad hoc” che consentono all’operatore che utilizza il package di effettuare
agevolmente alcune operazioni ricorrenti.
Questa tesi si propone di presentare due procedure: una che supporta il processo ricorrente di
selezione ed abbinamento non manuale di un insieme di geni già pesati da un processo di
ranking; la seconda che permette di valutare e confrontare i geni ritenuti rilevanti da diversi
algoritmi di feature selection (questi risultati verranno successivamente usati dai biologi).
Per inquadrare meglio l’argomento verrà inizialmente presentata una descrizione dello
sviluppo della stessa tecnologia dei microarray.
Verranno quindi analizzate le singole fasi che portano alla nascita dei data set provenienti
dalla lettura dei microarray: si partirà dalla nascita dei microarray vero e proprio per poi
continuare con la presentazione dei vari metodi di normalizzazione, di feature selection e dei
metodi di classificazione.
Nella seconda parte della tesi verrà presentata e descritta un’applicazione scritta in Java, che
ha principalmente due diversi scopi:
1. Acquisire un numero notevole di dati provenienti da una procedura di ranking e di
mettere a disposizione all’utente un ambiente informatico con un interfaccia user-
friendly per la combinazione di gruppi di geni ritenuti più significativi ai fini
diagnostici.
2. Confrontare i dati ottenuti attraverso l’uso di diversi metodi di classificazione.
5
1
MICROARRAY
Nel 1975 Edwin Southern riuscì a dimostrare che era possibile fissare su un supporto solido
del DNA. Successivamente, nel 1991 per opera di Fodor, nacquero i primi microarray che
fissavano su una superficie di vetro degli oligonucleotidi.
Gli studi sull’espressione genica cercano di determinare la quantità di RNA messaggero
trascritto nel sistema biologico di riferimento. L’uso di questa tecnologia riveste grande
importanza nello studio di malattie caratterizzate da particolari alterazioni geniche dalle quali
possono dipendere sia l’avanzamento della malattia, sia l’efficacia dei farmaci. Confrontando
l’espressione genica di migliaia di geni di individui affetti da patologie diverse è possibile
individuare geni differenzialmente espressi, e quindi potenzialmente responsabili delle
diversità nei gruppi.
I microarray (conosciuti anche come gene chip) sono un piccolo supporto solido, costituito
generalmente da vetro, per l’analisi nei quali sono fissati su linee parallele e in posizioni
prestabilite decine, centinaia o addirittura migliaia di puntini (detti anche spots), costituiti da
microscopiche sonde di DNA.
In generale possiamo vedere il microarray come un piccolissimo sistema che permette, grazie
all’utilizzo di diversi supporti solidi, di determinare in maniera parallela o addirittura nel
medesimo istante, migliaia di eventi biologici letti da uno scanner e visualizzati attraverso il
monitor di un personal computer, che tra l’altro da la possibilità di avere i risultati in maniera
numerica, agevolando, di fatto, l’analisi degli stessi.
Nell’analisi dei microarray riveste grande rilevanza il fatto che siano dei sistemi ordinati.
Infatti, ogni spot, detto anche probe o chip, è disposto in maniera ordinata e precisa
all’interno del microarray, lungo linee orizzontali o verticali: questa caratteristica offre
innumerevoli vantaggi;due tra i più importanti sono sicuramente quelli legati ai costi di
produzione e alla velocità di lettura.
Ogni elemento, quindi, deve essere disposto in maniera uniforme e equispaziato l’uno
dall’altro.
I probes possono essere costituiti da “prodotti” diversi: possono essere interi geni, porzioni di
geni, come DNA, cDNA, mRNA, anticorpi, proteine, o addirittura porzioni di tessuti
cellulari.
6
Ogni spot è costituito da due molecole diverse: la molecola sonda e la molecola target. La
prima è parte costituente e caratterizzante della specificità del microarray; essa può essere
costituita da acidi nucleici come RNA o DNA, oligonucleotidi, proteine, in grado di
riconoscere e legare la seconda molecola che rappresenta l’elemento biologico da ricercare
nel campione in esame.
La pratica di usare acidi nucleici come sonda è sicuramente quella più diffusa; i primi
esperimenti furono condotti attraverso l’utilizzo sì spots noti come cDNA microarrays.
Oltre ai cDNA sono comunemente usati anche gli oligonucleotidi, che non sono altro che
corte catene singole di DNA o RNA, le proteine, e addirittura intere cellule.
I target sono i campioni da fare interagire. In tutti i casi, sia per gli acidi nucleici che per le
proteine, è necessario preparare i campioni per poi legarli ad una molecola rivelatrice che
nella stragrande parte dei casi è un colore fluorescente. A seguito della formazione del
legame tra sonda e target si genera un segnale luminoso, il cui colore e intensità sono letti
da uno scanner, e successivamente elaborati da un software e quindi interpretati
dall’operatore.
Come abbiamo avuto modo di affermare poco fa, per poter vedere il formarsi di un legame
tra probe e target sono usati dei colori fluorescenti: la fluorescenza, infatti, è il tipo di segnale
luminoso utilizzato per dare la possibilità ai dati del microarray di poter essere visualizzati e
letti. Esso presenta innumerevoli vantaggi, quali la facilità d’uso, può essere di svariati
colori, è compatibile con gli enzimi ed offre una risposta in tempi brevissimi. Con i moderni
strumenti si riesce a distinguere tra segnali deboli molto ravvicinati tra loro e segnali più
intensi: questo rende possibile aumentare la densità dei probes o spot.
I microarray a DNA, detti anche DNA chip, sono uno strumento molto importante per lo
studio dell’espressione genica su vasta scala.
Con il termine espressione genica si intende il processo attraverso il quale l’informazione
contenuta in un gene (costituita da DNA) è trasformata in una macromolecola funzionale, che
tipicamente prende la forma di una proteina, o di un altro tipo di acido nucleico noto come
RNA.
Per le cellule la regolazione dell’espressione genica riveste un ruolo fondamentale, in quanto
le permette di controllare le proprie funzioni interne ed esterne.
Nei microarray a DNA, in ogni locazione, è depositato un gene che è composto da diverse
coppie di un filamento di DNA. Questi filamenti sono utilizzati come sonde per misurare la
quantità di altre molecole di DNA derivate dai trascritti di mRNA e contenute in una
soluzione che è depositata sulla superficie del microarray.
In biologia la trascrizione è il processo mediante il quale le informazioni contenute
all’interno del DNA sono trascritte in una molecola di RNA. Con il termine mRNA si intende
un tipo di RNA che codifica e porta l’informazione durante la trascrizione, cioè permette di
fare una ”copia” del contenuto informativo presente nel DNA nell’RNA.
1.1 NASCITA DEI MICROARRAY
Per poter capire a fondo la tecnologia e le tecniche che stanno alla base della creazione dei
microarray è utili fare un passo indietro, più precisamente nel 2002, quando venne dichiarato
che il genoma umano era stato (quasi) completamente letto.
Il problema a questo punto era riuscire a capire in che modo quella mole di dati che ora era
possibile leggere, doveva essere interpretata.
7
Alla fine del 2002 si era quindi giunti a riconoscere la sequenza completa di qualche gene;
leggendo tale sequenza si poteva quindi arrivare a trovare i caratteri comuni a tutti o a molti
geni. Proprio per questo motivo furono creati dei software in grado di leggere l’intero DNA
alla ricerca di nuovi geni, sulla base dei caratteri comuni che era stato possibile studiare sino
ad allora.
Gli studi sino a qui avevano solamente portato alla scoperta di qualche gene; un gene per
poter essere utile alla cellula deve essere “copiato” in RNA, il quale sarà in seguito tradotto
in proteine. Riuscire a misurare la quantità di RNA, significava quindi riuscire a capire quale
era la funzione del gene stesso. Un meccanismo simile esisteva già, ma permetteva lo studio
di un solo gene alla volta: l’idea era quindi quella di poter studiare l’espressione di ciascun
gene conosciuto in un solo esperimento.
Il DNA ha come caratteristica primaria quella di essere composte da una doppia elica, che se
separate si accoppiano nuovamente spontaneamente formando sempre le coppie A-T e G-C;
tale associazione avverrà solamente se le due sequenze sono perfettamente complementari.
Una certa sequenza di DNA può essere dunque utilizzata come “sonda” per trovare altre
sequenze a lei complementare.
L’idea era quindi quella di sintetizzare migliaia di copie di un frammento di un gene insieme
con altrettante copie sintetizzate di un gene diverso, ovviamente utilizzando uno spazio
ridottissimo. Le sonde furono organizzate in delle griglie, dove ogni celletta conteneva una
diversa sonda, permettendo quindi di poter leggere, in un solo esperimento,
l’espressione genica di tutte le cellule studiate.
A questo punto era quindi possibile dopo la creazione del vetrino, estrarre l’RNA dalle
cellule studiate, trascrivere l’RNA in DNA e marcarlo con un prodotto fluorescente. Con le
giuste condizioni ogni RNA si assocerà alla propria sonda, dando come risposta un
determinato valore di fluorescenza, che risulterà proporzionale al numero di RNA che si sono
associati alle sonde. Confrontando i dati ottenuti con altri esperimenti effettuati è possibile
stabilire i geni specifici di ogni tessuto.
Oggi giorno i microarray non trovano applicazione solamente nello studio dell’espressione
genica, ma anche per analizzare la risposta a diversi tipi di stress o la malignità di un
determinato tumore.
Un secondo ambito dove la tecnologia dei microarray trova spazio deriva proprio dalla
peculiarità della stessa strategia. Infatti, come è già stato detto, la sonda è capace di associarsi
alla sequenza complementare solo nell’ipotesi che la complementarietà sia totale. Si è
verificato l’esistenza di numerose differenze genetiche tra due diversi individui, fattore che
dovrebbe portare a una quasi totale assenza di fluorescenza. Questi tipi di cambiamenti si
verificano soltanto in una lettera (un nucleotide) che è chiamata SNP (Sigle Nucleotide
Polymorphsm): l’idea fu quella di fabbricare per ogni posizione del DNA quattro sonde
identiche, tranne che per la posizione in studio che prenderanno rispettivamente le quattro
lettere del DNA.
Ovviamente con questo meccanismo ci si aspetta che solamente una (o al massimo due)
sonda dia il colore fluorescente; grazie a questa tecnica quindi è possibile risequenziare
l’intero DNA di un individuo semplicemente andando a verificare quale sonda da il migliore
segnale.
8