8
massiccio uso dell’intervento umano nel setting di numerosi parametri, come per
esempio l’impostazione del valore di soglia della fluorescenza. Ci comporta una
maggiore soggettivit e un maggiore consumo di temp o per l’analisi dei dati. Nella
letteratura scientifica, poi, si osserva anche una quasi totale mancanza di proposte
di metodi che oltre ad analizzare i livelli di espressione genica, diano una
valutazione dell’analisi stessa. Si rende, dunque, necessario proporre un metodo di
analisi che automatizzi il processo di analisi senza necessitare dell’intervento
umano e che valuti la correttezza dell’analisi stessa. In questa tesi si cerca proprio
di raggiungere tale obiettivo in modo consistente e robusto. Inoltre, una volta
terminata l analisi di piø esperimenti, si potrebbe rendere manifesta l esigenza di
effettuare un clustering, cioŁ un raggruppamento in base a determinati parametri,
di tali esperimenti, per determinarne la natura. Ci si rende necessario soprattutto
nell analisi di tipo unsupervised. In tale tipo di analisi la natura di alcuni o tutti i
campioni su cui si effettua il clustering non Ł nota e grazie al clustering, dunque, si
cerca di desumerne la natura. Anche tale tematica verr sviluppata all interno di
questa tesi e si utilizzeranno strumenti grafici per una migliore comprensione dei
risultati ottenuti.
Nel Capitolo 1 di questa tesi sono stati fatti alcuni richiami e introdotte alcune
definizioni in merito a DNA, RNA, microRNA e clustering per rendere il piø
accessibile possibile il metodo proposto anche dal punto di vista teorico. Si Ł,
inoltre, presentata la strumentazione necessaria allo svolgimento della real-time
PCR.
Nel Capitolo 2, Ł presentato lo stato dell’arte attuale per quanto riguarda i metodi
per l’analisi e per la quantificazione dei livelli di espressione genica mediante real-
time PCR. Viene inoltre illustrato lo stato dell arte riguardante la definizione del
concetto di distanza e lo sviluppo di metodi di clustering.
Nel Capitolo 3, Ł introdotto il metodo proposto da questa tesi, con esplicazione dei
principi matematici e biologici utilizzati per lo sviluppo del metodo stesso. Inoltre
sono presentati i dati su cui si Ł sperimentata la soluzione proposta. Una
particolare attenzione Ł stata rivolta all’esplicazione della struttura dei dati
intermedi ottenuti dalle elaborazioni parziali
Nel Capitolo 4, sono riportati i risultati quantitativi e qualitativi ottenuti dalla
sperimentazione, esempi di analisi e valutazione dell’analisi delle curve di
fluorescenza e prove di clustering sugli esperimenti di cui si dispone.
9
Infine, nel Capitolo 5, sono riportate le conclusioni a cui si Ł giunti grazie alla
sperimentazione del metodo proposto ed eventuali sviluppi futuri e migliorie da
apportare al metodo stesso.
10
Capitolo 1
Definizioni e background
La reazione a catena della polimerasi in real-time (real-time PCR) Ł una tecnica
basata su un metodo di amplificazione e quantificazione simultanee del DNA. La
real-time PCR, negli ultimi venti anni ha acquisito un’importanza sempre
maggiore nello scenario della quantificazione dell’espressione genica, grazie anche
al rapido avanzamento delle tecnologie coinvolte in tale tecnica. In particolare,
sono stati impiegati nella fase di quantificazione prodotti sempre meno pericolosi
e tossici per l’uomo e sono stati sensibilmente decrementati i tempi di esecuzione
della reazione di amplificazione. A fronte di una tecnica sviluppata qual Ł la real-
time PCR, l’analisi automatica dei dati prodotti da tale reazione deve, invece,
essere resa maggiormente robusta e consistente.
1.1 Elementi biologici
Verranno ora richiamati concetti e definizioni di biologia molecolare necessari per
una maggiore comprensione della tesi, ed in particolare dei principi di
funzionamento della real-time PCR e dei concetti alla base del metodo proposto.
1.1.1 Espressione genica
L’espressione genica Ł il processo attraverso cui l’informazione contenuta in un
gene (costituita di DNA) viene convertita in una macromolecola funzionale
(tipicamente una proteina, ma anche un altro tipo di acido nucleico, come alcuni
RNA, per esempio i microRNA, che non vengono tradotti in proteine).
L’espressione genica Ł finemente regolata dalla celula. Tutti i passaggi
dell’espressione genica possono essere modulati, a partire dal passaggio della
trascrizione del DNA ad RNA, fino alle modificazioni post-traduzionali della
proteina prodotta. La regolazione dell’espressione genica Ł fondamentale per la
cellula, perchØ le permette di controllare le proprie funzioni interne ed esterne,
come la differenziazione cellulare, la morfogenesi o i vari processi di adattamento
alle necessit dell’organismo [1].
11
1.1.2 DNA
L’acido desossiribonucleico (DNA) Ł la molecola alla base della vita degli
organismi cellulari e acellulari come i virus. Il DNA Ł composto da sole quattro
molecole fondamentali chiamate neuclotidi, identiche tranne per il fatto di
contenere ciascuna una differente base azotata. Ciascuno di questi nucleotidi
contiene un fosfato, uno zucchero pentoso (il desossiribosio) e una delle quattro
basi. In assenza del gruppo fosfato, la base e il dessosiribosio formano un
composto che viene chiamato nucleoside. Le quattro basi sono la adenina (A), la
guanina (G), la citosina (C) e la timina (T) (Fig. 1.1). Solitamente quando ci si
riferisce ad un nucleotide, si indica l’abbreviazione della sua base. Da un punto di
vista strutturale, le basi, sono a due a due, simili: da una parte adenina e guanina,
chiamate purine e dall’altra citosina e timina, chiamate pirimidine [2].
Il modello della struttura del DNA, sviluppato da James Watson e Francis Crick
nel 1953, vede il DNA come una doppia elica costituita da due catene di
nucleotidi (detti anche filamenti o strand), che vengono denominate 5’ 3’ e
3’ 5’ perchŁ esse corrono in direzioni opposte (antiparallele). I nucleotidi di un
filamento sono uniti da legami fosfodiesterici, nei quali un gruppo fosfato forma
un ponte tra gruppi -OH di due residui adiacenti di zucchero. I due filamenti, a
loro volta, sono tenuti insieme dai legami idrogeno che si costituiscono tra le basi
per la presenza di due atomi elettronegativi che "condividono" un protone. I
Figura 1.1 Le basi azotate presenti nel DNA e nell’RNA suddivise in purine e pirimidine
12
legami idrogeno sono piuttosto deboli (20 kJ / mol a temperatura ambiente
nell’acqua pura), ma diventano piø forti se gli atomi che partecipano al legame
idrogeno sono disposti secondo un orientamento ideale, cioŁ sono "puntati" uno di
fronte all’altro. Piø precisamente si parla di appaiamento delle basi, e gli unici
possibili appaiamenti che si possono trovare nel DNA sono T con A e C con G
(Fig.1.2). In particolare la coppia C-G ha tre legami idrogeno, mentre la coppia A-
T solo due. Si pu quindi dedurre che una molecola di DNA che contenga molte
coppie C-G Ł piø stabile di una molecola che contiene molte coppie A-T.
La struttura del DNA quindi, permette di capire il modo in cui la molecola pu
essere duplicata o replicata perchŁ ciascuna base pu specificare la sua base
complementare per mezzo del legame idrogeno.
La molecola del DNA Ł di fondamentale importanza per la genetica poichŁ essa
costituisce la base fondamentale dei geni. I geni, infatti, non sono altro che
sequenze di acidi nucleici che servono a codificare per un RNA, il quale a sua
volta pu codificare per una proteina. Infatti, anc he se la maggior parte dei geni
codifica per proteine, alcuni geni specificano RNA che non danno origine a
proteine, ma servono, per esempio, per la regolazione dell’espressione genica
come nel caso dei microRNA.
(a) (b)
Figura 1.2 (a) Struttura chimica del DNA a doppio filamento con indicazione dei legami
idrogeno; (b) struttura tridimensionale del DNA a doppio filamento [3]
13
1.1.3 cDNA
Il DNA complementare (cDNA) Ł un DNA a doppia elica (anche detto double-
stranded DNA o ds-DNA), sintetizzato a partire da un campione di RNA
messaggero maturo.
Per produrre il cDNA si sintetizzano i due filamenti in due passaggi: il primo Ł
prodotto utilizzando l’RNA messaggero (mRNA) come stampo, mentre il secondo
Ł sintetizzato a partire dal primo filamento prodotto (Fig.1.3). Per la sintesi del
filamento stampo, complementare alla sequenza di mRNA, si utilizza l’enzima
trascrittasi inversa. Questo enzima opera su un singolo filamento di RNA,
generando il suo DNA complementare basandosi sull’appaiamento delle basi
azotate dell’RNA (A,U,G,C) con quelle complementari del DNA (T, A, C, G
rispettivamente).
All’interno di questa tesi, la produzione di cDNA a partire da RNA (piø
dettagliatamente da microRNA) tramite trascrittasi inversa Ł di fondamentale
importanza per l’esecuzione della Polymerase Chain Reaction in real-time (real-
time PCR).
Figura 1.3 Sintesi del cDNA a doppio filamento a partire da mRNA [4].
14
1.1.4 RNA
L’acido ribonucleico (RNA) Ł una macromolecola di acido nucleico molto simile
al DNA ma possiede propriet molto differenti.In pr imo luogo, l’RNA Ł a singolo
filamento e non a doppia elica (Fig.1. 4). L’RNA, inoltre, contiene nei suoi
nucleotidi lo zucchero ribosio invece del desossiribosio (Fig 1.5).
Infine, contiene la base pirimidinica uracile (U) al posto della timina, capace di
formare esattamente come la timina, legami idrogeno con l’adenina.
Figura 1.4 Struttura tridimensionale dell’RNA messa a confronto con la
struttura tridimensionale del DNA.
Figura 1.5 Il ribosio e il desossiribosio, gli zuccheri che danno il
nome alle due molecole rispettivamente di RNA e DNA.