4
macromolecole biologiche, a patto che possono essere ionizzate. L’introduzione
della spettrometria di massa in campo proteomico si registra dopo la diffusione
delle tecniche di ionizzazione (es. MALDI) che hanno permesso d’ampliare
l’intervallo di misura dei pesi mololecolari, consentendo di misurare il peso
molecolare delle proteine.
Lo strumento utilizzato per analizzare i campioni biologici è lo spettrometro:
tale strumento è costituito da una sorgente di ionizzazione, un analizzatore di
massa e un rilevatore. La sorgente di ionizzazione produce gli ioni, che vengono
separati dall’analizzatore in base al rapporto massa/carica (m/z); infine il
rivelatore registra gli ioni provenienti dall’ analizzatore. Lo spettrometro produce
un spettro, ossia un grafico che riporta rispettivamente sull’ascisse e sull’ordinata
i valori del rapporto massa/carica (m/z) e l’abbondanza degli ioni prodotti
(Intensità); inoltre, lo spettro è composto da un elevato numero di righe che
identificano dei picchi, ma solo alcuni di questi rappresentano le proteine.
Attualmente, la ricerca in campo proteomico si avvale dell’utilizzo della
spettrometria di massa per l’analisi dei campioni biologici memorizzati in
numerose banche dati proteiche dati presenti sul web. Queste raccolgono le
informazioni relative alle proteine e alla sequenza di amminoacidi che
compongono la loro struttura, ma risultano, a volte, incomplete a causa
dell’elevata dimensionalità degli spettri: risulta di notevole interesse, quindi,
sviluppare delle tecniche per risalire, in maniera esatta, al contenuto proteico dei
campioni.
Obiettivi della tesi
Il contributo di questo lavoro di tesi consiste nell’analisi del processo
d’identificazione negli spettri di massa di picchi che possono essere associati a
delle proteine discriminanti, o biomarcatori (biomarker); l’intero processo di
estrazione delle informazioni sui trend caratteristici di uno spettro è supportato da
un framework di classificazione basata su serie temporali (time series-based):
l’idea alla base dell’approccio basato su serie temporali trova il suo fondamento
nella possibilità di trasformare uno spettro in una sequenza temporale sfruttando il
5
modello di rappresentazione Derivative Time Series Segment Approximation
(DSA). Sulle serie temporali generate da spettri di massa, è possibile applicare
algoritmi di data mining tipici delle time series e, in particolare, effettuare dei task
di clustering per acquisire informazioni sugli elementi proteici discriminanti.
Il framework di classificazione basato su serie temporali, sviluppato presso il
Dipartimento di Elettronica, Informatica e Sistemistica dell’Università della
Calabria, è stato adattato e testato sperimentalmente su due dataset reali che
collezionano dati spettrometrici ottenuti secondo la tecnica MALDI-TOF MS
(Matrix-Assisted Laser Desorption and Ionization with Time-Of-Flight Mass
Spectrometry): il primo, Ovarian Cancer Dataset, è disponibile pubblicamente sul
web ed il secondo, il MALDI-CZ Dataset, di dimensioni ridotte rispetto al primo,
è stato generato presso il laboratorio di proteomica dell’Università di Catanzaro.
I test effettuati dimostrano la validità del framework, sia in termini di
efficienza che in termini di accuratezza nella classificazione dei dati: gli
esperimenti hanno fornito un’accuratezza di classificazione su Ovarian Cancer
Dataset e su MALDI-CZ Dataset pari, rispettivamente, al 96% e all’83%.
Considerate le ridotte dimensioni di MALDI-CZ Dataset, i risultati di
classificazione ottenuti su Ovarian Cancer Dataset risultano essere di gran lunga
più significativi.
Struttura della tesi
Il presente lavoro di tesi è strutturato in tre capitoli:
- Capitolo 1: si descrive lo stato attuale della ricerca per ciò che
riguarda le problematiche inerenti il trattamento dei dati prodotti
dall’analisi spettrometrica di massa. Si discutono, inoltre, le tematiche
relative all’analisi di serie temporali, presentandone l’attuale stato
dell’arte.
- Capitolo 2: viene presentato un approccio per la classificazione di dati
spettrometrici basato sull’analisi di serie temporali. Si descrive una
6
nuova metodologia di modellazione di serie temporali, denominata
Derivative Time Series Segment Approximation (DSA), e viene,
infine, proposto un framework per la classificazione di MS Data,
incentrato sull’utilizzo della metodologia DSA.
- Capitolo 3: si espone la valutazione sperimentale dell'approccio
proposto. Viene presentata la metodologia di valutazione e descritte le
caratteristiche dei dataset utilizzati per gli esperimenti. Infine,
vengono illustrati i principali risultati sperimentali in termini di
accuratezza ed efficienza di classificazione ottenuti dal framework.
A conclusione del lavoro vengono presentate le osservazioni finali ed
evidenziati i risultati ottenuti dalla sperimentazione dell'approccio proposto.
7
Capitolo 1
Spettrometria di massa e analisi di
serie temporali
Nel seguente capitolo vengono introdotte le problematiche inerenti il
trattamento dei dati prodotti dall’analisi spettrometrica di massa. In particolare,
nella prima sezione viene descritta l'evoluzione della ricerca allo stato attuale,
mentre nella seconda sezione vengono presentate le tematiche relative all’analisi
di serie temporali, delineandone l’attuale stato dell’arte.
1.1 Spettrometria di massa e dati MS
1.1.1 Introduzione alla proteomica ed alla spettrometria di massa
La proteomica è l’analisi sistematica in larga scala dell’espressione proteica
sotto stato normale o perturbato e generalmente riguarda la separazione,
l’identificazione e la caratterizzazione di tutte le proteine in un campione di
cellula o di tessuto. Negli ultimi anni, il significato del termine è stato ampliato ed
è ora più largamente usato per fare riferimento all’approccio di analisi, in termini
quantitativi e qualitativi, della sintentizzazione di particolari proteine da parte dei
tessuti.
8
La proteomica non include solo l’identificazione e la quantificazione delle
proteine, ma anche l’individuazione della loro localizzazione, delle modifiche,
delle interazioni, delle attività e, infine, la determinazione della loro funzione.
Vi è una vasta gamma di tecnologie utilizzate nella proteomica, ma il
paradigma centrale è rappresentato dall’uso dell’elettroforesi bidimensionale (2D-
gel) seguita dalla spettrometria di massa (MS). 2D-gel è una tecnica impiegata per
la separazione delle proteine che basa il suo funzionamento sul punto isoelettrico,
che rappresenta il livello di acidità, ossia il pH, al quale nessuna carica elettrica è
presente sulla proteina. Una volta estratte dall’organismo di interesse, le proteine
vengono solubilizzate e sottoposte ad un particolare campo elettrico;
successivamente vengono scisse sulla base del loro peso molecolare [1]. Le
proteine individuali, precedentemente separate, subiscono un processo di
preparazione e vengono poi analizzate dallo spettrometro di massa per
determinarne l’identità e le caratteristiche.
La spettrometria di massa è una tecnica analitica impiegata per
l’identificazione delle macromolecole presenti in un composto chimico. Il
principio su cui essa si basa è la possibilità di separare una miscela di ioni in
funzione del loro rapporto massa/carica generalmente tramite campi magnetici
statici o oscillanti. Tale miscela è ottenuta ionizzando le molecole del campione,
principalmente facendo loro attraversare un fascio di elettroni ad energia nota. Le
molecole così ionizzate sono instabili e si frammentano in ioni più leggeri
secondo schemi tipici in funzione della loro struttura chimica.
Lo spettrometro di massa fornisce una misura estremamente accurata del
rapporto massa/carica (m/Z) degli ioni, misurato in Dalton, Da, e definito come la
dodicesima parte della massa di un atomo di carbonio-12. Tale strumento consiste
di una fonte di ionizzazione, che converte le molecole in ioni allo stato gassoso, e
di un mass-analyzer, ossia un analizzatore di massa, accoppiato ad un rilevatore di
ioni che ne determina il rapporto m/Z. Per l’identificazione di ioni con un
particolare valore di m/Z, il mass-analyzer sfrutta una proprietà fisica nota come
time-of-flight (TOF) o tempo di volo; questa misura è influenzata dalla massa
dello ione e dalla carica elettrica che questo sopporta (m/Z ratio). La superficie del
9
rilevatore registra l’intensità del segnale generato dall’urto di uno ione,
caratterizzato da un determinato valore m/Z, con la superficie stessa (Fig. 1.1) [1].
Lo sviluppo di tale tecnica come metodo di identificazione delle proteine
Con lo sviluppo della ricerca interdisciplinare, la necessità di potenziamento
dei metodi quantitativi per l’analisi di biomolecole è diventata sempre più
incombente, soprattutto nell’ambito della proteomica: attualmente sono numerosi
i metodi spettrometrici in uso per l’identificazione rapida delle proteine, ma uno
dei più diffusi è la Matrix-Assisted Laser Desorption and Ionization with Time-
Of-Flight Mass Spectrometry (MALDI-TOF MS). La tecnica MALDI consiste
nell’immobilizzazione di alcuni campioni di proteine all’interno di una “energy
absorbing matrix”, ossia una matrice cristallina prodotta dall’essiccazione delle
molecole da ionizzare. L’intero insieme di proteine contenute nel singolo
campione interagisce con la matrice che ne trattiene solo una parte. La matrice
cristallina, fissata sulla superficie di un chip, viene sottoposta all’azione di un
laser che causa la ionizzazione delle proteine o di frammenti di esse (catene
Sorgente di
ionizzazione
Mass-analyzer (TOF) Rilevatore
Figura 1.1: Lo spettrometro di massa è composto da una sorgente di ionizzazione, da un analizzatore di
massa e da un rilevatore di ioni. Il rapporto massa/carica (m/Z) è determinato grazie alla misura del tempo
che impiega uno ione per raggiungere il rilevatore.
10
peptidiche); le particelle frammentate si muovono all’interno di un vacuum tube
fino a raggiungere la lastra di rilevazione dello ion detector [3]. Il contatto tra lo
ione e la superficie di rilevazione, con la successiva generazione di un segnale, da
origine ad uno spettro.
Uno spettro è una lunga sequenza di coppie di valori, ognuna delle quali è
composta da una misura di Intensità e da un valore di rapporto massa/carica
(m/Z), rispettivamente vincolati dalla quantità di biomolecole rilevate e dalla
relativa massa molecolare (Fig. 1.2).
Figura 1.2: Spettro di massa di un campione biologico.
Le tecniche spettrometriche di massa sono largamente utilizzate in
esperimenti proteomici per l’identificazione di proteine o pattern biologici: la
ricerca in ambito proteomico attualmente si focalizza sull’analisi spettrometrica
supportata dall’applicazione di particolari algoritmi di data mining, al fine di
determinare gli elementi proteici caratteristici di individui affetti da cancro [6]. In
particolare, lo scopo di tale analisi consiste nell’individuazione di “biomarkers”
11
[7], o marcatori biologici, potenzialmente responsabili dell’insorgenza di
disfunzioni patologiche.
1.1.2 Memorizzazione di dati MS
L’output ottenuto da esperimenti spettrometrici è rappresentato da dati raw,
ossia dati in formato “grezzo”. I dati grezzi potrebbero essere memorizzati su file
o subire un processo di pre-elaborazione per poi essere organizzati in apposite
strutture dati.
I dati raw sono solitamente rappresentati secondo la specifica di due formati,
CSV e TXT; i dati in formato grezzo possono essere sottoposti ad elaborazione
preventive e, a seconda del contesto di utilizzo, rappresentati in formato
MzDATA o in formato relazionale. Più precisamente, MzDATA è un formato
particolarmente utile per lo scambio di dati MS, mentre il formato relazione
risulta estremamente efficiente per l’elaborazione di queries. Di seguito vengono
brevemente esposte le caratteristiche dei quattro formati:
- CSV (Comma Separated Values)
E’ un semplice formato testuale, largamente usato (per esempio NCI [2]
pubblica i dati in questo formato). Su ogni linea vengono riportati i valori
del rapporto massa/carica (m/Z) e della relativa Intensità. La specifica del
formato prevede che i due valori siano separati da virgola.
- TXT
In modo del tutto analogo al formato CSV, gli spettri possono essere
memorizzati su file in formato TXT. Il principio di formattazione prevede
che ogni coppia, formata dal valore del rapporto massa/carica (m/Z) e dalla
corrispondente Intensità, sia distribuita su ogni riga ed il separatore sia
diverso da virgola.