7
purificazione proteica sempre più rapide ed efficienti (Sydor & Nock, 2003). Per
quanto riguarda poi la cristallografia ai raggi X, tra le numerose innovazioni
tecnologiche che hanno caratterizzato il settore vanno ricordate: la disponibilità di
sorgenti di sincrotrone a lunghezza d’ onda regolabile (Walsh et al., 1999a),
l’utilizzo di dispositivi per la raccolta dati basati su rivelatori CCD (Walsh et al.,
1999b) e l’ uso della crioprotezione per limitare il decadimento dei cristalli indotto
dalla radiazione X (Garman, 1999). Metodi innovativi per l’attribuzione delle fasi
sono stati sviluppati ed estesamente utilizzati, come la tecnica MAD (diffrazione
anomala a lunghezza d’onda multipla) (Gonzalez et al., 1999), o la tecnica della
diffusione anomala singola (SAD) (Dauter, 1999). D’altra parte, lo sviluppo di
algoritmi che minimizzano l’intervento di un operatore esterno, unitamente alla
disponibilità di una maggiore potenza di calcolo, hanno ridotto il tempo necessario
all’elaborazione dei dati ed, in ultima analisi, alla risoluzione di una struttura
cristallografica.
La possibilità di determinazioni strutturali in una modalità ‘high throughput’ è
strettamente vincolata alla progressiva automazione degli stadi richiesti per la
risoluzione di una struttura cristallografica. Tale possibilità ha acquisito grande
importanza nel contesto dei progetti di genomica strutturale ((Burley et al., 1999;
Montelione & Anderson, 1999); per maggiori dettagli si consulti il Par. 1.4). Per
poter sfruttare adeguatamente l’informazione contenuta nelle banche dati di
sequenza in continua espansione, è necessario accumulare informazioni strutturali
ad una velocità maggiore di quella attuale. Soltanto alla luce delle relazioni
intercorrenti tra sequenza, struttura tridimensionale e funzione si potrà utilizzare
appieno la mole di informazioni sulle strutture primarie proveniente dal
sequenziamento dei genomi.
Man mano che il numero delle strutture tridimensionali è andato aumentando nel
corso degli anni, si è resa necessaria l’implementazione di banche dati di strutture:
strumenti in grado di archiviare, organizzare e distribuire l’informazione strutturale
associata alle macromolecole biologiche. Il riferimento centrale del settore è
costituito dall’archivio Protein Data Bank.
8
1.2 Il Protein Data Bank
Il Protein Data Bank (PDB; http://www.rcsb.org/pdb; (Berman et al., 2000;
Bernstein et al., 1977) è stato fondato nel 1971 da Walter Hamilton nel
Brookhaven National Laboratory in risposta alla necessità, da parte della comunità
scientifica, di un archivio centrale per gestire l’informazione strutturale
proveniente dalle macromolecole biologiche. All’atto della sua fondazione, il PDB
includeva solo sette strutture. Gli elementi essenziali dell' format utilizzato per
codificare queste prime strutture si ritrovano tuttora nei files del PDB. Grazie alla
sua semplicità ed alla consistenza nella rappresentazione delle strutture
tridimensionali, il format PDB rimane il mezzo più ampiamente supportato per lo
scambio di dati strutturali relativi alle macromolecole biologiche. Un file PDB
consiste in una collezione di records, il cui formato è fissato, che descrivono le
coordinate atomiche, le proprietà chimiche e biochimiche, i dettagli sperimentali
relativi alla determinazione della struttura, nonchè alcune caratteristiche strutturali
quali l'assegnazione della struttura secondaria, la composizione dell’ unità
biologica e talvolta la descrizione dei siti attivi.
Nel corso degli anni Settanta, poche strutture all’anno venivano aggiunte al PDB,
e gli approcci informatici per la gestione dei dati erano ancora rudimentali. Nel
decennio successivo, il numero di strutture depositate ha cominciato ad aumentare
notevolmente. Le cause di tale incremento vanno ricercate nei miglioramenti
tecnologici associati ad ogni aspetto delle procedure cristallografiche,
nell’aggiunta di strutture determinate attraverso la risonanza magnetica nucleare
(NMR), e nell’adozione di un nuovo punto di vista, da parte della comunità
scientifica, in materia di data sharing. Attualmente nel PDB sono riportate oltre
23000 strutture di proteine. In relazione a tale rapida crescita, le modalità di
accesso ai dati del PDB sono cambiate attraverso gli anni, in seguito al
miglioramento delle tecnologie disponibili. Adesso la distribuzione dei dati
avviene principalmente attraverso il Word Wide Web (WWW), anzichè tramite
supporti magnetici, come in passato. Inoltre, la necessità di analizzare differenti
sottoinsiemi dei dati disponibili, ha condotto allo sviluppo di moderni sistemi
integrati per la gestione dei dati strutturali.
9
1.3 Le banche dati derivate
Nel corso degli anni l’accumulo di informazioni strutturali nel Protein Data Bank
ha reso possibile la realizzazione di analisi comparative sui dati a disposizione, con
il supporto di nuovi algoritmi, elaboratori più veloci per l’esecuzione di tali
algoritmi su un insieme sempre crescente di dati, e la disponibilità di tecnologie
informatiche per un accesso efficiente alle informazioni.
I dati primari reperibili nel PDB sono le coordinate cartesiane, i fattori di
occupazione ed i parametri di spostamento atomico per gli atomi che costituiscono
le strutture. Sono riportate inoltre informazioni addizionali come riferimenti
bibliografici, dettagli dell’esperimento, links alle banche dati di sequenza, ed
alcune annotazioni relative alla funzione biologica. Raggruppati in una singola
entry o, a causa delle restrizioni del format PDB, in entries multiple per strutture
molto grandi, tali dati costituiscono una coincisa descrizione della forma
tridimensionale di una molecola.
I
l
P
D
Figura 1 - Il flusso dei dati strutturali. L’ informazione primaria deriva direttamente dagli
esperimenti condotti nei singoli laboratori. Informazioni primarie addizionali, come sequenze,
condizioni di cristallizzazione, e strutture di eventuali ligandi, sono disponibili come risorse
primarie esterne al PDB. Le varie operazioni che è possibile effettuare sui dati primari consentono
di ottenere un insieme di risorse secondarie.
10
Il PDB attualmente rende disponibili con cadenza settimanale i dati primari relativi
alle nuove strutture depositate. Un gran numero di siti in tutto il mondo acquisisce
tali dati attraverso Internet, elabora informazioni addizionali e costituisce un
insieme di risorse secondarie. Il flusso dei dati strutturali è schematizzato in
Figura 1. Le risorse secondarie comprendono innumerevoli servizi: in Tabella 1
sono riportati alcuni esempi suddivisi per categorie.
Controllo della qualità stereochimica delle strutture:
Risorsa Informazione reperibile Riferimenti
PROCHECK Validazione delle strutture (Laskowski et al., 1993)
PDBsum Sommario informazioni PDB (Laskowski, 2001))
Classificazione della struttura delle proteine:
Risorsa Informazione reperibile Riferimenti
Banca dati SCOP Classificazione strutturale (Murzin et al., 1995))
Banca dati CATH
Classe, architettura,
topologia, superfamiglie
omologhe di proteine
(Orengo et al., 1997))
Banca dati PQS Struttura quaternaria (Henrick & Thornton, 1998))
Strutture proteiche non ridondanti:
Risorsa Informazione reperibile Riferimenti
PDBselect
Insiemi di strutture proteiche
con identità di sequenza pari
al 25% o al 90%
(Hobohm & Sander, 1994))
ASTRAL
Insiemi di strutture proteiche
con identità di sequenza
selezionabile
(Brenner et al., 2000))
Metalloproteine e gruppi prostetici:
Risorsa Informazione reperibile Riferimenti
Banca dati MDB
Classificazione strutturale e
funzionale delle
metalloproteine
(Castagnetto et al., 2002))
Tabella 1 – Esempi di banche dati derivate e risorse per ottenere informazioni addizionali.
11
Il numero delle risorse secondarie aumenta di anno in anno: un elenco aggiornato è
reperibile alla pagina http://www.pdb.org/pdb/links.html .
1.4 Sviluppi recenti
La biologia strutturale è un settore in rapida espansione che impone sfide
nell’ambito dell’acquisizione, gestione e distribuzione dei dati di struttura. In
questo contesto, la sfida principale è senza dubbio rappresentata dal concetto di
genomica strutturale. Con questo termine si indica lo sviluppo e l’utilizzazione di
determinazioni strutturali high throughput per diversi ed importanti scopi tra cui: la
completa esplorazione dello spazio di folding delle proteine, con conseguente
perfezionamento delle tecniche di homology modeling; la determinazione del
maggior numero possibile di strutture di proteine in relazione ad un dato genoma;
l’approfondimento, su scala molecolare, delle conoscenze riguardanti patologie
specifiche e/o particolari percorsi biochimici implicati in patologie. Benchè gli
obiettivi specifici possano essere differenti, le modalità di realizzazione dei vari
progetti sono essenzialmente le stesse; la più diretta implicazione di questo
fenomeno è un aumento esponenziale nella quantità di informazioni strutturali
disponibili. A partire dal 1999 il numero di strutture depositate nel PDB ha seguito
mediamente il ritmo di 50 entries per settimana. Attualmente nell’archivio sono
1974 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004
0
5000
10000
15000
20000
25000
STRUTTURE DISPONIBILI NEL PROTEIN DATA BANK (PDB)
(aggiornamento Dic2003)
n
.
d
i
s
t
r
u
t
t
u
r
e
Anno
strutture nuove depositate nell'arco dell'anno
strutture complessive
Figura 2 - Numero totale di strutture depositate e numero di strutture depositate per anno nel PDB.
12
riportate oltre 23000 strutture di proteine (dicembre 2003: 23792 entries). Con
l’avvio dei numerosi progetti di genomica strutturale sparsi in tutto il mondo, e’
evidente che tale numero è destinato ad aumentare in modo considerevole: si stima
infatti che il PDB dovrebbe contenere circa 35000 entries per il 2005. In Figura 2
è riportato il numero di strutture depositate per anno, assieme al numero
complessivo di strutture disponibili. La Figura 3 evidenzia invece il parallelo
esistente tra aumento numerico delle entries e crescente complessità delle strutture
depositate: dalle piccole proteine globulari degli esordi fino alla complicata
macchina molecolare del ribosoma.
È importante notare che all’aumento quantitativo dei dati disponibili fa riscontro
anche un miglioramento qualitativo dei informazioni strutturali, nel senso di
strutture determinate con maggiore accuratezza. In conclusione, il PDB
attualmente contiene una massa critica di informazioni strutturali ad alta
risoluzione su cui è possibile condurre una varietà di analisi statistiche. Molte di
tali iniziative mirano ad delucidare i principi che dirigono l’organizzazione
molecolare dei siti attivi, nonchè allo sviluppo di algoritmi knowledge-based per
una predizione accurata di struttura e funzione delle proteine. In particolare, un
Figura 3 - Numero totale di strutture disponibili nel PDB per anno, con esempi di strutture
depositate in differenti periodi:
(a) mioglobina; (b) emoglobina; (c) lisozima; (d) RNA transfer; (e) anticorpi; (f) virus; (g) actina;
(h) nucleosoma; (i) miosina, s; (j) subunità del ribosoma; (k) pompa del calcio.
13
ampio insieme di dati strutturali disponibili consente di estrarre informazioni
significative anche per quelle categorie di dati intrinsecamente rare e poco
ricorrenti. In questo contesto si inquadra lo studio di elementi strutturali poco
frequenti (ma di notevole importanza funzionale), nonché le analisi
conformazionali sulla distribuzione dei residui amminoacidici in regioni non
strutturate delle proteine.
1.5. Obiettivi generali del progetto di tesi
Nell’ambito del presente progetto di tesi ci si propone di studiare il motivo
strutturale denominato poliprolina II (PPII), nonchè di valutare l’energia
conformazionale dei differenti amminoacidi in regioni non strutturate delle
proteine.
Le eliche di PPII sono coinvolte in importanti processi biologici quali la traduzione
dei segnali, la trascrizione, la motilità cellulare e la risposta immunitaria (Kay et
al., 2000). Eliche di PPII sono, inoltre, costituenti fondamentali di proteine
strutturali quali il collageno (Beck & Brodsky, 1998) ed alcune glicoproteine della
parete cellulare delle piante (Ferris et al., 2001). Utilizzando le informazioni
disponibili nelle banche dati strutturali sono state condotte analisi statistiche volte
a identificare le eliche PPII ed a valutare le propensioni dei diversi amminoacidi
per questo motivo strutturale. È opportuno ricordare che analisi statistiche
analoghe, effettuate in passato su un numero ridotto di strutture di proteine
(Adzubhei & Sternberg, 1993; Stapley & Creamer, 1999), hanno portato a risultati
discordanti (cfr. Par. 2.3.3a) È dunque ragionevole che uno studio basato su un più
ampio insieme di dati possa fornire valori delle propensioni statisticamente più
significativi. Le linee di sviluppo principali possono essere così schematizzate:
¾ confronto delle propensioni statistiche con quelle sperimentali
recentemente determinate (Rucker et al., 2003);
¾ analisi dei determinanti strutturali per le propensioni;
¾ valutazione dei contesti strutturali in cui le eliche di PPII sono collocate;
¾ correlazione tra informazioni statistiche e ruolo biologico delle eliche PPII.
14
Parallelamente, utilizzando le informazioni contenute nel PDB sono state
determinate, per ciascun amminoacido, mappe di energia conformazionale
‘empiriche’ ottenute valutando la distribuzione dei conformeri in regioni non
strutturate delle proteine. Lo studio e’ stato condotto analizzando gli spazi
conformazionali di ciascun residuo amminoacidico ed identificando le
conformazioni più o meno favorite. Per ogni residuo di una data proteina sarà
possibile valutare la differenza di energia tra la conformazione adottata ed il suo
minimo assoluto. Mediando i valori associati a tutti i residui di una proteina si puo’
ottenere una stima della variazione di energia per l’intera macromolecola.
L’andamento di questo parametro verrà valutato in funzione delle dimensioni della
catena polipeptidica, per uno studio delle variazioni di energia conformazionale
associate al processo di strutturazione delle proteine.