1 Le banche dati strutturali sulle
proteine 1.1Le proteine e l’utilizzo delle banche dati di
proteine Le proteine (trattate dettagliatamente all’interno dell’APPENDICE A)) costituiscono
la base strutturale e funzionale di tutti i sistemi viventi. Tali complesse
macromolecole esibiscono una notevole diversità funzionale, che permette loro di
svolgere una miriade di attività fondamentali per la vita.
Probabilmente, nessun altro tipo di macromolecola biologica potrebbe esplicare tutte
le funzioni che le proteine hanno accumulato attraverso miliardi di anni di
evoluzione. Diventa interessante studiare la struttura tridimensionale di una proteina
perché è vero che solo l’analisi tridimensionale di una macromolecola può aiutarci a
comprendere in quale modo e per quale motivo una determinata sequenza possa
determinare una precisa funzione. Sebbene esistano numerose metodologie chimico-
fisiche in grado di fornire dettagli strutturali; modelli tridimensionali completi si
possono ottenere solo applicando tecniche di cristallografia a raggi X e risonanza
magnetica nucleare (NMR). In questi anni si sta assistendo ad un rapido sviluppo
delle conoscenze in campo biologico, e questo è in gran parte dovuto all’utilizzo di
strumenti informatici per il calcolo e l’elaborazione dei dati. Le misure sperimentali
condotte con varie tecniche di analisi (raggi X, spettrometria NMR, ...) hanno
prodotto e continuano a produrre un’enorme mole di informazioni relative a
sequenze proteiche note. I progressi in campo biochimico hanno poi dato un impulso
decisivo al sequenziamento del genoma di vari organismi, fra cui l’uomo. Questi
dati, per la maggior parte liberamente disponibili, costituiscono uno dei principali
strumenti di indagine utilizzati dai laboratori di ricerca in tutto il mondo. Grazie ad
essi ed a varie tecniche ed algoritmi di ricerca di omologie, è oggi possibile
5
individuare molto più facilmente la struttura di una proteina o identificare la funziona
espressa da un gene.
L’esigenza di memorizzare, gestire ed elaborare questi dati ha portato allo sviluppo e
all’integrazione di strumenti informatici al servizio della ricerca in campo biologico e
farmaceutico. Si sta verificando proprio in questi anni una rapida evoluzione, dovuta
alle crescenti esigenze di calcolo e gestione dati che i progressi delle biotecnologie
richiedono per loro natura.
Gli strumenti informatici oggi più diffusi sono principalmente caratterizzati da
database di informazioni e da applicativi software per effettuare ricerche ed
elaborazioni. Questi strumenti, nati principalmente in ambito accademico 15-20 anni
fa, si trovano oggi di fronte alla rapida crescita del settore biotecnologico, ed in molti
casi richiederebbero un adeguato sviluppo in termini di efficienza, accessibilità,
facilità di utilizzo e ingegnerizzazione.
I centri di ricerca su proteine, DNA e acidi nucleici, come per esempio quelli relativi
ad un’industria farmaceutica, devono elaborare informazioni complesse e
numericamente elevate. Allo scopo di contenere in un unico archivio tutte le
strutture proteiche scoperte è stato creato il Protein Data Bank, che è un riferimento
di strutture proteiche a livello mondiale.
Le informazioni contenute all’interno dell’archivio devono essere strutturate e gestite
in modo da essere utilizzate al meglio da chi le utilizza. Queste strutture sono di
rilevante importanza per i centri di ricerca di industrie biotecnologiche e
farmaceutiche per la ricerca di nuovi farmaci, e per aiutare centri di ricerca e
ricercatori a svelare i misteri delle malattie umane. Si pensi, ad esempio ad un centro
di ricerca. Le informazioni che il centro di ricerca preleva dalla banca dati proteica
devono essere chiare, complete e devono poter essere utilizzate in maniera efficace
ed efficiente, in modo da: ridurre le perdite di tempo per reperire le informazioni,
ridurre i costi di gestione delle attività di ricerca e in modo da effettuare studi e
ricerche soddisfacenti. Se facciamo riferimento al centro di ricerca di una qualsiasi
industria farmaceutica, che deve immettere un nuovo farmaco sul mercato, vediamo
che se il centro di ricerca utilizza per i suoi studi una banca dati di proteine, che
6
contiene informazioni incomplete o non strutturate in maniera corretta, si potrebbero
verificare i seguenti problemi:
• Produzione di farmaci non funzionanti e non idonei al mercato • ricerche incomplete dovute alla mancanza di informazioni fondamentali
• ricerche e studi che richiedono un elevato tempo di sviluppo, perché le
informazioni non sono facilmente reperibili e individuabili all’interno della banca dati.
Tutto questo porta a numerose perdite, dal punto di vista economico e qualitativo,
dell’intera industria farmaceutica. Per esempio, se un nuovo farmaco non viene
realizzato in tempi brevi e immesso tempestivamente sul mercato, si rischia che altre
industrie concorrenti immettano prima il nuovo farmaco sul mercato, portando
onerose perdite economiche e di immagine all’industria.
A livello mondiale, una buona gestione delle informazioni all’interno del Protein
Data Bank, potrebbe facilitare e migliorare la qualità delle ricerche relative alla
scoperta di nuovi farmaci, di nuove proteine e addirittura potrebbe rendere migliori
gli studi sul DNA.
Quindi la gestione della banca dati PDB (Protein Data Bank) è alla base di
un’efficiente ricerca scientifica. Tuttavia, a causa dell’elevato numero di strutture
proteiche, non si è in grado di garantire la qualità delle informazioni memorizzate.
Nasce così l’esigenza di miglioramento delle informazioni, contenute all’interno del
Protein Data Bank, e in questa tesi analizzeremo e cercheremo di migliorare le
informazioni relative ai rotemeri contenuti all’interno delle strutture proteiche.
7
1.2Protein Data Bank Il Protein Data Bank (PDB) contiene le coordinate e le informazioni relative a
proteine, acidi nucleici e proteine-acidi nucleici complessi. L’archivio PDB è gestito
dai membri del worldwidePDB (wwPDB) suddiviso a sua volta in: RCSB PDB, EBI-
MSD, PDBj e BMRB come si può vedere nella figura seguente (11):
Viene effettuata una verifica dei dati, prima del loro inserimento nell’archivio,
seguendo degli standard ben precisi. Una volta controllati, i dati vengono spediti
all’RCSB PDB che provvederà all’inserimento nell’archivio. I membri del wwPDB
devono assicurare l’uniformità e la correttezza dell’archivio.
Queste strutture sono di rilevante importanza per i centri di ricerca di industrie
biotecnologiche e farmaceutiche per la ricerca di nuovi farmaci, e per aiutare centri
di ricerca e ricercatori a svelare i misteri delle malattie umane. Tali strutture possono
essere utilizzate anche da altri tipi di utenti, anche se meno esperti, come insegnanti e
studenti.
8
Figura 1 - Struttura del wwPDB
Il Protein Data Bank (PDB; http://www.rcsb.org/pdb ) è stato fondato nel 1971 da
Walter Hamilton nel Brookhaven National Laboratory in risposta alla necessità, da
parte della comunità scientifica, di un archivio centrale per gestire l’informazione
strutturale proveniente dalle macromolecole biologiche. All’atto della sua
fondazione, il PDB includeva solo sette strutture proteiche, ma come abbiamo già
accennato con il passare degli anni e con la scoperta di nuove tecniche scientifiche il
numero di proteine all’interno del PDB è cresciuto esponenzialmente fino ad arrivare
a quota 50.000 nel luglio del 2008, e si è stimato un aumento fino a 150.000 strutture
proteiche per il 2014 (10).
Numero di strutture disponibili a luglio 2008 (10):
Dati derivanti da esperimenti di cristallografia a raggi X e NMR sono depositati
all’interno dell’archivio da scienziati di tutto il mondo. I membri dell’RCSB PDB
cercano di inserire questi dati nell’archivio PDB nel miglior modo possibile.
L’RCSB PDB a sviluppato dei software per il processo di inserimento e gestione dei
dati all’interno del database.
9
Figura 2 - Grafico che rappresenta il numero di proteine scoperte col passare del tempo
1.2.1 Tecniche di identificazione delle proteine Ora visualizziamo attraverso quali tecniche vengono scoperte le strutture
proteiche.
1.2.1.1 Cristallografia a raggi X
E’ la tecnica che permette di identificare con maggiore precisione le strutture
proteiche.
Questo perché i raggi X hanno una lunghezza d’onda che è circa uguale alla
lunghezza di un legame covalente.
I raggi X sono radiazioni elettromagnetiche con lunghezza d’onda molto piccola
circa uguale a 0,1 nm che è circa uguale alla grandezza dell’atomo di idrogeno.
Questa tecnica fornisce le coordinate tridimensionali della maggior parte degli atomi
di una molecola proteica. La fase più difficoltosa dell’esperimento è la realizzazione
del cristallo. Per un’analisi a raggi X servono principalmente: il cristallo della
proteina, un emettitore di raggi X e un rilevatore.
10
Figura 3 - Schema che rappresenta il sistema di cristallografia a
raggi X.
I dati raccolti attraverso la cristallografia a raggi X vengono trasmessi all’interno della banca dati in modo:
• Univoco • Sintetico • Standardizzato 1.2.1.2 Spettroscopia NMR E’ l’unica tecnica in grado di rilevare la struttura atomica di macromolecole in
soluzione, partendo da soluzioni altamente concentrate. Non dipende dal cristallo
delle proteine, e questo è utile per proteine che resistono alla cristallizzazione, come
quelle di membrana.
1.3Metodo di accesso al Protein Data Bank Il sistema migliore e più largamente impiegato per rendere disponibile
un’applicazione al pubblico, è renderla fruibile via World WideWeb. Normalmente
ciò avviene grazie all’impiego di particolari linguaggi ed architetture in grado di
formulare risposte sotto forma di pagine HTML inviate agli utenti che ne facciano
richiesta. Tali pagine vengono elaborate e visualizzate in locale, genericamente con
browser web. Nonostante questi programmi siano ampiamente diffusi, la loro
realizzazione viene effettuata da diverse software house e per le più disparate ragioni
possono presentare numerose incompatibilità per quanto riguarda la resa grafica. A
questo scopo il World Wide Web Consortium (W3C) definisce standard
universalmente riconosciuti e rispettati.
Uno di questi è l’XHTML, che pone alcune rigide restrizioni all’HTML in modo da
renderlo a tutti gli effetti un documento XML, estendendone la compatibilità. I
documenti XML possono infatti essere utilizzati come input (direttamente o dopo
essere state filtrate da un XSLT che ne possono alterare la struttura) di altre
11
applicazioni (non solo da browser, quindi) e facilmente elaborate per estrarne
informazioni o per alterarne la resa grafica.
L’RCSB PDB è un portale, per le ricerche di qualsiasi untente interessato alle
strutture proteiche. Questo portale si basa sull’ archivio PDB.
Nel portale sono stati implementati livelli differenti di dati, risorse software e altri
software applicativi. L’RCSB PDB utilizza tecniche avanzate per fornire strutture
dati accurate, consistenti e ben strutturate in maniera tempestiva ed efficiente.
L’utilizzo di internet per l’erogazione di servizi e informazioni è molto più efficiente
ed efficace dei metodi normali, in quanto le informazioni richieste dagli utenti sono
reperibili in maniera più veloce, precisa ed affidabile.
Gli utenti che visitano il portale RCSB PDB possono compiere query semplici o
complesse, sulle strutture proteiche contenute nell’archivio PDB, e possono esplorare
più di 800 web page ben curate. Per accedere alla pagina di una determinata struttura
proteica, è possibile inserire l’ID PDB della proteina, come ad esempio 5HVP.
Queste pagine contengono informazioni, immagini statiche o interattive della
molecola, link e molte altre risorse.
Possono essere effettuate ricerche su strutture proteiche semplici o complesse, e gli
utenti hanno una vasta varietà di opzioni per effettuare le ricerche, come per esempio
la pagina per le ricerche avanzate.
Possono essere creati una varietà di report per le strutture proteiche analizzate e sono
rese disponibili opzioni ben precise per decidere il tipo di query e di report da
effettuare.
Sempre nella pagina di ricerca è possibile utilizzare diversi software tra cui un
visualizzatore 3D che permette di rappresentare graficamente in tre dimensioni la
proteina e di visualizzarne l’aspetto. Possono anche essere scaricati, in forma
compressa e non, i formati file PDB, mmCIF e PDBML per ogni struttura contenuta
nell’archivio. Questi file possono essere scaricati dal PDB FTP server.
12
1.4I formati di file utilizzati dal Protein Data Bank
per la gestione delle informazioni Come abbiamo già detto il Protein Data Bank è un database che contiene le
informazioni di tutte le strutture proteiche scoperte fino ad oggi.
Queste informazioni vengono memorizzate all’interno del database e strutturate
seguendo precise disposizioni. Per ogni struttura proteica esiste un IDPDB, che
consiste in un identificatore univoco per quella struttura proteica, come ad esempio
5HVP. Questo codice viene utilizzato come entry per effettuare l’accesso alla pagina
della struttura proteica corrispondente.
Per ogni struttura proteica, e quindi per ogni entry, sono previsti diversi record, i
quali contengono le diverse informazioni della proteina. Ogni record è formato da 80
colonne, dove le prime 6 colonne contengono il nome o l’identificativo del record,
come per esempio “ATOM”. Questi record sono formati da diversi campi che
contengono le diverse informazioni, e oltre ai singoli record sono presenti, all’interno
della struttura del database, dei legami logici tra record che descrivono le
corrispondenze e i collegamenti tra i vari record (1). Per esempio il record ATOM
conterrà l’ID relativo al residuo a cui appartiene l’atomo, creando una relazione tra il
record ATOM e il record SEQRES.
Per ogni struttura proteica vengono utilizzati diversi record per contenere le
informazioni. Nei vari formati utilizzati per gestire le informazioni questi record
possono essere obbligatori,nel qual caso dovranno essere sempre presenti; oppure
possono essere facoltativi e di conseguenza potranno essere omessi perché
contengono informazioni poco importanti.
Poiché per ogni struttura proteica esiste una mole notevole di informazioni, se tutte le
informazioni venissero visualizzate tutte insieme, l’utente meno esperto, che accede
ai dati, sarebbe disorientato e avrebbe difficoltà nel ricercare le informazioni che gli
interessano (1). Per tale ragione esistono record non obbligatori nei formati di dati.
Alcuni tra i più importanti record all’interno del database PDB possono essere i
13
seguenti:
• HEADER ovvero l’intestazione
• AUTHOR ovvero l’autore della ricerca
• SEQRES ovvero sequenza dei residui
• ATOM ovvero atomo della sequenza e sue coordinate
I quali sono tutti obbligatori perché le informazioni contenute sono di fondamentale
importanza per lo studio della proteina.
I vari formati di file messi a disposizione dal PDB contengono i diversi record con le
rispettive informazioni.
1.4.1 Il formato PDB Quando nacque il Protein Data Bank venne ideato un unico formato di
rappresentazione delle informazioni, che utilizza una struttura orientata a colonne, e
che prende il nome di formato PDB. Questo standard venne creato nel 1970 per la
rappresentazione delle strutture proteiche derivanti dalla cristallografia a raggi X e
dalla tecnica NMR. Esistono numerosissimi software in grado di leggere tale formato
(12).
Un esempio di file .PDB può essere quello rappresentato di seguito:
HEADER HYDROLASE(ACID PROTEINASE) 30-APR-90 5HVP
TITLE CRYSTALLOGRAPHIC ANALYSIS OF A COMPLEX BETWEEN HUMAN
TITLE 2 IMMUNODEFICIENCY VIRUS TYPE 1 PROTEASE AND ACETYLTITLE
3 PEPSTATIN AT 2.0-ANGSTROMS RESOLUTION
… … … ATOM 1 N PRO A 1 29.061 39.981 4.981 1.00 28.69 N
ATOM 2 C PRO A 1 29.970 38.922 4.561 1.00 29.08 C
ATOM 3 C PRO A 1 29.325 38.106 3.429 1.00 29.19 C
14
ATOM 4 O PRO A 1 28.097 38.168 3.298 1.00 29.87 O
ATOM 5 C PRO A 1 30.106 38.013 5.789 1.00 29.07 C
ATOM 6 C PRO A 1 28.749 38.112 6.413 1.00 28.59 C
ATOM 7 C PRO A 1 28.387 39.600 6.246 1.00 29.21 C
ATOM 8 N GLN A 2 30.153 37.412 2.681 1.00 28.13 N
ATOM 9 C GLN A 2 29.636 36.572 1.593 1.00 27.95 C
ATOM 10 C GLN A 2 29.861 35.139 2.082 1.00 27.28 C
ATOM 11 O GLN A 2 31.038 34.773 2.266 1.00 27.61 O
ATOM 12 C GLN A 2 30.373 36.787 0.305 1.00 28.43 C
ATOM 13 C GLN A 2 30.346 35.501 -0.539 1.00 29.40 C
ATOM 14 C GLN A 2 30.921 35.844 -1.899 1.00 29.51 C
ATOM 15 O GLN A 2 31.894 35.283 -2.340 1.00 30.56 C
Come vediamo esistono diversi tipi di record, che definiscono le diverse
informazioni sulla proteina. Tra i più importanti troviamo:
• HEADER: definisce univocamente la proteina tramite l’idCode.
• TITLE: contiene il nome dell’esperimento o dell’analisi che rappresenta la
proteina.
• COMPND: informazioni sul contenuto macromolecolare della proteina.
• KEYWDS: insieme di termini correlati all’esperimento, utili per categorizzare la proteina e per facilitarne l’individuazione.
• SEQRES: contiene il numero di residui di tutte le catene
• ATOM contiene le coordinate x,y,z degli atomi della struttura, espressi in Angstrom.
1.4.1.1 I software 3-D Come abbiamo descritto precedentemente esistono diversi software per l’analisi dei
file PDB e alcuni di questi software sono i viewer 3-D , che permettono all’utente di
avere un’immagine tridimensionale della struttura proteica cercata permettendo
analisi e modifiche tridimensionali alla struttura . Per esempio è possibile spostare
atomi da una parte all’altra, modificare legami o cambiare la sequenza di
amminoacidi all’interno della struttura proteica e questo allo scopo di verificare il
funzionamento della proteina in circostanze diverse o di creare nuove strutture
15
proteiche artificiali. Questo è di fondamentale importanza nei centri di ricerca in
campo farmaceutico per la scoperta di nuovi farmaci contro le malattie.
E' pertanto notevole l’importanza di questi software, e sul mercato ce ne sono molti,
dai più semplici che possono essere utilizzati dagli utenti meno esperti ai più
complessi che permettono l’utilizzo di notevoli componenti aggiuntivi, che possono
essere usati, ad esempio, da esperti in campo biologico per i loro esperimenti o per le
loro ricerche scientifiche. Possono essere usati dai centri di ricerca di qualsiasi
industria farmaceutica allo scopo di analizzare e modificare in 3-D le strutture
proteiche. Sono software molto utili e innovativi per le ricerche nel settore biologico.
Cerchiamo di spiegare come avviene il funzionamento di questi viewer 3-D. Una
volta inserita la entry PDB relativa alla proteina cercata viene creato il file .PDB
corrispondente che può essere scaricato o salvato sul proprio computer e che può
essere aperto da un qualsiasi viewer 3D. Il file .PDB viene compilato da un parser, il
quale esegue la verifica sintattica e grammaticale del file e lo trasforma in un file
riconoscibile dal viewer 3D, che ne estrapolerà le informazioni, e visualizzerà sullo
schermo la struttura della proteina in 3-D.
Alcuni dei viewer 3D più importanti sono i seguenti:
• Swiss PDB viewer • Rasmol
• Jmol
Uno dei più utilizzati è Swiss PDB viewer, il quale permette anche di caricare e
visualizzare più macromolecole. Ogni macromolecola è composta da gruppi come ad
esempio gli amminoacidi, e a sua volta ogni molecola è composta da atomi, le quali
coordinate sono prese direttamente dal file PDB , il quale può essere aperto
direttamente con il programma di visualizzazione.
16
Di seguito è riportato un esempio di struttura proteica in 3-D ottenuta con il
software Swiss PDB viewer (3):
Esistono diverse opzioni che possono essere utilizzate per studiare o modificare la
macromolecola in struttura tridimensionale con il software Swiss PDB viewer (3), e
tali procedure sono specificate chiaramente nell’APPENDICE D.
17
Figura 4 - Immagine di una struttura proteica in 3-D. In questo caso
è la proteina relativa alla entry 5HVP.