Introduzione
INTRODUZIONE
IL PROGETTO PROTMINE NEW
Il lavoro di tesi ha permesso di aggiungere nuove funzionalità al progetto
“Protmine New”, nato dalla collaborazione tra il Laboratorio Centrale
dell’Ospedale G. Gaslini di Genova ed il laboratorio Medinfo del Dipartimento di
Informatica, Sistemistica e Telematica (DIST) dell’Università di Genova per
fornire ai ricercatori medici uno strumento di consultazione scientifica di facile
utilizzo.
La ricerca biomedica utilizza enormi volumi di informazioni e produce una
quantità sempre crescente di dati, con un trend di aumento del 30/40% all’anno.
Alcuni settori, tra i quali la genomica e la proteomica, contribuiscono alla
realizzazione di banche dati di rilevanti dimensioni. Le conoscenze vengono
organizzate in database del tutto eterogenei tra loro, alcuni gestiti da Centri,
quali EBI, NCBI, DDBJ, molti con caratteristiche particolari e specializzati su
tematiche specifiche (gene/genoma, organismo, malattia, mutazione, etc...),
altri invece sono sviluppati da singoli ricercatori o da piccoli gruppi. In generale
hanno strutture dati, DBMS e metodi di distribuzione differenti e diversa è la
semantica e l’informazione che contengono. Una tale enorme quantità di dati
1
Introduzione
disomogenei può essere analizzata solo tramite software specialistici. In
questo contesto così vasto e complesso, risulta essenziale la capacità di far
collaborare i vari sistemi permettendo l’interazione e l’integrazione di un
numero maggiore di dati. Assume fondamentale importanza l’interoperabilità,
ovvero la capacità di un sistema o di un prodotto informatico di cooperare e di
scambiare informazioni o servizi con altri sistemi o prodotti, in maniera più o
meno completa e priva di errori, con affidabilità e con ottimizzazione delle
risorse.
Il Web Service è un sistema software progettato proprio per l’interoperabilità
fra diversi elaboratori, collegati in una medesima rete con l’obiettivo di facilitare
l'interazione fra sistemi differenti, nonché lo scambio e il riutilizzo delle
informazioni, anche fra sistemi informativi non omogenei.
In questa ottica l’obiettivo della tesi è quello di creare una coreografia di web
service all’ambito della proteomica clinica, con lo scopo di organizzare, capire
e utilizzare al meglio il relativo patrimonio di conoscenza.
Il lavoro parte da alcune richieste provenienti dai Dottori dell’Istituto Gaslini di
Genova che nell’analisi di file di proteine necessitano di specifiche informazioni
per i loro studi.
Il primo passo è stato quello di capire significato stesso dei dati, delle entità
che costituiscono il dominio della conoscenza in questione e delle relazioni che
intercorrono tra esse. Il risultato di questo lavoro di definizione semantica è la
possibilità di descrivere in maniera chiara e precisa il significato degli oggetti e
dei dati che rappresentano l’informazione, eliminando gli errori dovuti alla loro
sbagliata interpretazione. In particolare sono stati studiati i formati dei file dei
database interrogabili, per definire una mappatura delle informazioni che si
possono estrarre, in modo da essere facilitati nelle ricerche e nell’analisi dei
risultati.
Un’altra parte del lavoro consiste nell’incremento di alcune pagine del sito
Protmine New per permettere l’inserimento, la visualizzazione e l’estrazione,
mediante web services, di informazioni nuove rispetto a quelle già ricercate su
2
Introduzione
diverse proteine con l’obiettivo ambizioso di estrarre tutto ciò che possa essere
utile alla ricerca proteomica in forma, non ridondante, lineare, chiara e precisa.
L’ultima parte del lavoro prevede lo studio di diversi algoritmi di predizione
della struttura secondaria delle proteine con l’obiettivo di implementare un
sistema che permetta di individuare segmenti di una proteina con determinate
caratteristiche anche nel caso in cui non siano proteine note e quindi non vi
siano ancora informazioni su di esse nei database analizzati.
3
Capitolo 1 Informazioni Biologiche
CAPITOLO 1
INFORMAZIONI BIOLOGICHE
1.1. Proteine
Le proteine sono polimeri naturali composti da unità di amminoacidi legate tra
loro da legami ammidici (o peptidici) in combinazioni e numero variabili. Sono
sostanze essenziali per la struttura, il funzionamento e la riproduzione della
materia vivente.
Gli amminoacidi sono molecole organiche semplici che recano sullo stesso
carbonio (chiamato carbonio alfa) un gruppo acido carbossilico (COOH) e un
gruppo amminico (NH). La forma neutra di un amminoacido è in equilibrio con
2
+
una forma in cui un protone H si sposta dal gruppo acido a quello basico. Gli
amminoacidi conosciuti in natura sono venti e sono differenziati e classificati in
base al gruppo funzionale specifico (R) che hanno sul carbonio alfa. Il legame
peptidico si forma quando un gruppo amminico di un amminoacido si unisce al
gruppo acido del monomero adiacente, con conseguente perdita di una
molecola d’acqua (reazione di condensazione): due amminoacidi che si
uniscono formano un dipeptide, tre un tripeptide e così via. I polipeptidi aventi
un peso molecolare superiore a 10.000 dalton vengono comunemente
chiamati proteine.
Esistono degli amminoacidi definiti essenziali in quanto non possono essere
sintetizzati dall’uomo e devono essere assunti in forma di proteine, con la
dieta.
Gli amminoacidi presenti negli organismi viventi sono numerosissimi ma solo
venti di essi (tutti della serie stereochimica L) sono sottoposti al controllo
genetico nel processo di sintesi proteica.
4
-
Capitolo 1 Informazioni Biologiche
Figura 1.1: (1) amminoacido generico in forma neutrale; (2) amminoacido nella
forma fisiologica; (3) dipeptide – evidenziato è il legame peptidico.
. I 20 amminoacidi standard possono essere divisi in gruppi a seconda della
carica e della polarità delle loro catene laterali:
· Catene laterali neutre apolari: Alanina, Fenilalanina, Glicina,
Isoleucina, Leucina, Metionina, Prolina, Triptofano, Valina.
· Catene laterali neutre polari: Asparagina, Cisteina, Glutammina,
Serina, Tirosina, Treonina.
· Catene laterali cariche acide: Aspartato, Glutammato.
· Catene laterali cariche basiche: Arginina, Istidina, Lisina.
Gli amminoacidi standard hanno delle proprietà chimiche in comune:
· Sono tutti α-amminoacidi
· A pH fisiologico si trovano in forma di zwitterioni perché sono molecole
elettricamente neutre nel loro complesso, ma risultano
contemporaneamente ionizzato negativamente all'estremità acida e
positivamente all'estremità amminica.
· Presentano attività ottica e si trovano tutti nella forma L.
Per i venti amminoacidi essenziali sono di seguito elencati le seguenti
informazioni:
· Il simbolo convenzionale ad una lettera
· Il simbolo convenzionale a tre lettere
· Il nome
5
-
Capitolo 1 Informazioni Biologiche
· Il tipo di gruppo laterale R
· Il peso molecolare (PM)
· Il punto isoelettrico (pI)
· La costante di dissociazione acida del gruppo carbossilico (pK)
1
· La costante di dissociazione acida del sale del gruppo amminico (pK)
2
· La costante di dissociazione acida del gruppo R (pK), dove applicabile
r
Simbolo Nome Tipo di R PM pI pK pK pK
12r
A Ala Alanina idrofobo 89,09 6,11 2,35 9,87
C Cys Cisteina idrofilo 121,16 5,05 1,92 10,70 8,37
D Asp Acido aspartico acido 133,10 2,85 1,99 9,90 3,90
E Glu Acido glutammico acido 147,13 3,15 2,10 9,47 4,07
idrofobo
F Phe Fenilalanina 165,19 5,49 2,20 9,31
aromatico
G Gly Glicina idrofobo 75,07 6,06 2,35 9,78
H His Istidina basico 155,16 7,60 1,80 9,33 6,04
I Ile Isoleucina idrofobo 131,17 6,05 2,32 9,76
K Lys Lisina basico 146,19 9,60 2,16 9,06 10,54
L Leu Leucina idrofobo 131,17 6,01 2,33 9,74
M Met Metionina idrofobo 149,21 5,74 2,13 9,28
N Asn Asparagina idrofilo 132,12 5,41 2,14 8,72
P Pro Prolina idrofobo 115,13 6,30 1,95 10,64
6
-
Capitolo 1 Informazioni Biologiche
Q Gln Glutammina idrofilo 146,15 5,65 2,17 9,13
R Arg Arginina basico 174,20 10,76 1,82 8,99 12,48
S Ser Serina idrofilo 105,09 5,68 2,19 9,21
T Thr Treonina idrofilo 119,12 5,60 2,09 9,10
V Val Valina idrofobo 117,15 6,00 2,39 9,74
W Trp Triptofano idrofobo 204,23 5,89 2,46 9,41
Y Tyr Tirosina idrofilo 181,19 5,64 2,20 9,21 10,46
Fig. 1.2 Tabella che indica per ogni aminoacido il simbolo ad esso relativo e alcune
caratteristiche quali il tipo di gruppo laterale R, il peso molecolare (PM), il punto
isoelettrico (pI), la costante di dissociazione acida del gruppo carbossilico (pK), la
1
costante di dissociazione acida del sale del gruppo amminico (pK), la costante di
2
dissociazione acida del gruppo R (pK).
r
È bene chiarire innanzi tutto che una proteina nella sua organizzazione
nativa, e quindi funzionalmente attiva, può esistere solo in soluzioni saline
diluite (molto simili, per composizione, a quelle esistenti nei sistemi acquosi
cellulari). La sua struttura dipende esclusivamente dalle caratteristiche
chimico-fisiche della soluzione acquosa in cui si trova (pH, presenza di ioni
salini, temperatura, pressione, presenza di composti organici come urea, alcoli,
ecc.). Il variare di questi parametri può determinare delle modifiche nella
struttura (cambi strutturali o conformazionali), in grado di alterarne le proprietà
funzionali, fino ad annullarle (proteina denaturata).
Le proteine hanno un’organizzazione tridimensionale molto complessa cui è
associata sempre una funzione biologica.
La configurazione spaziale delle proteine si articola su quattro livelli, in
relazione tra loro:
7
-
Capitolo 1 Informazioni Biologiche
· struttura primaria: è formata dalla semplice sequenza completa degli
amminoacidi e dal numero di catene peptidiche da cui la proteina è
formata;
· Struttura secondaria: rappresenta la conformazione ordinata che
alcuni tratti di proteina possono assumere, sulla base della struttura
primaria. E’caratterizzata dalla presenza di ponti idrogeno fra i gruppi
del legame peptidico di residui non adiacenti, mentre non sono
direttamente coinvolte le catene laterali degli aminoacidi. All'interno
della stessa proteina, diversi tratti possono assumere la medesima
struttura secondaria o strutture secondarie differenti. Le principali
forme di strutture secondarie presenti nelle proteine sono l'α-elica e le
strutture β-foglietto.[1]
· struttura terziaria: è rappresentata dalla configurazione
tridimensionale che la catena polipeptidica assume nell'ambiente in cui
si trova;
· struttura quaternaria: deriva dall'associazione di due o più unità
polipeptidiche, unite tra loro da legami deboli (e a volte ponti disolfuro)
secondo uno schema molto specifico, come ad esempio avviene nella
costituzione dell'enzima fosforilasi, costituito da quattro sub-unità, o
dell'emoglobina, la molecola responsabile del trasporto dell'ossigeno
nell'organismo.
Una possibile classificazione per le proteine è in base alla loro funzione:
· proteine strutturali: sono componenti delle strutture permanenti
dell'organismo e svolgono principalmente una funzione meccanica (ad
esempio collagene ed elastina, presenti nella matrice dei tessuti
connettivi);
· proteine di trasporto: si legano (in genere con legami deboli) a
sostanze poco idrosolubili e ne consentono il trasporto nei liquidi
corporei (ad esempio, le proteine del sangue che trasportano i lipidi e il
ferro, nonché l'emoglobina che trasporta l'ossigeno). Molto importanti
8
-
Capitolo 1 Informazioni Biologiche
sono anche le proteine di trasporto delle membrane cellulari, che
permettono un passaggio selettivo di molecole idrosolubili e ioni;
· immunoglobuline: (dette anche anticorpi) sono proteine che si legano
a molecole normalmente non presenti nell'organismo, concorrendo alla
difesa dello stesso;
· enzimi: sono proteine catalitiche che accelerano enormemente la
velocità di specifiche reazioni chimiche, determinando quali, tra le
pressoché infinite reazioni che potrebbero avvenire tra le sostanze
presenti nell’organismo, avvengono realmente a velocità apprezzabile.
Di fatto, ogni molecola appena un po' complessa presente in un essere
vivente è prodotta da enzimi.
1.2 Peptidi
I peptidi sono molecole di peso molecolare inferiore ai 5.000 dalton, costituiti
da una catena di pochi amminoacidi (fino a 100 circa), uniti tra di loro
attraverso un legame peptidico (o carboamidico).
Alcune proteine sono formate da un solo peptide, altre da più peptidi
aggregati, altre ancora da uno o più peptidi uniti ad una molecola non
peptidica, detta gruppo prostetico.
Sono peptidi l'ossitocina (ormone neuroipofisario), le bradichinine
(antinfiammatorio tissutale), gli ormoni (o fattori) ipotalmici (che
favoriscono/inibiscono la sintesi di ormoni ipofisiari), il glutatione, le encefaline
(analgesici naturali prodotti nel sistema nervoso centrale).
Recenti scoperte hanno dimostrato che alcuni peptidi sono in grado di
modulare funzioni fisiologiche dell'organismo umano ed animale, per questo
definiti peptidi bioattivi. Tra le funzioni che essi possono svolgere ci sono
quelle antipertensive, immunomodulatorie, antimicrobiche, mineral carrier e
antivirali.
Il numero di peptidi che si possono formare dagli amminoacidi ordinari è
enorme. I residui costituiti da due, tre o quattro a più amminoacidi sono
9
-