4
1..Introduzione
1.1. La bioinformatica
“La bioinformatica si occupa dello sviluppo di metodi computazionali per studiare
la struttura, la funzione e l’evoluzione dei geni, delle proteine e di interi genomi;
inoltre, allo stesso tempo fornisce dei metodi per la gestione e l’analisi di
informazioni biologiche che derivano da esperimenti compiuti su scala
genomica”( Higgs e Attwood).
La bioinformatica fornisce un completamento della biologia molecolare fornendo
ad essa gli strumenti per una analisi in silico delle informazioni che riguardano
genomi, geni e i loro prodotti.
In quest’ottica, la definizione di bioinformatica può essere modernamente
rielaborata come biologia molecolare computazionale, che usa tecniche
computazionali per studiare strutture, funzioni, regolazioni, reti di interazioni di
geni e proteine, prefiggendosi come fine ultimo quello di analizzare e predire la
funzione, l’organizzazione, la regolazione e il funzionamento degli interi genomi
dei diversi organismi.
Gli ultimi successi nello sviluppo di tecniche di sequenziamento ha permesso di
ottenere in breve tempo una incommensurabile quantità di dati biologici
impossibile da gestire sia nell’ archiviazione che nella messa a disposizione del
mondo scientifico, senza l’ausilio di specifici strumenti, i quali sono forniti proprio
dalla bioinformatica.
La gestione dei dati è affidata a consorzi, essi organizzano e curano specifici
databases che racchiudono informazioni biologiche sia provenienti da studi
sperimentali diretti che disponibili in letteratura.
La bioinformatica fornisce, inoltre, strumenti per l’analisi dei dati biologici che
offrono un supporto indispensabile sia per l’interpretazione dei risultati
sperimentali che per la pianificazione di nuovi studi.
Nello scenario delle scienze della vita la bioinformatica irrompe come un nuovo
approccio agli studi biologici in cui l’analisi in vitro è pianificata e supportata dalla
possibilità sia di avere accesso in modo facile e veloce a una grande quantità di
5
informazioni che di avere la possibilità di analizzare grandi quantità di dati in tempi
più che ragionevoli utilizzando strumenti di analisi con solide basi razionali.
1.2. Banche dati biologiche
Nel 1982 l’European Molecular Biology Laboratory (EMBL) istituì la prima base
di dati di sequenze nucleotidiche, l’EMBL nucleotide sequence database, cui
seguirono nel 1983 il database americano GenBank e nell’ anno successivo il
database giapponese DNA DataBank of Japan (DDBJ). In seguito i tre centri autori
dei tre database, attraverso un accordo internazionale, INSDC (International
Nucleotide Sequence Database Collaboration), decisero di condividere le proprie
informazioni al fine di allineare i contenuti delle tre basi di dati.
Contemporaneamente alla nascita di database contenenti informazioni di sequenza,
i Brookhaven National Laboratories fondarono nel 1971 il Protein Data Bank
(PDB), un archivio per il mantenimento e la fruizione delle strutture tridimensionali
delle macromolecole biologiche, ottenute attraverso cristallografia a raggi X e
NMR.
Dopo molti anni a tale progetto americano ne è seguito uno europeo presso EBI
(European Bioinformatics Istitute). Questo progetto è l’MSDSM (Macromolecular
Structure Group Search Database) che è servito per l’acquisizione e il
mantenimento di dati riguardanti alle strutture di macromolecole biologiche.
Tali database sono detti per motivi storici e pratici database primari, ossia
database che annoverano le sequenze rese disponibili dalla comunità scientifica e
pochi altri dati che riguardano autori, dati, specie e descrizioni. A tali banche dati
si aggiungono i database secondari, in cui l’informazione contenuta rappresenta
una riorganizzazione dell’informazione presente nei database primari. Oltre a ciò
esistono i database specializzati i quali riorganizzano secondo specifici criteri una
6
parte dell’informazione contenuta nei database primari e secondari. Infine esistono
banche dati in cui le informazioni contenute seguono il criterio della natura chimica
del dato biologico; si possono pertanto riconoscere database nucleotidici, proteici,
strutturali, genomici etc.
Tali database utilizzano portali di accesso che consentono una catalogazione
specialistica dei dati evitando una frammentazione eccessiva del’ informazione
disponibile (esempi di tali portali di accesso sono ENTREZ e SRS).
Nella bancadati Genbank le informazioni sono riportate nel formato Flat File, un
tipo di file che contiene una informazione scritta in testo semplice, nel file
esistono delle sequenze di caratteri che individuano singole records
1
. Le records
rappresentano le unità di memorizzazione del database. In ciascuna record
esistono delle parole chiave che permettono id individuare i campi di quella
record.
In genere esiste un campo ID che identifica in modo univoco una specifica
record. Un Flat file di un database biologico contiene migliaia di record. Pertanto
per ottimizzare la ricerca di un indice è eseguita una indicizzazione, cioè si
preparano degli indici per tutti i possibili valori dei campi principali e la
posizione corrispondente del file. Gli indici sono file molto piccoli e possono
essere usati come substrato per effettuare delle ricerche con dei sistemi euristici
che rendono la ricerca molto veloce.
1.2.1. Genbank
Il GenBank è uno dei database primari e inoltre rappresenta il nodo americano di
INSDC. GenBank include una vasta gamma di annotazioni biologiche e
bibliografiche, oltre che strumenti bioinformatici per l’analisi. GenBank è
1
Record è una struttura di dati contenente un insieme di informazioni composite (che contengono un
insieme di campi), ciascuno dei quali è identificato da un nome e un tipo di dato. Nei database relazionali
un record è detto “tupla”.
7
realizzato e mantenuto dal National Center for Biotechnology Information (NCBI),
tuttavia è un database ridondante.
NCBI fornisce, quale portale di accesso a Genbank, ENTREZ che collega GenBank
attraverso riferimenti crociati alla letteratura scientifica, a mappe genomiche, a
banche dati proteiche e strutturali come PDB, a dati di espressione, tassonomici
etc, costituendo un sistema integrato.
Le entry in GrnBank sono tradizionalmente organizzate in divisioni che
corrispondono:
1. a gruppi tassonomici, come Batteri (BCT), Virus (VRL), Primati (PRI) etc;
2. a specifici metodi sperimentali, come sequenziamento di campioni
ambientali (ENV), EST, Next generetion sequenze.
Al fine di rendere più veloce e specifica la ricerca nelle divisioni, NCBI ha
raggruppato le sequenze in tre componenti principali: EST component, GSS
component (sequenze derivanti da progetti genomici), core nucleotide component
(restanti sequenze nucleotidiche).
Lo storico formato di GenBank è il Flat File. Nel Flat File di GenBank i codici non
sono abbreviati e indicano la tipologia delle informazioni contenuta nelle righe e
nella formattazione della sequenza stessa. In Genbank è presente anche il formato
FASTA
2
.
2
Formato FASTA è un test-based format che rappresenta sequenze nucleotidiche o proteiche, in cui la
sequenza è mostrata usando codici di sola lettura. Il formato presenta i nomi delle sequenze e commenti
che precedono le sequenze. Il formato originariamente è nato per il pacchetto softweres di FASTA ma ora
è un formato standard della bioinformatica.
8
Di seguito è riportato un esempio di GenBank Flat File, il Flat file si riferisce al
gene della ciclina D2;1 di Arabidopsis thaliana.
LOCUS NC_003071 2371 bp DNA linear CON 30-SEP-2016
DEFINITION Arabidopsis thaliana chromosome 2 sequence.
ACCESSION NC_003071 REGION: complement(9553797..9556167)
VERSION NC_003071.7
DBLINK BioProject: PRJNA116
BioSample: SAMN03081427
Assembly: GCF_000001735.3
KEYWORDS RefSeq.
SOURCE Arabidopsis thaliana (thale cress)
ORGANISM Arabidopsis thaliana
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; eudicotyledons; Gunneridae;
Pentapetalae; rosids; malvids; Brassicales; Brassicaceae;
Camelineae; Arabidopsis.
REFERENCE 1 (bases 1 to 2371)
gene 1..2371
/gene="CYCD2;1"
/locus_tag="AT2G22490"
/gene_synonym="ATCYCD2;1; Cyclin D2;1; F14M13.11;
9
F14M13_11"
/note="encodes a D-type cyclin whose transcription level
is regulated by sucrose but not phytohormones or nitrate.
Protein physically interacts with CDC2A. CycD2 kinase
activity is regulated by sequestration of CycD2 protein in
a form inaccessible to immunoprecipitation and probably
not complexed to CDC2A."
/db_xref="Araport:AT2G22490"
/db_xref="GeneID:816782"
/db_xref="TAIR:AT2G22490"
mRNA join(23..612,853..939,1022..1120,1223..1418,1536..1663,
1751..2365)
NM_127815 1740 bp mRNA linear
ORIGIN
1 ctctgtattt tccatttcga gtctgtggag tggtctctcc cctctctacc ctaaaacaca
61 ctcacccact ttcctctgta taagcctctc tctcctctct cttctcctct gccatgaaaa
121 tcgcagttcc tcaagacaaa acctcctcag aaatctccca tctttgatga cttttgcttc
181 cttagttttc actttcttgt ccgaacgctc tcaaaaactt tgagaccacc ccaataaacg
241 aattaaacag actattatca atcaatacac aacacaacaa tcaaaccaaa ccccatggct
301 gagaatcttg cttgtggtga aaccagcgag tcatggatca ttgacaacga cgatgatgat
361 atcaactatg gcggcggatt tacgaacgag attgattaca atcaccaact ttttgctaaa
421 gacgacaact ttggcggcaa cggatcaatt ccgatgatgg gttcttcttc atcgtccttg
481 agtgaagaca gaatcaaaga gatgttggtg agagagattg agttttgccc tggaactgat
541 tatgttaaga gattgctttc tggtgatttg gatttgtctg ttcgaaacca agctcttgat
601 tggattctaa aggtttgtgc tcattaccat tttggacatc tgtgcatatg cctatccatg
661 aactacttgg atcggttctt aacatcctat gaattgccga aagacaagga ttgggctgct
721 cagttactag ctgtgtcttg cttatcatta gcatccaaaa tggaagaaac tgatgtgcct
10
781 cacattgttg atttacaggt ggaagatccc aagtttgttt ttgaggccaa aacaataaaa
841 aggatggagc ttttggttgt caccactttg aattggagat tgcaagctct aactccattc
901 tccttcattg attatttcgt tgacaagatc agtggtcacg tgtcggagaa tttgatctat
961 agatcgtcaa gattcatctt aaacaccacc aaagcaattg aattcttaga cttcaggcct
1021 tctgagatag ctgcagctgc tgcagtgtct gtttccattt caggagaaac agaatgcatt
1081 gatgaggaaa aggcactgtc tagtctcata tatgtaaaac aggagagggt gaagagatgt
1141 ttgaatctga tgagaagtct cactggggag gagaatgtgc ggggaactag tttatcgcag
1201 gagcaggcgc gagttgcggt aagagctgta cctgcaagtc cagttggagt gttggaagca
1261 acatgtttga gctataggag tgaagagaga acagttgagt catgtacaaa ttcctcacag
1321 agtagtccag acaacaacaa caacaacaac aacagcaaca agaggaggag aaaacaatga
1381 gagagaataa aagagtcata cattgctttt tacaacccaa aaccacaagt actcatgaca
1441 tttgaggttc ttatttattt ttttggtttt ttttttctac ataaattttc tttttctttc
1501 tttgatttct cattttcaat ctgaaaattg gattgaatat gagagttttg tgagaaagga
1561 aaaaagaaaa taagagagag agagagagct ctttggaagg cggcaaaatt aataagtcat
1621 tattgatgat gatgagagac atccctgttc ttgctccaag ggactttttt ttttctacat
1681 aatgtcagag atataattaa aaaaaaaaga aatagaaaga gaattaattt tatgattttt
//
CDS join(295..612,853..939,1022..1120,1223..1418,1536..1663,
1754..2011)
/protein_id="NP_179835.1"
/db_xref="Araport:AT2G22490"
/db_xref="GeneID:816782"
/db_xref="TAIR:AT2G22490"
/translation="MAENLACGETSESWIIDNDDDDINYGGGFTNEIDYNHQLFAKDD
NFGGNGSIPMMGSSSSSLSEDRIKEMLVREIEFCPGTDYVKRLLSGDLDLSVRNQALD
WILKVCAHYHFGHLCICLSMNYLDRFLTSYELPKDKDWAAQLLAVSCLSLASKMEETD