Le banche dati e la sanità: l' esempio di Unified Medical Language System (UMLS)
Capitolo 1
Introduzione Il World Wide Web è ormai parte integrante della nostra vita. Molti di noi si servono
della Rete quotidianamente per diversi scopi, come reperire informazioni, consultare siti
oppure per acquistare e vendere prodotti.
L'esplosione della comunicazione è stato uno degli elementi che ha caratterizzato il
secolo appena concluso e il Web ha contribuito a tutto ciò in modo significativo.
Seguendo questa scia, il Web è entrato in contatto con l'universo della medicina creando
un solido rapporto. Questo rapporto, che si sta sviluppando ancora oggi a ritmi
esponenziali, permette la ricerca di nuove informazioni, elemento che spinge gli utenti a
navigare nella Web 1
. Una ricerca promossa da Google Health, ci svela come il Web vada
ad influenzare le scelte della professione medica , diventandone parte integrante 2
.
I ricercatori di Google, hanno sottoposto a 411 medici un questionario on-line molto
particolareggiato, scoprendo che:
• il 58% dei medici usa Internet per scopi professionali più di una volta al giorno
• il 73% considera Internet una parte essenziale della pratica clinica
• l’83% fa più affidamento su Internet oggi che in passato
• il 78% ritiene che Internet lo aiuti a svolgere meglio il suo lavoro
• il 69% ha fiducia nelle informazioni raccolte in Internet
• l’81% dell’utilizzo di Internet da parte dei medici riguarda i motori di ricerca,
• solo il 14% usa chat-room, social network e forum.
La ricerca ha evidenziato che Internet è la principale fonte di informazione per la salute
degli italiani. Le ricerche effettuate non sono causali, ma solitamente finalizzate alla
soluzione di un problema:
• il 60% degli utenti ha cercato informazioni sui farmaci per curare sé o altri.
• La rete è diventata il principale strumento nella ricerca di informazioni per i
cittadini (66%), per i medici (54%) e per i farmacisti (53%).
Proprio il Web è il luogo dove si possono reperire migliaia di informazioni, più o meno
1 Giancarlo Comi, Il Neurologo e Internet, Milano, Springer, 2002, p.44-45.
2 http://www.odontolex.it/professione-odontoiatra/97-internet-e-sanita.html
(Ultimo aggiornamento giovedì 10 Febbraio 2011)
1
Le banche dati e la sanità: l' esempio di Unified Medical Language System (UMLS)
facilmente, sotto forma di articoli full-text, riassunti e citazioni contenute in banche dati
bibliografiche. L a scelta della banca dati biomedica diviene fondamentale per l'utente
che ricerca informazioni. L'utente deve avere una buona conoscenza delle banche dati
che operano nel settore biomedico e solamente dopo questo passaggio, può effettuare
una scelta accurata per trovare le migliori informazioni.
Queste banche dati svolgono un lavoro altamente specializzato, visto che riescono a
dare in pochissimi secondi, migliaia di risposte alle richieste degli utenti.
L'utenza che usa queste banche dati non è omogenea, ma varia tra gli utenti definiti
“standard”, cioè quelli che ricercano informazioni varie e generali e gli utenti definiti
“professionisti del settore” come dottori o ricercatori.
Per diminuire la distanza tra l'utenza media e gli specialisti del settore, stanno
emergendo oggi in Italia (ma ormai da qualche decennio negli Stati Uniti) delle banche
dati biomediche davvero innovative, che semplificano sensibilmente il rapporto tra il
linguaggio specializzato e il linguaggio usato dagli utenti.
Questo lavoro di tesi si propone di analizzare in modo dettagliato, la banca dati
biomedica americana Unified Medical Language System 3
(UMLS), progetto partito nel
1986, disponibile come risorsa della National Library of Medicine 4
.
Lo scopo principale di UMLS è quello di unificare e associare le numerose terminologie
mediche, attraverso una grande rete di relazioni tra i termini che compaiono appunto
nelle terminologie, così da rispondere nel modo più adeguato possibile alle richieste
dell'utente. Il concetto che sta alla base è davvero innovativo, proprio perché UMLS si
propone di facilitare lo sviluppo dei sistemi di elaborazione, in modo tale che questi, si
comportino come se realmente riescano a “capire” il significato delle terminologie
biomediche che digitate nell'interfaccia dall'utente.
I sistemi di informatica medica, attualmente in fase di sviluppo, possono essere divisi in
due categorie:
1. sistemi terminologici , di cui ci occuperemo, che archiviano le informazioni
mediche, le recuperano selettivamente e le trasmettono (p.e. UMLS
5
,
SNOMED
6
)
3 http://www.nlm.nih.gov/research/umls/
4 http://www.nlm.nih.gov/
5 Lo scopo della NLM Unified Medical Language System (UMLS) è quello di agevolare lo sviluppo di
sistemi informatici che si comportano come se fossero "capire" il significato del linguaggio della
biomedicina e della sanità
6 SNOMED CT (Nomenclatura sistematizzata di Medicina - termini clinici) è una terminologia clinica,
2
Le banche dati e la sanità: l' esempio di Unified Medical Language System (UMLS)
2. sistemi di consulenza , che applicano le informazioni per aiutare i medici nella
diagnosi delle condizioni di un paziente (p.e. QMR
7
) o per proporre, controllare
e gestire un trattamento terapeutico (p.e. ROUNDSMAN) .
I progressi grazie ai quali questi sistemi di elaborazione risultano sempre più efficienti
riguardano sia hardware che software. L’accento è posto in particolare sullo sviluppo di
applicazioni software che permettono di trasferire nel calcolatore sia l’informazione sia
l’esperienza medica, in modo da rendere facilmente accessibili le informazioni e le
esperienze all'utente.
L’esigenza di sistemi terminologici nasce in parte dal fatto che per un medico (o per un
ricercatore in campo biomedico) risulta sempre più difficile leggere, memorizzare e
ricordare tutte le informazioni necessarie alla soluzione di un problema particolare.
Un esempio pratico abbastanza frequente, è quello nel quale troviamo un medico che
può non aver incontrato da mesi o da anni il sintomo di cui si lamenta il paziente e
nell’arco di quei mesi le tecnologie di diagnosi e di terapia possono essere cambiate 8
. I
medici hanno iniziato ad usare le banche dati biomediche proprio per rimanere sempre
aggiornati. L'esempio più noto è rappresentato senza dubbio dalla banca dati americana
MEDLINE
9
.
Il grande archivio della National Library of Medicine 10
(NLM) di Bethesda (nel
Maryland) , dove il sistema è stato sviluppato, conserva tutti i titoli degli articoli
biomedici, pubblicati negli ultimi 35 anni.
Questo progetto affonda le sue radici già nel 1860, pochi mesi prima della Guerra Civile
Americana, con l'Index Medicus sviluppato proprio a Bethesda.
originariamente creato dal “College of American Pathologists” (PAC) e, ad aprile 2007, di proprietà
(mantenuto e distribuito) dalla Internationa Healt Terminology Standards Development Organisation
(IHTSDO), un non-for-profit in Danimarca. La PAC continua a sostenere le operazioni di SNOMED CT
sotto contratto con la IHTSDO e fornisce prodotti legati SNOMED e servizi come licenziatario della
terminologia.
7 Quick Medical Reference (QMR) è una risorsa di informazioni che aiuta i medici a diagnosticare le
malattie degli adulti. Esso fornisce l'accesso elettronico a più di 750 malattie che rappresentano la grande
maggioranza dei disordini visto da internisti nella pratica quotidiana, nonché un compendio di meno
malattie comuni. http://www.openclinical.org/aisp_qmr.html 8 Maria Giovanna Ruberto, La medicina ai tempi del web. Medico e paziente nell'e-Health, Milano,
Franco Angeli Editore, 2011, p.92.
9 http://www.ncbi.nlm.nih.gov/pubmed/
10 http://www.nlm.nih.gov/
3
Le banche dati e la sanità: l' esempio di Unified Medical Language System (UMLS)
Ogni articolo è archiviato con parole chiave o etichette, detti tag 11
, scelti con cura in
modo da facilitare l'individuazione degli articoli da parte degli utenti 12
.
Esistono anche, sistemi di recupero delle informazioni, che permettono all’utente di
identificare all'interno di qualsiasi articolo delle frasi significative. Con l’aggiunta di
ulteriori capacità al suo repertorio, la banca dati diventerà pertanto il mezzo principale
per accedere alla letteratura biomedica. In questo modo, le biblioteche saranno viste
come sorgenti di informazioni specializzate. Ogni operatore del settore biomedico, potrà
attraverso il semplice utilizzo di un computer e di un modem, entrare in contatto con
una qualsiasi banca dati del mondo ed ottenere i dati cercati. Tuttavia, nonostante gli
evidenti vantaggi dell’informatizzazione delle conoscenze biomediche, esistono anche
diversi rischi, come per esempio quello di riutilizzare i dati clinici fuori dal loro
contesto originale, interpretandoli in modo parzialmente diverso da quello per cui erano
stati generati, creando così delle informazioni errate.
Occorre quindi assicurarsi che le espressioni usate dagli operatori sanitari siano
univoche, ben definite e il più possibile indipendenti dal contesto e soprattutto vengano
accettate da tutta la comunità medica. Una precisione estrema nella rappresentazione del
significato del dato clinico è fondamentale sia per il suo uso primario (durante la
fornitura di prestazioni al paziente), sia per i successivi ed eventuali riutilizzi, resi molto
più agevoli dai progressi del web 13
.
Accanto alla ricerca libera per termini, la banca dati può utilizzare i linguaggi cosiddetti
“artificiali” (tra cui i sistemi di codifica ed i vocabolari controllati), costruiti per
rappresentare e trasferire informazioni, in maniera efficace e per scopi definiti, in
ambienti ben caratterizzati.
Come viene giustamente sottolineato già nel sito,
Nel linguaggio medico interessano in particolare le cosiddette
“espressioni motivate”, cioè espressioni linguistiche che sono
formate da varie parole e che denotano nel loro complesso
11 Un tag è una parola chiave o un termine associato a un'informazione (un'immagine, una mappa
geografica, un post, un video clip) che descrive l'oggetto, rendendo possibile la classificazione e la ricerca
di informazioni basata su parole chiave. I tag sono generalmente scelti in base a criteri informali e
dipendono dagli autori dell'oggetto dell'indicizzazione.
12 Michael Kohler, Unified Medical Language System for Information Extraction: Computer Aided
Analyses of Medical Guidelines, Dusseldorf, V DM Verlag , 2008, p.15-16
13 Luca Giuliano, L' analisi automatica e semi-automatica dei dati testuali. Software e istruzioni per
l'uso, Milano, Led -Edizioni Universitarie, 2008, p.19-21.
4
Le banche dati e la sanità: l' esempio di Unified Medical Language System (UMLS)
concetti “unitari” particolarmente significativi per chi parla e
ascolta. Da un punto di vista linguistico i dati che devono
essere elaborati sono sintagmi terminologici del tipo:
“ulcera cronica sanguinante dello stomaco e severagastrite
atrofica, con presenza di compylobacter .
14
” Certamente non è possibile trovare già predefinite, in un qualsiasi sistema di uso
generale, espressioni motivate della complessità della precedente, e quindi occorre
trovare un compromesso tra lunghezza delle espressioni e quantità di voci considerate 15
.
I sistemi terminologici attualmente in uso, presentano diversi gradi di flessibilità che
permettono di esprimere in dettaglio concetti medici anche molto complessi. Per
esempio SNOMED CT
16
e il MeSH
17
sono sistemi flessibili perché vengono concepiti
per formare espressioni complesse, tramite giustapposizioni di codici o di parole chiave.
Ciò premesso, occorre affrontare l'ultimo argomento, forse quello più interessante e
meno esplorato, che riguarda la divisione che viene fatta delle banche dati biomediche
in primarie e secondarie:
“Le banche dati primarie raccolgono citazioni che traggono le
loro fonti direttamente dalla letteratura medica primaria, come
per esempio gli articoli pubblicati sulle principali riviste
biomediche. Le banche dati secondarie raccolgono informazioni
bibliografiche 18
.” Le banche dati primarie vengono utilizzate dalla comunità scientifica perché si basano
direttamente sulla letteratura medica e sulle citazioni di opere 19
. L'importanza di un
articolo, o di una pubblicazione scientifica, viene misurato in base alle citazioni che
riceve da altri studiosi del settore, creando così una sorta di ragnatela di pubblicazioni
14 http://www.tesionline.it/consult/preview.jsp?idt=5250&pag=3
15 Luca Giuliano, L' analisi automatica e semi-automatica dei dati testuali. Software e istruzioni per
l'uso, Milano, Led -Edizioni Universitarie, 2008, p.40-43.
16 http://www.nlm.nih.gov/research/umls/Snomed/snomed_main.html 17 Vocabolario di termini controllati (o descrittori o parole chiave) utilizzati nell’indicizzazione dei
documenti. I termini MeSH sono organizzati gerarchicamente in una struttura ad albero (MeSH Tree) che
permette la ricerca a vari livelli di specificità ed è sottoposto a continuo aggiornamento.
18 https://bibliomed.bib.uniud.it/news/risorse_e_servizi_della_biblioteca_di_medicina._definitivo_13_m
aggio.pdf
19 Nello Martini, L’uso delle banche dati biomediche, <<Bollettino d'Informazione sui Farmaci >>, 13,
(2006), n.3, p.137
5
Le banche dati e la sanità: l' esempio di Unified Medical Language System (UMLS)
davvero specializzate.
Le banche dati secondarie offrono la possibilità, ai professionisti della salute, di
padroneggiare l’enorme quantità di informazioni disponibili. Spesso, senza un metodo
di sintesi e di valutazione critica delle conoscenze, questi professionisti sono incapaci di
decidere quali nuove conoscenze introdurre nella loro attività per migliorarla e quali
delle vecchie conoscenze abbandonare. Per questo motivo hanno acquisito sempre
maggiore importanza le pubblicazioni secondarie, che si propongono di fornire una
sintesi rigorosa delle prove di efficacia e delle conoscenze disponibili su un determinato
argomento clinico. Nelle banche dati secondarie più efficienti, sono contenute
principalmente le revisioni sistematiche delle pubblicazioni originali e le linee guida
basate sulle prove di efficacia.
20
Le principali banche dati mediche sono:
MEDLINE 21 È la più completa e importante banca dati elettronica prodotta dalla National Library of
Medicine 22
(NLM). Copre la letteratura biomedica internazionale dal 1966 ad oggi nei
settori della medicina, infermieristica, odontoiatria, medicina veterinaria,
organizzazione sanitaria. MEDLINE contiene circa 15 milioni di referenze
bibliografiche (autori, titoli, referenze bibliografiche) e abstract relativi ad oltre 4.600
riviste biomediche pubblicate negli Stati Uniti e in altri 70 paesi del mondo. Buona
parte delle informazioni si riferiscono ad articoli di medicina clinica e quindi il database
rappresenta un valido strumento informativo per i differenti ambiti della medicina. Dal
giugno 1997, MEDLINE è consultabile gratuitamente nel Web attraverso PubMed 23
, con
l'aggiornamento quotidiano dei dati e l'inclusione delle informazioni recenti non ancora
indicizzate, attraverso PreMedline 24
. Il 1994 è un anno fondamentale per l'era digitale: il
presidente Bill Clinton e il suo vice Al Gore hanno dato l'avvio al programma
denominato "autostrade informatiche" nel settore delle telecomunicazioni 25
. Quella di
Internet è comunicazione globale, interattiva e in tempo reale.
20 http://www.biblio.unimib.it/upload/pag/21804308/f2/f2bdsecondarie.pdf
21 Brian S. Katcher, MEDLINE: a guide to effective searching in PubMed and other interfaces, San
Francisco, <<Ashbury Press >> , (2006), p.45-50.
22 www.nlm.nih.gov
23 www.ncbi.nlm.nih.gov/PubMed 24 http://nnlm.gov/psr/lat/v5n6/premedln.html 25 http://www.mcreporter.info/stampa/dallomo2.htm 6
Le banche dati e la sanità: l' esempio di Unified Medical Language System (UMLS)
EMBASE 26 (The Excerpta Medica Database)
È la banca dati bibliografica, prodotta da Elsevier Science 27
, specializzata in letteratura
medica nei settori della farmacologia e della tossicologia. Dal 1974 ha collezionato più
di 9 milioni di citazioni bibliografiche tratte da oltre 4.500 periodici internazionali,
molti dei quali non indicizzati da MEDLINE. EMBASE, rispetto a MEDLINE, contiene
in proporzione più letteratura europea ma non permette alcun tipo di accesso gratuito
tramite il web.
CINAHL Database 28 (Cumulative Index to Nursing and Allied Health Literature) È il più importante database dedicato alle scienze infermieristiche. I record si
riferiscono ad articoli, capitoli di libri, opuscoli, documenti audiovisivi, testi, software,
atti di convegni e sono incentrati anche su altre discipline come biomedicina, scienze
del comportamento, educazione e salute dei consumatori. Sono state indicizzate 1200
riviste dal 1982 ad oggi ma come per la banca dati precedente, non esiste una versione
gratuita.
COCHRANE LIBRARY 29 Cochrane Library è il nome di una pubblicazione elettronica, aggiornata ogni tre mesi,
che riprende il lavoro svolto dalla Cochrane Collaboration 30
. Sono consultabili gli
abstract delle ultime review disponibili, mentre per avere l’articolo in versione integrale
occorre abbonarsi. Cochrane Library rende disponibili review sistematiche e studi
clinici randomizzati, riguardanti trattamenti farmacologici, diagnosi e screening,
promozione della salute e organizzazione dei servizi ma non sono presenti linee guida e
monografie.
La Cochrane Library è composta di molti database tra cui:
• The Cochrane Database of Systematic Reviews 31
(CDSR) è il database che
raccoglie le revisioni sistematiche di studi clinici randomizzati, completate dalla
Cochrane Collaboration, e i protocolli di quelle in fase di lavorazione. Spesso i
26 http://www.embase.com/
27 http://www.elsevier.com/wps/find/homepage.cws_home 28 http://www.ebscohost.com/cinahl/
29 http://www.thecochranelibrary.com/view/0/index.html 30 La Cochrane Collaboration è una iniziativa internazionale no-profit nata con lo scopo di raccogliere,
valutare criticamente e diffondere le informazioni relative alla efficacia ed alla sicurezza degli interventi
sanitari.
31 http://resources.library.ubc.ca/231
7
Le banche dati e la sanità: l' esempio di Unified Medical Language System (UMLS)
dati vengono combinati statisticamente, attraverso la tecnica della “meta-
analisi 32
”, per raggiungere risultati più affidabili 33
. Gli abstract delle revisioni e i
titoli dei protocolli sono disponibili gratuitamente nel web, mentre per il full-text
delle revisioni, regolarmente aggiornate, bisogna abbonarsi.
• The Database of Abstract of Reviews of Effectiveness 34
(DARE) contiene
oltre 5.500 abstract strutturati e citazioni di revisioni sistematiche, pubblicate
sulle maggiori riviste mediche. Inoltre vengono sottoposte ad una verifica di
qualità metodologica da parte del NHS Centre for Reviews and Dissemination 35
,
un’organizzazione che nel Regno Unito riveste un ruolo chiave nella
promozione della Evidence-Based Health Care, ed è disponibile gratuitamente
su Internet.
• The Cochrane Central Register of Controlled Trials 36
(CCTR/CENTRAL) è
un registro di tutti i trial 37
clinici, identificati dai gruppi di revisione Cochrane,
tramite la ricerca manuale delle riviste biomediche internazionali, allo scopo di
creare un database specializzato ed esaustivo degli studi clinici controllati. La
ricerca dei trial viene fatta sulle maggiori banche dati (MEDLINE, EMBASE,
PSYCHINFO, CINAHL). CENTRAL si basa sull’esame sistematico di atti dei
congressi e su molte altre fonti non incluse in MEDLINE, EMBASE o in altre
banche bibliografiche.
• The Cochrane Review Methodological Database 38
(CRMD) e The Cochrane
Methodology Register 39
(CMR) sono rispettivamente un archivio di revisioni
sistematiche e protocolli di studi metodologici (CRMD) e una raccolta di testi
sui metodi di conduzione delle revisioni sistematiche (CMR). Entrambi hanno lo
scopo di riassumere la base empirica della metodologia utilizzata.
32 La meta-analisi è una tecnica clinico-statistica, che consente di assemblare i risultati di più trial di uno
stesso trattamento in un unico risultato cumulativo.
33 Joseph Lau et al. Cumulative meta-analysis of clinical trials builds evidence for exemplary medical
care . <<Journal of Clinical Epidemiology >> , (1995), p. 45-57.
34 http://www.brad.ac.uk/library/elecinfo/dare.php
35 http://www.york.ac.uk/inst/crd/
36 http://www.library.auckland.ac.nz/databases/learn_database/public.asp?record=cctr 37 Sebbene vi siano numerose definizioni per il termine “trial clinico”, esso è generalmente considerato
uno studio biomedico o salute-correlato sull'uomo che segue dei protocolli predefiniti. Esistono trial in
cui vi è l'intervento diretto dei ricercatori attraverso la somministrazione di farmaci o altre sostanze, con
successiva valutazione degli effetti. Sul versante opposto esistono studi basati soltanto sull'osservazione,
senza alcun intervento diretto dei ricercatori che si limitano ad operare osservazioni e misurazioni.
www.fsma.it 38 http://www.acronymfinder.com/Cochrane-Review-Methodology-Database-%28CRMD%29.html 39 http://cmr.cochrane.org/
8
Le banche dati e la sanità: l' esempio di Unified Medical Language System (UMLS)
• The NHS Economic Evaluation Database 40
(NHS EED) è un registro di circa
13.900 pubblicazioni su valutazioni economiche inerenti interventi di assistenza
sanitaria, a cura del NHS Centre for Reviews and Dissemination britannico. I
record includono un abstract strutturato e una valutazione qualitativa, oltre a
considerazioni sulle implicazioni pratiche per la sanità pubblica.
• Health Technology Assessment Database 41
(HTA) contiene oltre 3900 record
di valutazioni di carattere medico, sociale, etico ed economico di tecnologie
sanitarie, sviluppate da membri dell’International Network of Agencies of
Health Technology Assessment 42
.
• Banche dati di linee-guida 43
: La produzione internazionale di linee-guida (LG)
viene effettuata da società scientifiche, da agenzie governative e di technology
assessment. Tuttavia, solo alcune LG vengono pubblicate sulle riviste ed
indicizzate nelle banche dati primarie, ma la maggior parte di esse è
difficilmente accessibile. Oggi, le maggiori istituzioni deputate alla produzione
di LG forniscono gratuitamente su internet le loro banche dati. Ecco le
principali:
1. The National Library of Medicine Health Services/Technology
Assessment Text 44
(HSTAT) Collection 45
: È la banca dati più prestigiosa,
che comprende diversi database come:
a) the Agency for Health Care Policy and Research (AHCPR)
b) Supported Guidelines
c) AHCPR Evidence Reports,
d) AHCPR Technology Assessments and Reviews,
e) AIDS Treatment Information Service (ATIS Publications)
f) National Institute of Health (NIH) Clinical Studies g) NIH Consensus Development Program,
h) Guide to Clinical Preventive Services (2nd edition, 1996)
i) SAMHSA/CSAT Treatment Improvement Protocol.
40 http://www.bmj.com/content/321/7252/32.full 41 http://www.dimdi.de/static/en/db/dbinfo/inahta.htm 42 http://www.dimdi.de/static/en/db/dbinfo/producer/inahta.htm 43 http://www.aosp.bo.it/reparti_servizi/evidencebasednursing/bd_lg2.htm 44 http://hstat.nlm.nih.gov
45 http://www.ncbi.nlm.nih.gov/books/NBK16710/
9