Introduzione
II
l’esperienza medica in modo da rendere facilmente accessibili quelle informazioni e
quelle esperienze al medico utente.
L’esigenza di sistemi terminologici nasce in parte dal fatto che per un medico (o
per un ricercatore in campo biomedico) è sempre più difficile leggere, memorizzare e
ricordare tutte le informazioni necessarie alla soluzione di un problema particolare
[Rennels 87]. Un medico può non aver incontrato da mesi o da anni il sintomo di cui si
lamenta il paziente, o la malattia che lo affligge: e nell’arco di quei mesi o di quegli
anni le tecnologie di diagnosi e di terapia possono essere cambiate. Perciò i medici
hanno cominciato a usare basi di dati di letteratura biomedica, o sistemi di recupero di
informazioni bibliografiche, dei quali negli Stati Uniti MEDLINE è l’esempio più noto.
Il grande archivio della National Library of Medicine di Bethesda, dove il sistema è
stato sviluppato, conserva praticamente tutti i titoli degli articoli pubblicati nel mondo
negli ultimi 35 anni su temi biomedici, nonché i riassunti completi dei più recenti. Ogni
articolo è archiviato con parole e frasi chiave scelte con cura, in modo che sia
relativamente facile individuare gli articoli che possono interessare e poi chiedere di
vederne i riassunti. Esistono inoltre sistemi di recupero di informazioni bibliografiche
che archiviano anche tutto il testo degli articoli e permettono all’utente di identificare
frasi significative all’interno di qualunque articolo.
Con l’aggiunta di ulteriori capacità al suo repertorio, il calcolatore diventerà il
mezzo principale per accedere alla letteratura biomedica e alle basi di dati di patologia,
delle quali saranno responsabili le biblioteche. Esse non saranno più viste come edifici
pieni di libri e di periodici, ma come sorgenti distribuite di informazioni. Questa
concezione in effetti non è in conflitto con il modello tradizionale che considera le
biblioteche mediche come centri di informazione: semplicemente, le nuove tecnologie
permettono a quel modello di valicare i confini delle strutture fisiche [Rennels 87].
Quanto più queste sorgenti di informazione sono facilmente accessibili tanto più
se ne possono trarre vantaggi. Mediante le risorse offerte dalla tecnologia informatica
gli orizzonti della acquisizione dei dati non si limitano al panorama locale, ma varcano i
confini naturalmente imposti dalla geografia e dai mezzi di trasporto. Mediante Internet
ogni operatore del settore biomedico attraverso un personal computer e un modem può
entrare in contatto con una qualsiasi banca dati per attingere i dati di cui necessita.
Introduzione
III
I sistemi terminologici
In sostanza i sistemi informativi sanitari basati sul calcolatore permettono di
estendere nel tempo la riutilizzabilità dei dati clinici, mentre i progressi della telematica
permettono di accedere a dati memorizzati in sistemi remoti. Tuttavia nonostante gli
evidenti vantaggi dell’informatizzazione delle conoscenze biomediche esiste il rischio
di riutilizzare i dati clinici (codici, termini, espressioni in testo libero) fuori dal loro
contesto originale, senza convertirli da un ambiente ad un altro, interpretando quindi i
dati in modo parzialmente diverso da quello per cui erano stati generati. Occorre quindi
assicurarsi che le espressioni per gli operatori sanitari siano univoche e ben definite e il
più possibile indipendenti dal contesto, in modo accettato da tutta la comunità medica
nel suo complesso. Una precisione estrema nella rappresentazione del significato del
dato clinico è fondamentale sia per il suo uso primario (durante la fornitura di
prestazioni al paziente), sia per i successivi eventuali riutilizzi (in situazioni e contesti
diversi), resi molto più agevoli dai progressi della telematica. Il calcolatore è in grado di
memorizzare e restituire frasi i testo libero in genere senza elaborarle. Accanto al testo
libero il calcolatore può utilizzare i linguaggi artificiali (tra cui i sistemi di codifica ed i
vocabolari controllati), costruiti per rappresentare e trasferire informazioni, in maniera
efficace e per scopi definiti, in ambienti ben caratterizzati.
Nel linguaggio medico interessano in particolare le cosiddette “espressioni
motivate”, cioè espressioni linguistiche che sono formate da varie parole e che denotano
nel loro complesso concetti “unitari” particolarmente significativi per chi parla e ascolta
[Bondi 95]. Da un punto di vista linguistico i dati che devono essere elaborati sono
sintagmi terminologici del tipo: ulcera cronica sanguinante dello stomaco e severa
gastrite atrofica, con presenza di compylobacter.
Certamente non è possibile trovare già predefinite in un qualsiasi sistema di uso
generale, espressioni motivate della complessità della precedente; occorre infatti trovare
un compromesso tra lunghezza delle espressioni e quantità di voci considerate. I
sistemi terminologici attualmente in uso presentano diversi gradi di flessibilità e alcuni
permettono di esprimere nei dettagli concetti medici anche molto complessi. Per
esempio SNOMED e MeSH sono sistemi flessibili: sono stati concepiti per formare
espressioni complesse, tramite giustapposizioni di codici o di parole chiave.
Riprendendo l’espressione motivata riportata prima, in SNOMED può venire codificata
Introduzione
IV
in questo modo: T-57000 (stomaco), M-38021 (ulcera cronica sanguinante), G-C002
(associato a), D5-32520 (gastrite cronica), G-A003 (severa), G-A211 (anormale
presenza di), L-13500 (compylabacter).
Fatta questa premessa generale passeremo ora a descrivere le diverse
generazioni di sistemi terminologici. Attualmente convivono assieme una prima
generazione di sistemi terminologici (sistemi tradizionali), una seconda generazione
(sistemi composizionali) ed una terza generazione (sistemi formali). Prima di
esaminare le caratteristiche e le possibilità delle tre di generazioni di sistemi osserviamo
che una collezione di termini, espressioni e concetti può essere organizzata in diversi
modi che vanno di volta in volta sotto il nome di: classificazione, nomenclatura,
thesaurus, dizionario, glossario, vocabolario controllato. Tali nomi non sono
intercambiabili, ma nemmeno indicano sistemi completamente differenti: essi
rappresentano archetipi di particolari strutture e funzionalità, che vengono poi
effettivamente riscontrate, variamente miscelate, nei sistemi terminologici reali. Quasi
tutte le funzionalità sono infatti presenti con diversa enfasi in tutti gli strumenti; è
l’importanza relativa di ognuna all’interno di un dato sistema terminologico che fa
attribuire a quest’ultimo il suo specifico nome.
Sistemi di prima generazione
Nonostante i sistemi di prima generazione non presentino possibilità di
elaborazione sulla semantica, essi sono in grado di soddisfare le necessità fondamentali
richieste ad una applicazione su calcolatore [Galeazzi 97b]. Le componenti tipiche sono
liste di sintagmi, liste di codici, almeno una “tabella di codifica” che mette in relazione
gli elementi dei due tipi di liste precedenti ed eventualmente gerarchie su sintagmi e
codici. Il problema principale dei sistemi tradizionali è che applicano una
classificazione enumerativa dei termini. Con questo sistema di classificazione,
un’apparente modesta crescita nel potere espressivo di un sistema di codifica può
produrre una crescita nel numero dei termini e delle relazioni [Bondi 95].
Consideriamo ad esempio di dover rappresentare la lateralità di una parte del
corpo e di utilizzare i seguenti 5 valori: bilaterale, destra, sinistra, unilaterale non
specificata, non specificata. Se vogliamo rappresentare espressioni motivate con tre
diversi tipi di dettagli di questo genere, ognuno dei quali con 5 alternative, per 100
Introduzione
V
concetti-base, avremo 100 υ 5 υ 5 υ 5 =12.500 espressioni diverse (ottenute
combinando opportunamente i 100 + 5 + 5 + 5 = 115 concetti originari “elementari”).
Cioè aggiungendo concetti elementari si moltiplicano le possibilità di combinazione.
In SNOMED l’approccio multiassiale
1
permette di ridurre drasticamente il
numero di voci elementari considerate, pur mantenendo una grande flessibilità; il prezzo
da pagare è che per esprimere compiutamente l’unità concettuale relativa ad un
espressione motivata è necessario usare contemporaneamente un numero variabile di
codici, a seconda della complessità dell’espressione stessa.
PRIMA GENERAZIONE
ξ presentazione:
liste sistematiche (tipicamente con codici)
indice alfabetico
ξ organizzazione:
prefissata (tipicamente una gerarchica ad albero)
ξ obiettivi:
dedicato ad una singola applicazione
ξ flessibilità ed estendibilità:
NO; lista predefinita di espressioni consentite
ξ elaborazioni sulla semantica:
NO; solo memorizzazione, trasmissione e recupero di stringhe e codici
Tabella 1. Caratteristiche dei sistemi tradizionali.
1
Si dice multiassiale un concetto scomponibile in più termini medici (unità semantiche) ognuno riferibile ad un
solo “asse”, cioè appartenente ad un solo argomento.
Introduzione
VI
Sistemi di seconda generazione
I sistemi di seconda generazione sono costituiti da quattro componenti.
1. Struttura delle categorie. Viene descritta mediante categorie semantiche,
collegamenti semantici e sequenze (pattern) strutturali.
2. Cross-thesaurus. Si tratta di un insieme di descrittori provenienti
dall’analisi di diversi sistemi di prima generazione integrati e organizzati in
base alle categorie del componente 1.
3. Liste di sintagmi. Si tratta di liste di prima generazione che richiedono
risorse per manutenzione nel tempo e adattamenti all’ambiente locale.
4. Base di conoscenza delle dissezioni. In esse ogni sintagma del componente
3. è rappresentato dai descrittori del componente 2., in base alle sequenze
strutturali del componente 1.
Questi nuovi sistemi terminologici, concepiti esplicitamente per il calcolatore (e
non per una rappresentazione cartacea come quelli di prima generazione), elaborano i
dettagli delle informazioni e sono mappabili tra loro mediante l’utilizzo delle dissezioni.
Mediante un’appropriata metodologia, la seconda generazione di sistemi può fungere da
sistema di riferimento ed accogliere al suo interno vari sottosistemi di prima
generazione da usare nella routine quotidiana dei sistemi informativi clinici, o per
l’assegnazione dei dati nei sistemi decisionali sanitari, delegando ogni sottosistema ad
assolvere funzionalità particolari (tipicamente classificazioni e nomenclature settoriali)
[Rossi Mori 97].
I sistemi di seconda generazione sono anche detti composizionali in quanto
permettono di ottenere nuovi descrittori combinando tra loro descrittori predefiniti. In
essi ogni frase dovrebbe corrispondere ad un’unica sequenza di descrittori uniti da
relazioni semantiche [Rossi Mori 95a]. Tali sistemi, quindi, rappresentano i dettagli in
modo dinamico e voci simili dei diversi sistemi sono convertibili da un sistema all’altro
in modo semiautomatico. La sequenza di descrittori può essere usata per costruire nomi
sistematici (espressioni terminologiche motivate, costruite secondo regole predefinite);
con una ulteriore normalizzazione e con l’aggiunta di adeguate regole, permette di
Introduzione
VII
costruire forme canoniche per la classificazione automatica e per la mappatura tra
sistemi [Rector 94a; Rector 95b; Rector 95].
SECONDA GENERAZIONE
ξ presentazione:
struttura delle categorie + cross-thesaurus + liste (classificazioni,
nomenclature, ...) + base di conoscenza delle dissezioni
ξ organizzazione:
dinamica ( gerarchica multipla)
ξ obiettivi:
multipli
ξ flessibilità ed estensibilità:
nuovi elementi e loro nuove combinazioni possono
essere aggiunte dagli utenti
ξ elaborazione sulla semantica:
(usando struttura delle categorie e dissezioni)
raggruppamento di sintagmi in base a criteri predefiniti
estensione strutturata di liste
estrazione e riorganizzazione dei dettagli
interfacce strutturate per data entry
Tabella 2. Caratteristiche dei sistemi composizionali.
Sistemi di terza generazione
I sistemi di terza generazione utilizzano per la rappresentazione dei concetti dei
modelli formali. Un modello formale fornisce un insieme di simboli e un insieme di
regole formali per la loro manipolazione. Ogni concetto in un modello formale è
rappresentato da un’unica forma canonica, costituita da simboli. I modelli sono
progettati per permettere ad un motore inferenziale di manipolare i simboli in modo tale
che questi si comportino in modi che corrispondano all’uso umano dei concetti da essi
rappresentati [Rossi Mori 97]. I modelli formali includono tutti i costrutti definiti per la
Introduzione
VIII
seconda generazione, ma senza soluzione di continuità. Per esempio, non vi è
distinzione tra le categorie, i descrittori, i concetti compositi: essi sono tutti “concetti”
che possono essere manipolati dal motore. Similmente non c’è distinzione fra sequenze
strutturali e dissezioni: sono tutti manipolati come “forme canoniche”. Mediante
l’ausilio dei modelli formali i sistemi di terza generazione svolgono più efficientemente
tutti i compiti dei sistemi di seconda generazione. Il formalismo permette di verificare la
coerenza di un modello, di propagare proprietà e relazioni, di predisporre una struttura
di categorie robusta e universale, di riutilizzare parti di un sistema in diversi domini
semantici. Tuttavia i sistemi di seconda generazione rivestono una grande importanza,
perché la maggiore familiarità degli esperti medici con l’approccio composizionale
rende poi relativamente più semplice la creazione di modelli formali. Importanti risultati
riguardo questioni di rappresentazione semantica possono essere ottenuti utilizzando
sistemi di seconda generazione, poi utilizzati nello sviluppo del sistema formale. Infatti
le componenti di un sistema di seconda generazione possono essere usate per la
realizzazione di una rappresentazione intermedia di un modello formale.
TERZA GENERAZIONE
ξ presentazione:
modello universale + motore per gestire le regole combinatorie
ξ organizzazione:
dinamica ( gerarchie multiple)
ξ obiettivi:
multipli
ξ flessibilità ed estendibilità:
l’accettabilità di nuove combinazioni può essere verificata dal calcolatore
(per mezzo di predefinite regole combinatoriali)
ξ elaborazione sulla semantica:
completa
Tabella 3. Caratteristiche dei sistemi formali.
Introduzione
IX
Importanza del cross-thesaurus
La chiave per il passaggio dalla seconda alla terza generazione è nella
rappresentazione formale della struttura delle categorie e nella implementazione tramite
modello formale del cross-thesaurus
Infatti, come possiamo intuire dalla tabella 2 una componente fondamentale dei
sistemi composizionali è il cross-thesaurus, cioè un insieme di descrittori provenienti da
diversi tesauri organizzati in categorie semantiche. Un descrittore è un termine presente
in un thesaurus, per rappresentare un concetto elementare. Per un sistema
composizionale è cruciale la messa a punto di un robusto sistema di descrittori, cioè un
cross-thesaurus stabile e coerente [Rossi Mori 97].
L’applicazione sviluppata (I-BROWSE) permette di costruire un cross-thesaurus
mediante l’analisi di un corpus terminologico già esistente. Per facilitare il lavoro degli
esperti e per produrre risultati riutilizzabili, la nostra applicazione interagisce via
Internet con il Server delle Sorgenti di Conoscenza di UMLS (vedi capitolo 1). UMLS
si presta bene ai nostri scopi, essendo un metasistema, cioè un sistema terminologico
riportante voci provenienti da una vasta collezione di altri sistemi terminologici. In
particolare noi interagiamo con la base di conoscenza denominata Metathesaurus.
I-BROWSE e UMLS
UMLS (Unified Medical Language System) può essere considerato come uno
dei più avanzati sistemi terminologici di prima generazione (vedi capitolo 1). UMLS è
stato realizzato dalla National Library of Medicine (NLM) di Bethesda (USA). Il
progetto UMLS si presenta come il mezzo per facilitare il recupero e l’integrazione
delle informazioni provenienti da una molteplicità di sorgenti di informazioni
biomediche informatizzate [UMLS 96].
L’approccio di UMLS si basa sullo sviluppo di Sorgenti di Conoscenza su
calcolatore accessibili da una grande varietà di programmi applicativi, per compensare
le differenze di espressione dei concetti presenti nelle diverse sorgenti di terminologia
biomedica memorizzate su calcolatore. Lo scopo finale è facilitare gli operatori
biomedici nel difficile compito di collegare informazioni provenienti da sistemi di
registrazione dei pazienti, basi di dati bibliografiche, sistemi esperti, e così via [UMLS
97b]. In particolare UMLS si compone di quattro sorgenti di conoscenza [UMLS 97b]:
Introduzione
X
Il Metathesurus contenente informazioni semantiche riguardo ai concetti
biomedici, alle loro varianti terminologiche, e ai legami esistenti fra loro.
La Rete Semantica costituita da un grafo i cui nodi sono le categorie semantiche in
cui sono classificati tutti i concetti del Metathesaurus.
Il Lessico SPECIALIST contenente informazioni sintattiche riguardo i termini
biomedici e le singole parole che compaiono all’interno dei termini del
Metathesaurus.
La Mappa delle Sorgenti d’Informazione contenente informazioni riguardo le
risorse di informazione biomedica disponibili per la consultazione e l’elaborazione
mediante calcolatore.
I-BROWSE è un’applicazione realizzata all’ITBM-RIM (Istituto Tecnologie
BioMediche-Reparto Informatica Medica) che permette a medici esperti di analizzare
varie collezioni di sintagmi (provenienti da nomenclature, classificazioni, ecc.) allo
scopo di costruire rapidamente un cross-thesaurus. Ogni sintagma è analizzato
automaticamente per estrarre lessemi (parole, idiomi e parti di parole memorizzate in
tabelle aggiornabili), e descrittori che sono suggeriti semiautomaticamente dai lessemi.
I descrittori possono essere raggruppati in categorie e subcategorie, definite o adattate in
base alle conoscenze specifiche del settore.
Descrittori, lessemi, categorie e sintagmi sono memorizzati in una base di dati
relazionale realizzata mediante il DBMS Microsoft Access.
I-BROWSE permette di studiare e confrontare tutte le entità presenti nella base
di dati a partire da una qualsiasi entità relazionata con esse. Questo permette di rifinire
il numero, i nomi dei descrittori e il loro raggruppamento in categorie. Descrittori e
lessemi possono essere ordinati e filtrati mediante la frequenza di apparizione, per
permettere agli esperti di focalizzare, immediatamente, la loro attenzione sulle voci più
pervasive ( cioè omogeneamente diffuse nel corpus terminologico).
Nella versione originale I-BROWSE non aveva alcuna interazione con l’esterno;
gli esperti del settore erano completamente liberi di definire i propri descrittori e
categorie. Ci si rese subito conto, però, che le libertà degli esperti dovevano essere
parzialmente limitate, per permettere una riusabilità de descrittori e delle categorie in
differenti domini. Da qui l’idea di effettuare automaticamente l’associazione lessema-
Introduzione
XI
descrittore-categoria mediante il Metathesaurus di UMLS. In questo modo si ha la
possibilità di utilizzare dati costantemente aggiornati e normalmente usati dalla
comunità medica internazionale.
Per collegarsi via Internet tramite un applicazione esterna a UMLS la NLM di
Bethesda mette a disposizione una API (Interfaccia di Programma Applicativo)
costituita da funzioni in linguaggio C per stabilire e terminare una connessione con il
server, inviare interrogazioni e ricevere risultati dal server. Queste funzioni si basano
sull’interfaccia allo Stack di Protocolli TCP/IP di Internet, denominata Interfaccia
Socket, sviluppata inizialmente per i sistemi Unix ma poi adattata anche per Windows
nella versione denominata Winsock. L’utilizzo corretto di queste funzioni ha quindi
richiesto prima uno studio preliminare del funzionamento dei protocolli TCP/IP e
quindi anche di Internet nel suo insieme (vedi capitolo 3). Si è poi esaminato il concetto
del socket a partire dai suoi principi teorici fino alla sua particolarizzazione nel sistema
operativo Windows. Successivamente si sono dovute risolvere tutte le problematiche
tecniche di comunicazione fra I-BROWSE e UMLS tramite la API, legate ai due
differenti linguaggi utilizzati nella loro realizzazione: I-BROWSE in linguaggio Visual
Basic, la API in linguaggio C. Questo ha portato ad esaminare attentamente il
funzionamento delle DLL (Librerie a Collegamento Dinamico) essenziali per
estendere le capacità delle applicazioni funzionanti in ambiente Windows (vedi capitolo
4). Una volta messa a punto la comunicazione fra I-BROWSE e UMLS si è passati alla
fase di sperimentazione testando I-BROWSE con un corpus sufficientemente
consistente di sintagmi terminologici (terminological phrases). Durante la costruzione
delle tabelle basate sui lessemi, il nostro sistema chiede, per ogni lessema trovato
durante la fase di analisi, se c’è un’esatta corrispondenza con uno dei varianti di un
termine UMLS e in caso di successo esso riceve:
l’identificatore unico per il concetto (CUI)
il termine preferito
il tipo semantico
il codice in SNOMED International
Inoltre, la nostra applicazione permette agli esperti di recuperare dati su richieste
più specifiche, in particolare:
Introduzione
XII
termini UMLS in cui il nostro lessema appare come sottostringa;
una qualsiasi altra informazione attraverso un opportuna interfaccia (ma in questo
caso i risultati dell’interrogazione rimangono indipendenti dalle altre tabelle della
nostra applicazione).
Lo scopo fondamentale di questi dati è fornire suggerimenti agli esperti del
settore:
per facilitare la definizione di descrittori riutilizzabili (cioè usabili in vari settori
biomedici);
per evidenziare potenziali conflitti e ambiguità;
per assistere alla formazione delle categorie e subcategorie per il cross-thesaurus;
per l’assegnamento dei descrittori alle categorie.
L’analisi dei risultati ci ha portato a concludere che il collegamento con UMLS
produce i risultati sperati. Gli esperti del settore possono essere supportati nel compito
di costruire un robusto cross-thesaurus mediante la conoscenza fornita dalle
interrogazioni poste a UMLS. Possiamo anche immaginare un feedback verso i comitati
responsabili per il mantenimento delle sorgenti di conoscenza immerse in UMLS (in
particolare SNOMED International), con l’intento di facilitare una graduale
convergenza fra sistemi terminologici.
L’applicazione sembra realizzare un opportuno compromesso: da una parte
fornire abbastanza benefici agli esperti per facilitare la convergenza fra i sistemi
terminologici, dall’altra non fornire aggravi dovuti a stretti vincoli di coerenza.
Generalizzare da sistemi esistenti in un dato dominio è già un compito molto difficile, e
noi non possiamo chiedere agli esperti anche di preoccuparsi per l’universalità dei
descrittori attraverso differenti domini, senza fornire loro una adeguata assistenza per
rendere “naturale” quest’ultimo compito.
Introduzione
XIII
IL PROGETTO UMLS (Unified Medical Language System)
Introduzione al progetto UMLS
UMLS, letteralmente Sistema di Linguaggio Medico Unificato, è un insieme di
basi di conoscenza designato a facilitare il recupero e l'integrazione di informazioni
provenienti da una molteplicità di sorgenti di informazioni biomediche informatizzate ,
accessibile tramite Internet mediante un server dedicato. UMLS è stato realizzato dalla
National Library of Medicine (NLM) di Bethesda (USA) e può essere considerato
come uno dei più avanzati sistemi terminologici di prima generazione.
La prima versione di UMLS è stata rilasciata alla fine del 1990, l’ultima
versione disponibile è la VIII edizione rilasciata nel gennaio 1997. Quest’ultima
versione contiene quattro basi di conoscenza insieme ad un programma lessicale
ausiliario per gestire variazioni linguistiche nell’ambito della terminologia biomedica.
A partire dal 1995 i dati contenuti in UMLS sono stati resi disponibili su Internet
tramite un server apposito.
La quantità di sorgenti di informazione a cui si può attingere mediante UMLS è
considerevole. In particolare troviamo descrizioni tratte dalle seguenti sorgenti:
letteratura biomedica, basi di dati bibliografiche, raccolte di cartelle cliniche, sistemi
esperti, sistemi di basi di conoscenza, elenchi di persone e organizzazioni [UMLS 97b].
Senza l’ausilio di uno strumento di ricerca di informazioni come UMLS gli
ostacoli all’effettivo recupero ed integrazione di informazioni provenienti da questo tipo
di sorgenti sono essenzialmente due:
la varietà di vocabolari e classificazioni usate nelle diverse sorgenti e dai diversi
utenti;
il gran numero e la dispersione delle sorgenti di informazioni.
Questi ostacoli che si frappongono fra l’utente e le sorgenti di informazioni
hanno l’effetto di scoraggiare gli operatori del settore biomedico dal fare utilizzo di
questa gran mole di dati, altrimenti di grande interesse. In questo contesto UMLS si
propone come il mezzo per coordinare logicamente la massa bruta delle informazioni
Introduzione
XIV
dislocate nelle più disparate sorgenti in modo che l’accesso dei potenziali utenti ad esse
risulti essere facilitato.
Per esemplificare, supponiamo che un internista visitando un paziente riscontri
una lesione sospetta. Il medico dopo questo riscontro ha tutta una serie di possibilità per
approfondire la conoscenza della patologia del paziente:
potrebbe desiderare di consultare in una base di dati le caratteristiche di
manifestazione del melanoma per ottenere più informazioni circa una possibile
predisposizione genetica del paziente (in OMIM-Online Mendelian Inheritance in
Man);
proporre esami e protocolli clinici (in PDQ);
analizzare la recente letteratura medica su quel particolare argomento (p.e. elective
lymph node dissection in MEDLINE);
seguire il decorso della malattia attraverso una registrazione computerizzata del
paziente (nel proprio o in un altro istituto).
Tipicamente ognuna delle precedenti esigenze richiederebbe la conoscenza da
parte dell'utente di un diverso strumento informatico; da qui il progetto UMLS come
interfaccia uniforme al mondo delle conoscenze biomediche [Tuttle 89].
La struttura generale di UMLS
UMLS si basa su un sistema a tre strati così classificati:
strato superiore: costituito dall'interfaccia utente, la quale può essere
implementata localmente in modo diverso a secondo delle esigenze e delle macchine a
disposizione;
strato intermedio: costituito dal Metathesaurus, dalla Rete Semantica, dal
Lessico SPECIALIST;
strato inferiore: costituito dalla Mappa delle Sorgenti di Informazione
[UMLS 96].
Nella fig.1.1 possiamo vedere graficamente come sono intercorrelate le varie
componenti di UMLS. La figura in questione non è uno schema formale della struttura
di UMLS ma solo un disegno che evidenzia graficamente le sue parti componenti e
come queste sono legate fra loro.
Introduzione
XV
Figura 1.1. La struttura di UMLS [UMLS 96].
Metathesaurus
Rete SemanticaLessico
Patient
Record
Systems
Human
Genome
Project
Image
Databases
Decision
Support
System
MEDLINE
Toxicology
& Chemical
Databases
7 milioni
di citazioni
PDQ
AI/Rheum
DXPLAIN
NCBI
Ge nBank
OMIM
COSTAR
HELP
ClinQuery
CHEMLINE
TOXLI NE
Chem Abstracts
Mole cu le s
Visible Human
Informazioni Biomediche
Mappa de lle Sorgenti di Informazione
Interfaccia Utente