12
Capitolo 1 1.2 Il Semantic Web
_____________________________________________________________________________
possibile dar vita a catene di concetti completamente disomogenei sia dal punto
di vista degli argomenti che da quello di qualità e affidabilità.
Attualmente l’enorme mole di dati presente nel Web è organizzata e distribuita
secondo delle modalità che la rendono spesso di difficile reperimento.
Nelle ricerche online, è sempre più difficile trovare le informazioni desiderate:
sono sempre moltissimi i risultati che non hanno nulla a che vedere con quello
che ci interessa.
1.2 - IL SEMANTIC WEB
Sostanzialmente il problema del World Wide Web, così come è ora, è
rappresentato dalla sua incapacità di fornire informazioni ad hoc: digitando una
parola su un motore di ricerca si ottiene un'alta incidenza di risultati, ma la
maggior parte non è attinente alla richiesta. Questo succede perchè non esiste
uno strumento informatico capace di “comprendere” il contenuto di una pagina
Internet: il Web, cioè, non e' ancora semantico (la semantica è lo studio del
significato e della combinazione delle parole).
Questo fallimento affligge nello stesso modo la rete globale e le Intranet
aziendali, dove documenti, messaggi e rapporti che costituiscono la preziosa
conoscenza aziendale sono memorizzati in formato elettronico ma restano
altrettanto inaccessibili di quando venivano archiviati su carta.
Gran parte del contenuto di Internet, infatti, è progettato per essere letto da
esseri umani e non per essere trattato da programmi ed è ben lontano dal poter
fornire una solida piattaforma che renda possibile un’interpretazione e una
13
Capitolo 1 1.2 Il Semantic Web
_____________________________________________________________________________
comprensione semantica da parte di agenti automatici.
In poche parole serve qualcosa di diverso dalla nuova babele di informazioni e
linguaggi nella quale è facile perdersi, ma uno strumento dal quale ottenere, ad
ogni ricerca, risposte mirate e selettive.
Questo qualcosa di diverso ci viene fornito dal Semantic Web (Web Semantico)
(cfr. [1], [2], [3], [4], [5], [6], [7]), termine coniato per la prima volta da Tim
Berners-Lee, l’ideatore del WWW.
Gli obiettivi (cfr. [8]) possono essere riassunti come segue:
ξ l’informazione non sarà più pensata per essere letta
direttamente dall’uomo, ma mirata ad essere in un formato
facilmente elaborabile dalla macchina, da agenti intelligenti,
servizi specializzati, siti Web personalizzati e motori di ricerca
potenziati semanticamente.
ξ supporto per l’interoperabilità sintattica: qui si intende la
facilità di leggere dati e ottenere una rappresentazione
utilizzabile dalle applicazioni. Ad esempio, componenti
software come i parser o API di interrogazione dovrebbero
essere il più possibile riutilizzabili da applicazioni differenti.
ξ il Semantic Web richiede l’interoperabilità a livello semantico:
non sono più sufficienti standard per la forma sintattica dei
documenti, ma anche per il loro contenuto semantico;
interoperabilità semantica significa definire mapping tra
termini sconosciuti e termini conosciuti nei dati. Chiaramente il
costo dell’interoperabilità semantica è più elevato di quello
dell’interoperabilià sintattica.
14
Capitolo 1 1.3 Architettura del Semantic Web
_____________________________________________________________________________
ξ il formato utilizzato per lo scambio dei dati deve permettere di
poter esprimere qualsiasi forma di dati, poiché non è possibile
anticiparne tutti i suoi usi potenziali (potere espressivo
universale). Per raggiungere questo obiettivo, è necessario
basarsi su un modello comune di grande generalità. Solo così
qualsiasi “prospettiva” può trovare espressione all’interno del
modello.
Nella visione di Tim Berners-Lee, il Semantic Web è un’architettura strutturata
su almeno quattro livelli:
ξ il livello dei dati (un semplice modello dei dati e una sintassi
per i metadati)
ξ il livello schema (una base per la definizione di un vocabolario)
ξ il livello ontologico (per la definizione delle ontologie)
ξ il livello logico (supporto al ragionamento)
1.3 - L’ARCHITETTURA DEL SEMANTIC WEB
Il Semantic Web ha quindi una architettura a livelli, che però non è
stata ancora sviluppata completamente. Ciò avverrà nei prossimi anni.
15
Capitolo 1 1.3 Architettura del Semantic Web
_____________________________________________________________________________
Guardiamo ora più in profondità la struttura alla base della visione del Semantic
Web. Faremo riferimento a un diagramma piramidale, simile a quello di figura
1.1.
Figura 1.1 Architettura del Semantic Web
Dal diagramma si possono estrapolare le seguenti osservazioni:
ξ il Semantic Web si basa sullo standard URI (Uniform
Resource Identifiers, di cui si parlerà nel prossimo
sottoparagrafo in [Capitolo 1, 1.4 URI] ), per la definizione
univoca di indirizzi Internet.
ξ al livello superiore si trova XML (eXtensible Markup
Language), che gioca un ruolo di base con i namespace e gli
XML Schema. Con XML è possibile modellare secondo le
16
Capitolo 1 1.3 Architettura del Semantic Web
_____________________________________________________________________________
proprie esigenze, e senza troppi vincoli, la realtà che si
considera: per questo è un linguaggio che porta con sé
alcune informazioni sulla semantica degli oggetti. Questa
libertà lo rende poco adatto, però, a definire completamente
la struttura e l'interscambio di informazioni tra diverse realtà,
quindi è stata favorita la creazione di un nuovo linguaggio.
ξ RDF (Resource Description Framework) e RDF Schema
(dei quali si parlerà più approfonditamente in [Capitolo 1,
2.5 RDF] e in [Capitolo 1, 2.6 RDF Schema]), che
costituiscono il linguaggio per descrivere le risorse e i loro
tipi. Derivano da XML.
ξ al livello superiore si pone il livello ontologico. Una
ontologia permette di descrivere le relazioni tra i tipi di
elementi senza però fornire informazioni su come utilizzare
queste relazioni dal punto di vista computazionale.
ξ la firma digitale è di significativa importanza in diversi strati
nel modello astratto del Semantic Web. La crittografia a
chiave pubblica è una tecnica nota da qualche anno, ma non
ancora diffusa su larga scala, forse perché impone una scelta
binaria tra fiducia o non fiducia, mentre sarebbe necessaria
una infrastruttura in cui le parti possano essere riconosciute
e accettate in specifici domini. Con questo accorgimento, la
firma digitale potrebbe essere utilizzata per stabilire la
provenienza delle ontologie e delle deduzioni, oltre che dei
dati.
17
Capitolo 1 1.4 URI
_____________________________________________________________________________
ξ il livello logico è il livello immediatamente superiore. A
questo livello le asserzioni esistenti sul Web possono essere
utilizzate per derivare nuova conoscenza. Tuttavia, i sistemi
deduttivi non sono normalmente interoperabili, per cui
invece di progettare un unico sistema onnicomprensivo per
supportare il ragionamento, si potrebbe pensare di definire
un linguaggio universale per rappresentare le dimostrazioni.
I sistemi potrebbero quindi autenticare con la firma digitale
queste dimostrazioni ed esportarle ad altri sistemi che le
potrebbero incorporare nel Semantic Web.
1.4 - URI
Se si intraprende una conversazione, o scrivere un testo qualsiasi,
bisogna prima identificare in maniera univoca l'argomento che si vuole trattare,
altrimenti non ci si potrà riferiread esso.
Nel Semantic Web è stato definito un sistema di identificatori unificato: sono gli
Uniform Resource Identifiers (URI). Il nome deriva dal fatto che ogni elemento
identificato viene considerato una risorsa. Gli URI sono utilizzati da RDF per
codificare l'informazione in un documento, ed assicurano che i concetti non
siano solo parole in un documento, ma siano vincolanti.
Gli URI costituiscono la tecnologia di base ideale con la quale costruire un Web
globale. Può essere definito un URI per un qualsiasi oggetto, e qualsiasi cosa
che ha un URI può essere considerato sul Web. Gli URI sono il fondamento del
18
Capitolo 1 1.4 URI
_____________________________________________________________________________
Web: mentre ogni parte del Web stesso può essere rimpiazzata, gli URI no.
Anche per identificare le pagine sul Web vengono utilizzati identificatori: sono i
tipi più comuni di URI, gli indirizzi URL (Uniform Resource Locator).
Guardando più in profondità si può notare che un URL comunica al computer
dove trovare una risorsa specifica. Diversamente da altre forme di URI, un URL
allo stesso tempo identifica e localizza. Poiché il Web è troppo esteso per essere
controllato da una qualsiasi organizzazione, gli URI in massima parte sono
decentralizzati. Nessuna persona o organizzazione controlla chi li produce o
cosa ne fa. Questa flessibilità rende gli URI potenti, ma porta alcuni problemi.
Ad esempio, poiché chiunque può creare un URI, inevitabilmente si avranno
più URI che rappresentano la stessa cosa; e non c'è modo per determinare se
due URI puntano alla stessa risorsa.
Una pratica comune per creare URI è quella di iniziare da una pagina Web. La
pagina descrive l'oggetto che deve essere identificato e spiega che l'URL della
pagina è l'URI per tale oggetto. Il punto d'arrivo sarà che qualsiasi istanza
rappresenterà sia la risorsa fisica, sia la pagina Web che la descrive. Ciò è noto
come problema dell'identificazione delle pagine Web.
Questo è un fatto importante da comprendere. Un URI non è un insieme di
direttive che indicano al computer dove trovare un file specifico nel Web
(sebbene lo faccia anche), ma è un nome per una risorsa (una cosa), accessibile
o meno attraverso Internet. L'URI può o no fornire un modo per ottenere più
informazioni su una risorsa. Altri metodi per fornire informazioni sugli URI e le
risorse che essi identificano sono in via di sviluppo. E’ anche vero che l'abilità
di dire cose su di un URI è una parte importante del Semantic Web. Ma non si
deve assumere che un URI faccia qualcosa di più che fornire un identificatore
per una risorsa.
David Connelly del W3C ha realizzato una pagina in cui ha raccolto gli schemi
URI che sono stati definiti.
19
Capitolo 1 1.5 I metadati
_____________________________________________________________________________
1.5 - I METADATI
Qual è dunque l’obiettivo del Semantic Web?
Riportare chiarezza, formalità e organizzazione dei dati, collegando
l’informazione presente nelle pagine Web a concetti astratti organizzati in una
gerarchia (ontologia), a sua volta descritta in un meta-documento e permettendo
a vari agenti automatici di interpretare informazioni e di addentrarsi nella rete
navigando come esseri umani. Offrire, quindi, la possibilità di cogliere il
contesto semantico di una fonte informativa interpretando le varie relazioni
esistenti tra le risorse, formulare asserzioni sulle stesse, nonchè controllare la
loro attendibilità.
Nasce così la necessità di attribuire ad ogni risorsa delle descrizioni formali che
possano essere valutate in modo automatico in modo tale da favorire la
cooperazione tra utenti e calcolatori.
Perché il significato sia accessibile anche alle macchine, è necessario che ai dati
venga associata una struttura dalla quale si possa inferire l’informazione che
essi esprimono.
Lo strumento che permette di adempire questo compito sono i metadati, ovvero
dati che descrivono i dati. La descrizione del dato deve essere affiancata
dall’interpretazione del significato fornito dal testo. Per far questo si potrebbero
marcare delle parti di testo con etichette significative.
Descrivere solo cosa è il dato non è però sufficiente; per ottenere dei risultati
soddisfacenti bisogna anche capire il significato della struttura attribuita al
testo.
Per esempio utilizzando il linguaggio XML (cfr. [9]) si potrebbero etichettare
20
Capitolo 1 1.5 I metadati
_____________________________________________________________________________
parti di testo con dei marcatori che possono, in qualche modo, esprimerne il
significato.
Per esempio:
<Autore> Giacomo Bernini </Autore>
Questo permette di semplificare la creazione di applicazioni che svolgono
operazioni intelligenti con i documenti elettronici; un motore di ricerca sarebbe
in grado di eseguire ricerche esplicite nel Web per trovare tutti i documenti in
cui Giacomo Bernini è l’autore; in questo modo si può superare uno dei limiti
dell’HTML (cfr. [10]), in cui i dati sono orientati al video e difficili da
utilizzare per una elaborazione successiva. Il problema risiede nel sistema di
indicizzazione delle risorse informative, non sempre intuitivo e semplice come
l’utente vorrebbe.
I marcatori potrebbero non bastare per dare un’interpretazione univoca del
testo, poiché le macchine non sono in grado di decidere tra più possibilità
attuando tecniche di interpretazione tipici della mente umana. Per eliminare tali
incomprensioni, ed ambiguità bisogna affiancare al metadato una semantica
interpretata da tutti allo stesso modo.
Per avvicinarci meglio ai concetti di rappresentazione di una semantica, è
opportuno partire dal fatto che, affinché tutto funzioni, i calcolatori che
accedono al Semantic Web dovranno avere a disposizione:
ξ Collezioni strutturate di informazioni: se le informazioni di
descrizione delle risorse vengono organizzate secondo
regole standard, sarà possibile elaborarle in modo semplice.
ξ Insiemi di regole di inferenza: tramite queste si potranno
condurre ragionamenti in modo automatico.
21
Capitolo 1 1.5 I metadati
_____________________________________________________________________________
Tutto ciò rende evidente il bisogno di utilizzare metadati…ma cosa sono i
metadati?
I metadati sono etichette descrittive ovvero dati che descrivono altri dati, e sono
spesso più facili da trattare dei dati stessi, questo perché il loro formato viene
deciso dal catalogatore. Tali etichette sono in grado di esprimere la semantica e
la struttura dei dati, ed al contempo l’autore, i vari diritti di copyright, le
protezioni ed i permessi d’accesso…
Essi costituiscono in qualche modo il curriculum vitae dei dati, ovvero
raccolgono le informazioni relative al dove, al quando, al come e da chi i dati
sono stati ottenuti. Si tratta quindi di un corredo indispensabile per rendere tali
dati fruibili correttamente da chiunque, anche a distanza di tempo e di spazio.
Il loro utilizzo permette quindi una catalogazione dei dati, rendendo più facile
l’elaborazione automatica dei dati da parte di agenti software, nonché il
controllo degli accessi e il filtraggio dei flussi d’informazione.
Il concetto di metadato è fondamentale per quanto riguarda la facilità nel
reperimento, nello scambio e nella consultazione dei dati, nella conoscenza di
notizie relative alla creazione, alla validità, all'archiviazione dei dati, nonché
informazioni relative al loro potenziale utilizzo.
I metadati, aprono le vie ad una comunicazione più estesa, mettendo in
connessione differenti mondi con regole diverse. Uno dei maggiori problemi da
affrontare è quello relativo alla presenza di sistemi gestionali che sono stati
implementati in base a nessuno standard condiviso da tutta la comunità; inoltre
la maggior parte dell’informazione prodotta nell’ambito scientifico è descritta
seguendo linguaggi comprensibili solo dagli addetti ai lavori di quella specifica
comunità. Questa mancanza di omogeneità descrittiva non permette
all’informazione di uscire allo scoperto, lasciando i sistemi informativi isolati.
Una più puntuale concettualizzazione di metadato è necessaria dal momento
che i professionisti dell'informazione considerano che le loro attività
22
Capitolo 1 1.5 I metadati
_____________________________________________________________________________
saranno trasferite e ricomprese all'interno della sfera dei sistemi di
informazione digitale.
L'avvento del Web e della crescita esponenziale delle risorse elettroniche ha
incrementato anche la domanda dell'utenza relativamente alle effettive capacità
di avere strumenti che consentano di ricercare attraverso differenti strutture di
metadati in modo simultaneo.
Le necessità sempre crescenti delle fasce di utenza specializzate di poter
recuperare informazioni da contenitori integrati, ricreando ambienti
interdisciplinari, ha motivato molte istituzioni scientifiche a convertire i loro
metadati non standardizzati in formati più facilmente accessibili.
I metadati non rappresentano un’entità immobile ed immutabile nel tempo e
nello spazio, essi infatti continuano ad accrescersi entro il sistema entro cui
dimorano, durante il ciclo di vita dell'oggetto informativo con il quale si
relazionano. I metadati, intesi in senso moderno, non possono essere considerati
come definitivi, ma vengono modificati nel corso del tempo e qualche volta
possono anche essere disposti in punti differenti lungo l'arco della vita di una
risorsa, soprattutto se digitale. Essi assumono quindi un’importanza strategica
nello sviluppo dei sistemi d’informazione digitale in rete.
23
Capitolo 1 2.1 Definizioni di ontologia
_____________________________________________________________________________
2 – ONTOLOGIE E RDF
2.1 - DEFINIZIONI DI ONTOLOGIA
L’ontologia, “lo studio dell’essere in quanto essere”, è usualmente
concepita come una disciplina strettamente filosofica. Eppure, negli ultimi anni
grazie all’esplosione delle comunicazioni in rete, gli aspetti ontologici
dell’informazione hanno acquistato un valore strategico. Tali
aspetti sono intrinsecamente indipendenti dalle forme di codifica
dell’informazione stessa, che può essere quindi isolata, recuperata,
organizzata, integrata in base a ciò che più conta: il suo contenuto.
La standardizzazione dei contenuti dell’informazione risulta oggi cruciale
nella prospettiva delle aziende integrate e del commercio elettronico ed è
indispensabile per semplificare i processi di comunicazione. In generale,
infatti, la mancanza di un’interpretazione condivisa porta alla povertà di
comunicazione tra le persone e le loro organizzazioni. Nel contesto della
costruzione di un sistema IT (Information Tecnology), tale mancanza di
comprensione porta a delle difficoltà nell’identificare i requisiti e nel
definire le specifiche del sistema. Molti tools software, metodi di
modellazione, paradigmi e linguaggi limitano l’interoperabilità tra i sistemi,
il loro riuso e la loro condivisione.
E’ proprio per superare questi problemi che s’introduce l’ontologia,
24
Capitolo 1 2.1 Definizioni di ontologia
_____________________________________________________________________________
che cerca di eliminare o, almeno, ridurre le confusioni concettuali o
terminologiche, in modo da avere un’interpretazione condivisa, in altre
parole un vocabolario comune, con un significato per i vari termini su cui
tutti sono d’accordo.
Sebbene l’ontologia sia nata nell’ambito filosofico, negli ultimi anni, si è
affermata una nuova scuola di pensiero, che propone una
caratterizzazione logica rigorosa delle categorie ontologiche fondamentali
utilizzate nei sistemi informativi, con lo scopo di aumentarne la
trasparenza semantica e l’interoperabilità. Tale approccio coinvolge attività
di modellazione concettuale e di ingegneria della conoscenza in una
prospettiva fortemente interdisciplinare. Una definizione del termine
ontologia largamente adottata, soprattutto nell’ambito delle artificial
intelligence communities, è quella proposta da Gruber, secondo cui
un’ontologia è una specifica esplicita e formale di una concettualizzazione
condivisa.
La concettualizzazione si riferisce ad un modello astratto di un qualche
fenomeno, avendone identificato i concetti; esplicita significa che i tipi di
concetti usati e i vincoli sul loro uso sono esplicitamente definiti; formale si
riferisce al fatto che l’ontologia dovrebbe essere machine-readable;
condivisa riflette il fatto che l’ontologia cattura la conoscenza consensuale,
cioè quella non propria di un individuo, ma accettata da un gruppo.
Sono state date diverse definizioni dell’ontologia, oltre a quella
prettamente filosofica. Di seguito ne sono riportate alcune:
ξ Un’ontologia identifica i termini basilari e le relazioni di un
determinato dominio, definendone in questo modo il
vocabolario, e le regole per combinare tali termini e tali
relazioni, andando oltre il vocabolario stesso [Neches].