1.2 Il Web Semantico
Negli ultimi anni abbiamo assistito ad un aumento esponenziale a livello mondiale sia nella
crescita, sia nell’utilizzo del Web.
I browser web sono migliorati tantissimo e si arricchiscono sempre più di nuove
funzionalità e il W3C (World Wide Web Consortium) [W3C], l’organismo che si occupa di
definire gli standard per Web, sta compiendo un assiduo lavoro per permettere e garantire
questo sviluppo.
I motori di ricerca migliorano costantemente le proprie funzionalità, offrono nuovi servizi
(ad es. il Desktop Search per la ricerca efficiente dei documenti all’interno del proprio pc),
i servizi online proliferano: aste, portali per l’intrattenimento, servizi di home banking, e-
commerce e molto altro ancora.
Siamo passati da una prima fase in cui le pagine dei siti erano statiche ad una seconda in
cui il contenuto dei documenti è diventato dinamico e questo è stato un grosso ed
importante cambiamento che ha permesso l’avanzare di nuovi servizi e contenuti. La
prossima evoluzione sarà probabilmente verso un Web Semantico, nel quale
l’informazione avrà un significato ben preciso e definito con un accesso basato sui
significati.
Questo porterà l'utilizzatore, nel tempo, a formulare domande sempre più ampie (mentre
oggi occorre essere capaci a formulare domande molto più focalizzate) del tipo: portami a
Londra questo fine settimana anziché digitare volo+Londra.
Allo stato attuale il sistema di ricerca basato su parole chiave funziona fino ad un certo
punto: molti risultati di una query effettuata sono irrilevanti, di scarso interesse o
addirittura assenti perchè magari viene impiegato un sinonimo che non compare nel testo
oppure perché la parola cercata ha un significato molto vasto (pensiamo ad esempio a
parole usate in diversi contesti come chip, package), oppure non sappiamo quali parole
digitare o ancora il risultato ottenuto è totalmente inaspettato (vedi caso di Google di
qualche anno fa).
HTML non è in grado di risolvere tali problematiche. Esso è orientato piuttosto verso la
formattazione e la presentazione del testo all’interno del documento, i suoi tag non portano
alcuna semantica e da qui scaturisce la sua inadeguatezza ad essere “machine processable”
cioè letto da utenti non in carne ed ossa.
Sono state proposte allora nuove soluzioni come XML e RDF [S02, S03, B01] che
permettono di strutturare il documento e di inserire informazione semantica: questi
integrati con altri strumenti quali ontologie (collezioni di termini e relazioni tra questi) ed
altri come strumenti per l’organizzazione della conoscenza come thesauri potranno
estendere il Web a diventare un Semantic Web.
2
1.3 Il reperimento delle informazioni
Come abbiamo detto, sebbene i motori di ricerca siano in costante miglioramento, la
ricerca di molti contenuti presenta numerose limitazioni:
• Molte risorse non contengono testo. Pensiamo ad esempio a immagini, audio,
video.
• C’è una bassa precisione quando una parola ha significati ambigui (es. chocolate
chips vs silicon chips.
• La ricerca è incompleta se non tiene conto dei sinonimi e dei termini “related”.
• Non esiste nessun tipo di aiuto fornito all’utente per espandere, tradurre, relazionare
il termine cercato dall’utente.
Ad esempio animali domesticiÆmammiferiÆgattiÆfeliniÆPanthera tigris tigris
(tigre del bengala).
• Difficoltà ad esprimere query tipo il documento X con oggetto Y scritto il giorno Z.
Questa difficoltà deriva dal fatto che la maggior parte delle informazioni sono machine-
readable ma non machine understandable. Affinché il significato sia accessibile anche alle
macchine è necessario che ai dati sia associata una struttura che permetta di dedurre
l’informazione che essi esprimono: i metadati.
I metadati sono generalmente definiti come “dati riguardanti i dati”. Essi rappresentano il
fondamento per il reperimento delle informazioni: sono delle informazioni comprensibili
dalla macchina relative ad una qualsiasi risorsa (non solo Web). Pensiamo ad esempio
quando in biblioteca cerchiamo un certo libro: il sistema software permette di ricercare i
libri per autore, titolo, soggetto, descrizione, ecc. Tutti questi sono metadati.
La cosa importante è costituita dal fatto che, essendo comprensibili dalla macchina,
possono essere utilizzati dai software agent per fare un uso appropriato e più elegante delle
risorse.
Per farne un uso efficace è necessario che siano stabilite delle convenzioni per la struttura,
la semantica e la sintassi. I metadati consistono in asserzioni sui dati, le quali vengono
quindi rappresentate sotto forma di un nome di asserzione e un insieme di parametri.
Gruppi di asserzioni relative alla stessa risorsa prendono spesso la forma di una lista di
coppie (attributo-valore).
1.4 Gli strumenti per il Web Semantico: RDF e RDFS
RDF (Resource Description Framework) [C03, RDF, B01] è lo strumento base per la
codifica, lo scambio e il riutilizzo di metadati e consente l’interoperabilità tra applicazioni
che si scambiano sul Web informazioni machine-understandable.
Esso è costituito da due componenti:
• RDF Data Model
• RDF Schema
3
1.4.1 RDF Data Model
RDF Data Model fornisce un modello per descrivere le risorse e permette di definire le
relazioni tra loro in termini di nome: valore.
RDF definisce una risorsa come un qualsiasi oggetto che è identificabile univocamente
mediante un Uniform Resource Identifier (URI).
Il modello RDF è molto semplice, ed è basato su tre tipi di oggetti:
• Risorse: qualunque cosa descritta da un’espressione RDF ed identificata
univocamente da un URI è detta risorsa (resource). Una risorsa può essere una
pagina Web, una sua parte ma anche un oggetto non direttamente accessibile via
Web (per es. un libro, un dipinto, etc.).
• Proprietà: una proprietà (property) è una caratteristica, un oggetto specifico che
definisce una relazione utilizzata per descrivere una risorsa. Essa ha un significato
specifico, definisce i valori ammissibili, i tipi di risorse che può descrivere e le sue
relazioni con altre proprietà.
Le proprietà associate alle risorse sono identificate da un nome e assumono dei
valori.
• Affermazioni o statement: una risorsa, con una proprietà distinta da un nome e un
valore della proprietà per la specifica risorsa, costituisce un RDF statement. Uno
statement è quindi una tripla composta da un soggetto (risorsa), un predicato
(proprietà) e un oggetto (valore).
È possibile quindi esprimere delle affermazioni come: R.L.Stevenson è autore de “L’isola
del Tesoro”.
Utilizzando i formalismi dell’Intelligenza Artificiale, le relazioni tra risorse, proprietà e
valori sono rappresentati attraverso dei grafi orientati: le risorse (e quindi gli URI)
rappresentano i nodi, le proprietà gli archi orientati e i valori dei rettangoli.
Abbiamo quindi la tripla:
Resource ISBN 881158735-2
Property Autore
Value R.L.Stevenson
In questo caso come URI viene utilizzato ISBN (International Standard Book Number), un
sistema di codifica che identifica univocamente un certo testo.
Lo statement verrebbe quindi rappresentato come:
La risorsa ISBN 881158735-2 ha autore R.L.Stevenson.
4
Graficamente:
ISBN 881158735-2
R.L.Stevenson
Fig. 1 Rappresentazione grafica dello statement “Stevenson è l’autore dell’Isola del Tesoro”.
RDF consente quindi alle singole comunità di definire la semantica. Tuttavia, non è
possibile affidare la semantica semplicemente al nome, che potrebbe avere significati più o
meno ampi secondo gli interessi specifici delle singole comunità.
RDF identifica univocamente le proprietà mediante il meccanismo dei namespace. I
namespace XML forniscono un metodo per identificare in maniera non ambigua la
semantica e le convenzioni che regolano l’utilizzo delle proprietà identificando l’authority
che gestisce il vocabolario.
Uno degli esempi più noti è la Dublin Core Iniziative [DCHP], un’organizzazione che si
occupa di promuovere e diffondere l’utilizzo di metadati standard. Essa definisce un
insieme di proprietà che possono essere utilizzate per descrivere determinate risorse. Essa
definisce ad esempio rispettivamente le proprietà “Title, Description e Creator” nel
seguente modo [DDCCE]:
Name: Title
Identifier: Title
Description: A name given to the resource.
Comment: Typically, Title will be a name by which the resource is formally known.
Name: Description
Identifier: Description
Definition: An account of the content of the resource.
Comment: Examples of Description include, but is not limited to: an abstract,
table of contents, reference to a graphical representation of content or a free-
text account of the content.
Name: Creator
Identifier: Creator
Definition: An entity primarily responsible for making the content of the resource.
Comment: Examples of Creator include a person, an organization, or a service.
Typically, the name of a Creator should be used to indicate the entity.
Si può utilizzare quindi un namespace XML per identificare in maniera non ambigua lo
schema per il vocabolario Dublin Core, puntando alla risorsa che ne definisce la semantica.
Vedremo in seguito un’applicazione di questo fatto.
5
1.4.2 RDF Schema o RDFS
Il data model RDF permette di definire un modello semplice per descrivere le relazioni tra
le risorse, in termini di proprietà identificate da un nome e relativi valori.
Tuttavia, RDF data model non fornisce nessun meccanismo per dichiarare queste proprietà,
né per definire le relazioni tra queste proprietà ed altre risorse.
RDF Schema (RDFS) permette di definire dei vocabolari, quindi l’insieme delle proprietà
semantiche individuata da una particolare comunità.
RDF Schema permette definire significato, caratteristiche e relazioni di un insieme di
proprietà, compresi eventuali vincoli sul dominio e sui valori delle singole proprietà.
Inoltre introducendo il concetto di classe e sottoclasse, consente di definire gerarchie di
classi, con il conseguente vantaggio che agenti software intelligenti possono utilizzare
queste relazioni per svolgere i loro compiti.
RDF definisce quindi la grammatica, le strutture fondamentali per la struttura della frase
(soggetto, predicato, oggetto): Matteo Ballarin abita in Veneto.
RDF Schema permette di definire le parole ed i verbi (classi e properties) che desideriamo
usare (es. Matteo Ballarin type Person).
RDF e RDFS costituiscono quindi i mattoni su cui fondare il Web Semantico, ma è
necessario un ulteriore strato che permetta di descrivere e dichiarare formalmente la
semantica delle classi e delle proprietà usate nei documenti.
È necessario che esistano dei “vocabolari” di sapere condivisi in cui siano presenti i termini
e i concetti di quel determinato dominio di interesse. Questi vocabolari, detti anche concept
schema o vocabolari controllati, non sono altro che delle liste di termini tra i quali sono
definite delle relazioni semantiche di:
• Gerarchia
• Preferenza
• Equivalenza
1.5 I THESAURUS: Definizione, standard e diversi tipi di strutture
esistenti
1.5.1 Definizione e standard
Un thesaurus è un insieme di termini, e di relazioni tra essi, che costituiscono il lessico
specialistico da usare per descrivere il contenuto dei documenti pubblicati in un certo
ambito disciplinare [S05, SE05, PS05].
Il termine thesaurus o tesauro, ha una lunga storia: deriva dal greco e passa attraverso il
latino thesaurus: in entrambe le lingue il significato è grosso modo quello di deposito
nascosto di beni preziosi, forziere, scrigno. Successivamente il termine è passato nella
lingua italiana ad indicare un particolare tipo di dizionario: una classificazione in varie
categorie e subcategorie (relazioni astratte, spazio, tempo, proprietà fisiche) di parole ed
6
espressioni in una determinata lingua, con lo scopo di favorire la ricerca del termine più
pertinente ed adatto da esprimere in ogni circostanza.
Attualmente sono tre gli standard per i tesauri che godono di maggior diffusione a livello
internazionale [F05]:
• ISO 2788-1986 Guide to establishment and development of monolingual thesauri
• ISO 5964-1985 Guide to establishment and development of multilingual thesauri
• ANSI Z39.19-1974 Guidelines for thesaurus structures and use
I thesauri sono largamente impiegati nel campo dell’information retrieval. Sono usati in
diversi modi: come aiuto per la ricerca, fornendo termini per un determinato dominio,
come strumenti per la traduzione in più lingue e come strumenti per la classificazione
automatica di documenti. Esistono diversi thesauri, molti dei quali sono stati sviluppati nel
corso di molti anni da persone con un’approfondita conoscenza della materia. Questi
strumenti rappresentano e forniscono una risorsa molto importante per il web semantico.
Un nuovo standard britannico, BS 8723, Structured vocabulary for information retrieval -
Guide, rappresenterà la normativa per la costruzione e la gestione di thesauri di nuova
generazione.
1.5.2 Stato dell’arte: lo standard britannico BS 8723
Il nuovo standard BS 8723 Structured vocabulary for information retrieval - Guide è in fase
di elaborazione. Ecco, in sintesi, la struttura dello standard e il punto sullo stato dell’arte
dei lavori:
• Parte 1: Definitions, symbols and abbreviations
Fornisce definizioni e concetti chiave comuni a tutti i sistemi di information retrieval che
fanno uso di vocabolari strutturati.
• Parte 2: Thesauri
Si occupa dei thesauri, riprendendo tutti i concetti trattati negli standard precedenti oltre a
fornire linee guida sulle funzioni elettroniche e sui software di gestione.
E’ riservata attenzione particolare all’analisi a faccette, appena menzionata negli standard
correnti nonostante l’importante ruolo che essa riveste nella costruzione di thesauri.
• Parte 3: Vocabularies other than thesauri
Tratta altre tipologie di vocabolari strutturati (schemi di classificazione, thesauri di ricerca,
tassonomie e ontologie).
• Parte 4: Interoperability between vocabularies
È dedicata all’interoperabilità tra vocabolari; vengono prese in esame possibili situazioni
che si possono verificare nello stabilire equivalenze tra diversi vocabolari strutturati.
• Parte 5: Interoperability between vocabularies and other components of information
storage and retrieval systems
Definisce i protocolli e i formati necessari allo scambio di dati.
7