Un sistema per il recupero delle informazioni basato su Open Data
Pagina 5
1. INTRODUZIONE
1.1 Linked Open Data
Al giorno d’oggi, il web ha cambiato sia il modo di comunicare con le persone sia il modo di
utilizzare il computer. In passato, l’elaboratore veniva utilizzato espressamente solo per
l’elaborazione di calcoli, oggi, invece, incorpora strumenti per processare informazioni testuali e
multimediali. Gli utenti del web usano il computer soprattutto per effettuare ricerche di
informazioni di carattere generale (come la ricerca di informazioni di altre persone), per entrare in
contatto con altre persone, per consultare cataloghi e per ordinare prodotti di negozi on-line, ecc..
Tutte queste attività sono rese possibili grazie all’utilizzo di strumenti particolari quali i MOTORI DI
RICERCA. Essi hanno avuto un grande successo e hanno contribuito al miglioramento del web. Il
problema però è che, siccome si basano su un matching tra le parole chiave, hanno bisogno
dell’intervento umano per interpretare e combinare i risultati che propongono. Questo è dovuto
dal fatto che i risultati delle ricerche non sono facilmente accessibili da altri strumenti e quindi il
significato del contenuto non è accessibile alla macchina. Gli strumenti di cui oggi si ha a
disposizione, sono tipicamente per recuperare testi, scomporlo in parti, controllare l’ortografia,
contare le parole, ecc..
Un approccio per risolvere questo problema è di rappresentare il web in un modo diverso, ovvero
utilizzare tecniche intelligenti affinché anche la macchina possa interpretare le informazioni. Così
nasce il SEMANTIC WEB[
1
].
Il web semantico è l’evoluzione del vecchio web dove associa ad ogni documento
“un’etichettatura intelligente” (metadati), in modo tale che si dà un significato semantico al
contenuto e le informazioni possono essere collegati e integrati tra loro[
2
].
1
Grigoris Antoniou and Frank van Harmelen “A Semantic web Primer” Second Edition, 2008
2
http://www.ijswis.org
Un sistema per il recupero delle informazioni basato su Open Data
Pagina 6
Grazie al web semantico, dunque, è possibile effettuare operazioni specialistiche e ricerche
altamente più precise. Il World Wide Web Consortium lo definisce come il “web dei dati”, proprio
perché al suo interno ha un elevato numero di documenti e di informazioni che sono accessibili a
tutti liberamente (Open Data).
Affinché i risultati ottenuti dalle attività di recupero delle informazioni siano di reale utilità per
l’utente, risulterebbe di grande vantaggio che i dati fossero proposti all’utente in forma aggregata,
anziché isolata. Vi è infatti l’esigenza di esplicitare i collegamenti tra le informazioni, anche se
questi sono di differente formato e provengo da fonti eterogenee.
Per realizzare il collegamento tra i dati si ricorre alla definizione di un link diretto che colleghi le
informazioni che si riferiscono allo stesso concetto oppure che risultano simili. In tal modo è
possibile per un utente, navigare da un documento all’altro attraverso i concetti che ne fanno
parte. Tale meccanismo prende il nome di LINKED OPEN DATA[
3
] .
Quando parliamo di Linked Open Data[
4
], ci riferimento ad un insieme di procedure proposte per
la pubblicazione e l’interconnessione dei dati sul web.
L’architettura dei Linked Data di Tim Berners-Lee[
5
] mostra quattro principi:
1) Utilizzare URI come nomi per le cose: Uniform Resource Identifiers (URI) è una stringa che
identifica in maniera univoca oggetti globali che si trovano nel web[
6
]. Qui ci si riferisce non
solo a documenti web, ma anche a oggetti reali e concreti, come le persone, i luoghi, ecc..
2) Utilizzare HTTP, in modo che le persone possono cercare quei nomi: l'Hypertext Transfer
Protocol (HTTP) è un protocollo utilizzato dal web per la rappresentazione e la
negoziazione dei dati[
7
]. Con HTTP è possibile recuperare gli oggetti e i concetti indicati
dall’URI.
3) Quando qualcuno cerca un URI, fornire informazioni utili, utilizzando gli standard (RDF,
SPARQL): Resource Description Framework (RDF) è un modello dati, ovvero un formalismo
per rappresentare i dati[
8
].
3
http://www.linkedopendata.it
4
http://linkeddatabook.com/editions/1.0/#linkedData
5
http://www.w3.org/DesignIssues/LinkedData.html
6
http://www.w3.org/TR/webarch/#uri-benefits
7
http://www.w3.org/Protocols/rfc2616/rfc2616.html
8
http://www.linkedopendata.it/semantic-web
Un sistema per il recupero delle informazioni basato su Open Data
Pagina 7
4) Includere collegamenti ad altri URI, in modo che possano scoprire più cose: documenti
che contengono collegamenti ad altri documenti che trattano lo stesso argomento, risulta
utile all’utente per avere sempre maggiori informazioni sull’oggetto di interesse.
Affinché si riesca a processare le informazioni è necessario concordare formati standard.
Attualmente il linguaggio di riferimento è RDF (Resource Description Framework), nato appunto
per soddisfare esigenze di rappresentazione delle informazioni[
9
]:
Elaborazione automatica delle informazioni del web da parte di agenti software;
Processare informazioni da parte di una macchina;
Combinare più dati provenienti da forti diverse per avere maggiore informazione;
Introduzione di metadati sul web.
RDF ha un semplice modello di dati basato su grafo orientato, utilizza la sintassi XML e si basa su
un vocabolario. La struttura di base di ogni espressione in RDF è un insieme di triple: SOGGETTO,
PREDICATO, OGGETTO. Come mostrato nella Figura 1, il soggetto e l’oggetto sono rappresentati da
nodi, mentre il predicato dall’arco.
Figura 1. Struttura RDF
Praticamente, il soggetto è la risorsa, il predicato è la proprietà e l’oggetto è il valore.
Una risorsa può essere ad esempio un luogo, una persona, un libro, ecc.. identificati dall’URI. Le
proprietà descrivono le relazioni tra le risorse, ad esempio “fatto da”, “scritto da”, ecc.. . Il valore
può essere un’altra risorsa oppure un letterale, ovvero una stringa[
10
].
Un esempio è il seguente:
-Il docente insegna <<Informatica>>
Soggetto(risorsa): Docente
9
http://www.w3.org/TR/rdf-concepts
10
Grigoris Antoniou and Frank van Harmelen “A Semantic web Primer” Second Edition, 2008
Un sistema per il recupero delle informazioni basato su Open Data
Pagina 8
Predicato(proprietà): Insegna
Oggetto(letterale): <<Informatica>>
1.2 Semantic Open Data
Gli Open Data in alcuni campi tendono ad essere molto rari e necessita di un duro lavoro affinché
si risolvi al minimo tale mancanza. La situazione ideale sarebbe avere la cultura e gli strumenti
adatti per creare dati collegati tra loro semanticamente. Nascono così i Semantic Open Data,
ovvero dati che sono collegati tra loro non più solamente considerando il matching esatto tra le
parole, ma bensì pensando anche al loro significato (semantica), in modo tale da poter avere
ricerche più dettagliate. Il problema, però, che si viene a creare con l’utilizzo dei Semantic Open
Data, è quello dell’ambiguità. Infatti esistono alcune parole che hanno più significati, capibile solo
dal contesto in cui si trovano. Per tale ragione, non hanno ancora trovato diffusione all’interno del
web in quanto ancora oggi si cerca di trovare metodi e strumenti che chiariscono queste
ambiguità.
Uno dei pochi campi in cui i Semantic Open Data sono molto utilizzati è quello chimico, dove
risulta semplice collegare i dati tra loro semanticamente. Qui si effettua una conversione senza
perdita e con completa integrità ontologica in CML[
11
] (Chemical Markup Language), linguaggio
creato da Peter Murray-Rust insieme a Henry Rzepa. È proprio Peter Murray-Rust, professore
dell’Università di Cambridge, a sostenere che tutti i dati devono essere a disposizione di tutti,
senza nessuna restrizione da parte degli editori che invece li nascondono dietro un firewall o
copyright. In tal caso, si passerebbe una buona parte del nostro tempo a fotocopiare le riviste che
possiedono le informazioni di nostro interesse[
12
]. Nell’Università di Cambridge esistono strumenti
che permettono di estrarre dati con percentuali alte di precisione dalle immagini.
Altri dati, invece, sono contenuti in testi e la conversione in PDF distrugge tutta la semantica, la
maggior parte della struttura e tutta l’ontologia. Però, con i PDF di alta qualità è possibile estrarre
quantità impressionante di informazioni. Sembrerebbe insensato, ma i risultati estratti dipendono
fortemente dal modo in cui i documenti sono stati creati e pubblicati.
11
http://www.xml-cml.org
12
http://liveserials.blogspot.it/2008/04/semantic-open-data-in-scientific.html
Un sistema per il recupero delle informazioni basato su Open Data
Pagina 9
La sfida principale, oggi, è proprio quella di trovare metodi efficaci per estrarre dati dai documenti.
Tutti coloro che lavorano con gli Open Data hanno davanti a se un futuro ancora da scoprire e
davvero molto emozionante[
13
].
1.3 Iniziative in corso
1.3.1 Iniziative in corso su Linked Open Data
Relativamente alla gestione e al collegamento delle informazioni attraverso i linked open data,
sono stati sviluppati diversi progetti elencati di seguito:
1) SPECTRa[
14
]: mira alla realizzazione di strumenti software personalizzati che si
occuperanno di depositare dati sperimentali provenienti da esperimenti chimici
(cristallografia a raggi X, chimica computazionale e di sintesi chimica organica). Tale
progetto, realizzato dall’Università di Cambridge e Imperial College, è stato portato a
termine nel 2007;
2) CrystalEye[
15
]: è finalizzato a fornire metodi per agevolare la navigazione e la ricerca su basi
documentali costituite da pubblicazioni scientifiche sul dominio della cristallografia. Si
parte da dati supplementari fino ad arrivare ad articoli o siti web specifici.
3) Linking Open Data[
16
]: è finalizzato alla creazione di una nuova rete aperta, che consenta
l’utilizzo di dati provenienti da fonti differenti e che implementi meccanismi per
l’instaurazione di relazioni tra gli elementi in modo tale da agevolare il passaggio da
un’informazione all’altra.
13
http://blogs.ch.cam.ac.uk/pmr/2009/04/29/bioit-2009-where-do-we-get-semantic-open-data-2
14
http://www.lib.cam.ac.uk/spectra/index.html
15
http://wwmm.ch.cam.ac.uk/crystaleye/index.html
16
http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
Un sistema per il recupero delle informazioni basato su Open Data
Pagina
10
Figura 2. Esempio di DBpedia
Tra gli altri progetti di interesse citiamo DBpedia[
17
], che ha la funzionalità di recuperare le
informazioni presenti su Wikipedia e renderli disponibili sul web per tutti gli utenti in
formato RDF. Mediante le funzionalità implementate nell’ambito di tale progetto, si è
permesso il collegamento dei dati provenienti da Wikipedia con altri di diverse fonti, come
ad esempio Geonames[
18
].
Diversi progetti sono stati avviati nella Pubblica Amministrazione[
19
]. Tali progetti mirano alla
pubblicazione dei dati di competenza della Pubblica Amministrazione. Scopo comune di questi
progetti è mettere a disposizione i dati, in modo tale che possano essere utilizzati in modo
automatico da applicazioni software e risultare disponibili per la consultazione, facendo in modo
che siano di utilità da parte dei cittadini.
Mediante il documento “Linee Guida per i siti web della Pubblica Amministrazione”, pubblicato il
26 luglio 2010[
20
], sono stati formalizzati i criteri da seguire nell’attività di realizzazione dei siti web
17
http://semanticweb30.wordpress.com/2009/01/25/linking-open-data-e-dbpedia
18
http://www.geonames.org
19
http://www.linkedopendata.it/il-progetto
20
“Linee guida per i siti web della PA”, art. 4 della Direttiva 8/09 del Ministero per la pubblica amministrazione e
l’innovazione, 26 luglio 2010
Un sistema per il recupero delle informazioni basato su Open Data
Pagina
11
da parte delle Pubbliche Amministrazioni (PA). In particolare, il documento presenta una serie di
principi su caratteristiche tecniche da considerare per la creazione di siti web e su gestione,
sviluppo e aggiornamento dei dati delle PA forniti on-line. Inoltre, presenta una sezione “Criteri di
indirizzo e strumenti per il trattamento dei dati, della documentazione pubblica e per la loro
reperibilità” in cui spiega con maggiore chiarezza quali sono le modalità di offerta dei contenuti,
classificati secondo uno standard che utilizzi il concetto di riuso, affinché il cittadino sia in grado di
accedere totalmente in maniera trasparente ed efficiente ai dati. In questo caso, la trasparenza è
intesa come “accessibilità totale (…) delle informazioni concernenti ogni aspetto
dell’organizzazione, degli indicatori relativi agli andamenti gestionali e all’utilizzo delle risorse per il
perseguimento delle funzioni istituzionali, dei risultati dell’attività di misurazione e valutazione
(…)”[
21
]; “L’accessibilità totale presuppone, invece, l’accesso da parte dell’intera collettività a tutte
le “informazioni pubbliche”, secondo il paradigma della “libertà di informazione” dell’open
government di origine statunitense. Una tale disciplina è idonea a radicare, se non sempre un
diritto in senso tecnico, una posizione qualificata e diffusa in capo a ciascun cittadino, rispetto
all’azione delle pubbliche amministrazioni, con il principale “scopo di favorire forme diffuse di
controllo del rispetto dei principi di buon andamento e imparzialità””[
22
].
Il rapporto tra PA e cittadino viene ridefinito dalla dottrina Open Government in quanto
quest’ultimo non è più solo fruitore di servizi forniti dalla PA, ma bensì partecipante alle scelte di
governo.
Open Government[
23
] è stato ideato da Barak Obama nel 2009 in seguito alla nascita del Web 2.0 e
dalle piattaforme di social networking. Il presidente americano ha preso subito a cuore il
paradigma del Web 2.0, infatti, come prima cosa, ha pubblicato un Memorandum nel quale
specifica che si impegnerà “ad assicurare la fiducia pubblica e creare un sistema basato sulla
trasparenza, sulla partecipazione pubblica e sulla collaborazione”[
24
].
Dunque, come detto dallo stesso Obama, l’Open Government si basa su tre principi:
Trasparenza: consente ai cittadini di poter reperire le informazioni sulle attività
dell’amministrazione. La PA deve prendere provvedimenti legislativi e adottare
21
Deliberazione Civit n.105/2010 reperibili presso http://www.civit.it/wp-content/uploads/Delibera-n.-105.2010.pdf
22
Deliberazione Civit n.105/2010 reperibili presso http://www.civit.it/wp-content/uploads/Delibera-n.-105.2010.pdf
23
Francesca Di Donato “Lo stato trasparente. Linked open data e cittadinanza attiva” reperibile presso
http://www.linkedopendata.it/wp-content/uploads/statotrasparente.pdf
24
B. OBAMA, Memorandum for the Heads of Executive Departments and Agencies on Transparency and Open
Government, 2009, reperibile presso
http://www.whitehouse.gov/the_press_office/Transparency_and_Open_Government