Introduzione
Negli ultimi anni abbiamo assistito ad un enorme e rapido aumento non solo della
quantità ma anche della varietà di risorse disponibili online (testi, suoni, immagini,
video, 3D, ecc...). È nata perciò la necessità di descrivere questi dati in maniera
appropriata per permettere agli utenti di trovarli sul web e accedervi ( search and
retrieval ), renderli disponibili a istituzioni e organizzazioni per creare servizi e
permettere anche a fruitori non umani di “consumarli” (es. motori di ricerca,
applicazioni, ecc...)
Specialmente in virtù di questo apporto sempre più decisivo delle tecnologie digitali,
le istituzioni culturali hanno avvertito fortemente la necessità di estendere l’accesso
al proprio patrimonio, aprendo l’orizzonte conoscitivo attraverso il confronto e la
collaborazione con altre realtà.
Gli scenari per lo sviluppo e la trasmissione della conoscenza, nonché per un nuovo
ripensamento del concetto stesso di conoscenza, trovano condizioni ideali in
“ambienti” come il web semantico.
Per queste ragioni, archivi e musei oggi si preoccupano di convertire l’informazione
in dati aperti e soprattutto collegati , superando l’approccio limitante e ormai obsoleto
dei “silos di informazione”. I dati infatti acquistano valore quando sono interconnessi
con altri dati, e questo arricchimento è possibile grazie all’applicazione dei principi e
delle tecnologie Linked Open Data (LOD) .
Far uscire fuori i dati locali e renderli aperti e universalmente accessibili
significa offrire opportunità di visibilità anche a dataset di piccola dimensione o che
fanno riferimento ad una località geografica circoscritta.
Inoltre l’integrazione dei dati con quelli di altre istituzioni non solo aumenta il loro
potenziale informativo ma li rende più completi e riusabili in contesti anche molto
diversi da quelli d’origine.
La mission delle istituzioni culturali oggi è quindi quella di trattare e comunicare le
informazioni sui beni culturali partecipando alla costruzione del web semantico e
alla divulgazione della conoscenza del Cultural Heritage .
8
Tutti i principi che costituiscono il paradigma dei Linked Data , applicati nel mondo
del Cultural Heritage, ne consentono una comunicazione efficace, arricchita e di
ampio raggio, raggiungibile anche dai nuovi fruitori di informazione: le macchine.
In quest’ottica l'obiettivo del progetto consiste nella creazione di un dataset Linked
Open Data relativo alla descrizione di beni artistici e culturali.
Lo scopo finale è quello di pubblicare tali dati all'interno della rete LOD Cloud ,
rendendoli disponibili all'utilizzo da parte anche delle macchine: l’opportunità offerta
da questo nuovo metodo di pubblicare dati sul web, è l’esempio una radicale
trasformazione del rapporto tra utente (umano e non) e universo dei beni culturali.
Il progetto vuole perciò presentarsi come esempio, in scala, della rivoluzione
copernicana dei Linked Open Data nel mondo dei beni culturali.
● Il Capitolo 1 passa in rassegna il vasto mondo dei Linked Open Data e del
web semantico, illustrandone i principi, l’evoluzione nel tempo e
approfondendo i concetti di RDF, ontologie, vocabolari.
● Il Capitolo 2 scende nel dettaglio del mondo dei beni culturali, e in particolar
modo dell’approccio Linked Open Data applicato all'interno di questo mondo,
evidenziando i vantaggi che vi può apportare. Viene fatta una panoramica
generale degli standard di metadati internazionali e nazionali, con particolare
attenzione ad alcuni standard d’interesse utilizzati in Italia per i beni culturali.
● Il Capitolo 3 descrive lo stato dell’arte degli Open Data e dei Linked Data in
Italia per trarne qualche informazione quantitativa in modo da valutare
l’adozione di tali approcci. Inoltre passa in rassegna alcuni lavori simili al
progetto svolto.
● Il Capitolo 4 presenta una panoramica generale del Linked Open Data
Project e della sua evoluzione nel tempo. Illustra inoltre alcuni modelli e
approcci alla pubblicazione di dati LOD presenti in letteratura, e si sofferma
sulla descrizione del portale Mèmora, la fonte dei dati del progetto.
9
● Il Capitolo 5 descrive nel dettaglio tutte le fasi del lavoro di conversione e
pubblicazione dei dati del Fondo antico di Novi Ligure in Linked Open Data .
● Il Capitolo 6, infine, presenta una breve valutazione del lavoro svolto ed
espone i possibili sviluppi futuri e le considerazioni conclusive.
10
1. Linked Open Data
1.1 Rappresentazione della conoscenza
Per descrivere i dati, si usano i metadati , cioè informazioni (marcatori) che li
descrivono.
Ne esistono diversi tipi, a seconda della tipologia di risorsa da descrivere
(amministrativi e gestionali, descrittivi, di conservazione, tecnici).
Gli standard di metadati nazionali e internazionali più usati nel mondo delle
biblioteche e dei beni culturali sono i seguenti: MARC, DC, MODS, METS, MIX,
EAD, ISBD, RDA, VRA, ISAAR, ISAD, ISNI, NIERA.
Ciascuno di essi è descritto nel dettaglio al capitolo 2 .
1.2 RDF ( Resource Description Framework )
1
RDF è un modello proposto dal World Wide Web Consortium (W3C) per la codifica,
2
lo scambio e il riutilizzo di dati strutturati e consente l' interoperabilità semantica tra
applicazioni che condividono le informazioni sul Web.
La crescente interoperabilità fra i dati è certo un avanzamento molto
rilevante, dal punto di vista tecnico [...] Tuttavia, come sempre, la tecnica
non basta. Perché sia giustificato l’aggettivo “semantico”, occorre che i dati
siano interoperabili non solo in quanto stringhe di bit ma anche in quanto
significati. Occorre cioè riconoscere e trattare problemi di omografia e
sinonimia fra termini e di relazioni fra concetti
3
1
Standard RDF, ultima versione
https://www.w3.org/TR/2014/NOTE-rdf11-primer-20140624/
2
W3C https://www.w3.org/
3
C. Gnoli, Connettere la conoscenza: quattro livelli di interoperabilità, in Biblioteche oggi,
vol.32, n°5, 2014, pp. 9-10
11
Il modello di dati RDF è progettato per la rappresentazione integrata di informazioni
4
che provengono da più fonti e rappresenta le informazioni come grafi diretti
etichettati (vedi fig. sotto).
La descrizione di una risorsa è rappresentata da un numero di triple ; le tre parti di
5
ogni tripla sono soggetto , oggetto (nodi del grafo) e predicato (arco del grafo),
identificati rispettivamente da tre URI .
Gli URI del soggetto e dell’oggetto identificano le risorse correlate, mentre quello del
predicato definisce il tipo di relazione tra le risorse.
In particolare, gli URI predicati sono raccolti in vocabolari utilizzati per rappresentare
informazioni su un determinato dominio.
Fig. 1.1 Esempio di una tripla RDF rappresentata con un grafo.
RDF fornisce un modo per descrivere entità del mondo (persone, luoghi o concetti
astratti) e il modo in cui esse si relazionano (si “collegano”) ad altre entità, così da
offrire ai calcolatori una conoscenza del nostro universo.
RDF permette di rappresentare ma anche di pubblicare queste informazioni sul Web
in una forma che gli altri (umani o macchine) possono scoprire e riutilizzare.
6
4
Modello di dati RDF: https://www.w3.org/TR/rdf-concepts/
5
Non ci occupiamo qui di triple letterali ma di collegamenti RDF : per approfondire
http://linkeddatabook.com/editions/1.0/#htoc16
6
Per approfondire: T. Baker, La traduzione dei dati nel linguaggio del web semantico , in
Rivista italiana di biblioteconomia, archivistica e scienza dell’informazione, vol.4, n°1, 2013,
https://www.jlis.it/article/view/6308/7866
12
I collegamenti RDF possono essere interni ed esterni:
● I link RDF interni collegano le risorse all'interno di una singola fonte
( repository ) di dati collegati. Pertanto, gli URI di soggetto e oggetto hanno lo
stesso namespace .
● I link RDF esterni connettono risorse provenienti da diverse origini di dati
collegati. Gli URI di soggetto e oggetto hanno namespace diversi. I link
esterni sono fondamentali per lo sviluppo e il mantenimento del web of data
( cap. 1.4 ).
Le caratteristiche principali dei link RDF che vale la pena notare in questo contesto
sono quelle che li differenziano dai link HTML ( <a>...</a> ) :
7
● I link RDF collegano entità, non solo documenti.
● I link RDF sono tipizzati. Ciò significa che non lasciano all'utente l'inferenza
della natura della loro relazione, ma consentono all'editore di dichiarare
esplicitamente in tipo di connessione. Ad esempio, il collegamento “amico di”
è un tipo di relazione tra due persone. Rendendo espliciti questi
collegamenti, RDF permette alle applicazioni di percorrerlli e scoprire una
quantità sempre maggiore di dati .
Rendere espliciti i link tra diversi dataset, specialmente a livello semantico, richiede
la definizione rigorosa di tutte le caratteristiche “astratte” del sistema di dati e
metadati. Questo processo richiede l'individuazione di vocabolari e ontologie di
riferimento.
7
C. Bizer, T. Heath, Linked Data: Evolving the Web into a Global Data Space (1st edition) ,
2011, cap. 2.1.
A. Iacono, Introduzione a Linked Open data e Web semantico , 2016, Università La
Sapienza, Roma, pp.36-37
13
Fig. 1.2 Esempi di ink RDF interni ed esterni
1.3 Ontologie e vocabolari
La distinzione tra ontologie e vocabolari , nell’ambito della rappresentazione formale
della conoscenza, non è netta. Generalmente:
● Un vocabolario è una lista chiusa di termini da usare come valori nella tripla
RDF.
● Una ontologia è una rappresentazione formale per concettualizzare un
dominio di interesse, cioè per descrivere relazioni / modelli concettuali
tramite classi e proprietà . Serve per descrivere il modo in cui diversi schemi
vengono combinati in una struttura dati (vocabolario) contenente tutte le entità
rilevanti e le loro relazioni all’interno del dominio.
8
8
Mentre i meccanismi di classificazione si occupano dell’accesso all’informazione,
basandosi su criteri prederminati codificati con elementi “sintattici”, le ontologie si
concentrano sul significato (“semantica ” ) dei termini e sulla natura e struttura di un dominio.
(O. Signore, O. Missikoff, P. Moscati, La gestione della conoscenza in archeologia: modelli,
linguaggi e strumenti di modellazione concettuale dall’XML al Semantic Web , in Archeologia
e Calcolatori, n°16, 2005, pag. 294)
14
I vocabolari controllati sono insiemi di termini prescelti in quanto d’uso attestato da
9
una o più fonti ( authorities ), raccolti e ordinati logicamente tra loro allo scopo di
riferire le varianti (ortografiche, sincroniche, diacroniche, …). Nel caso in cui i termini
siano connessi tra loro anche in relazione gerarchica o associativa, i vocabolari
controllati prendono il nome di thesauri .
1011
[...] thesauri, mappe concettuali e ontologie non possono essere usati se non
in stretta correlazione l’uno con gli altri. Attraverso uno stretto legame tra le
diverse autorità terminologiche si può realizzare un effettivo controllo della
conoscenza senza il quale Internet rischia di diventare un’immensa raccolta
di dati e di informazioni difficilmente utilizzabili.
12
Le varie istituzioni hanno preferenze diverse sui vocabolari da utilizzare per
rappresentare i propri contenuti: standard differenti vengono quindi utilizzati
parallelamente.
Nonostante questa generale apertura, è considerata una buona pratica riutilizzare,
ove possibile, termini da vocabolari RDF noti al fine di rendere più semplice
l'elaborazione delle applicazioni client . Solo se questi vocabolari non forniscono i
termini richiesti, gli editori di dati possono definire una nuova terminologia specifica
per i dati.
Tra quelli più utilizzati ci sono:
● SKOS ( Simple Knowledge Organization System ), per esprimere thesauri e
13
gerarchie concettuali (tassonomie);
9
Vocabolari controllati dell’ICCD:
https://github.com/ICCD-MiBACT/Standard-catalografici/tree/master/strumenti-terminologici
10
L. Corti, Beni culturali, standards di rappresentazione, descrizione e vocabolario , in:
Informatica e beni culturali , Franco Cosimo Panini Editore, Modena, 1992, pag. 193.
“Thesaurus: costruzione ramificata di un vocabolario, specifica per disciplina” (Sapienza
Università di Roma, Banca dati LOD della Biblioteca di Economia “Enrico Barone”, Il web
semantico oggi, pag.2)
11
Nei sistemi di Information Retrieval, la valutazione dei valori di “precisione” e “recupero”
avviene (anche) in rapporto al vocabolario controllato (vedi:
https://en.wikipedia.org/wiki/Precision_and_recall ).
12
P. Capitani, Il Knowledge Management, in: Associazione Italiana Formatori , Franco Angeli
Editore, Milano, 2006 , pag.47
13
https://www.w3.org/TR/skos-reference/ , https://www.w3.org/2004/02/skos/
15
● DCMI ( The Dublin Core Metadata Initiative ) Metadata Terms : definisce
14
attributi generici come “titolo”, “autore”, “data”, ecc ...
● FOAF ( Friend-of-a-Friend ): definisce termini per descrivere persone, le loro
15
attività e le loro relazioni con altre persone e oggetti.
OWL ( Web Ontology Language ) e RDF Schema (RDFS) sono invece delle
16 17
ontologie.
RDFS è un insieme di classi e proprietà RDF che estende il vocabolario base di RDF e
viene utilizzato per strutturare altri vocabolari RDF; diverse delle sue componenti sono
incluse in OWL che è più espressivo.
Fig. 1.3 Ontology Spectrum : diagramma dei vari tipi di ontologia in base alla forza
semantica.
18
Le tecnologie messe a disposizione dal Semantic Web si collocano tra i punti più alti di
questo diagramma, permettendo di esprimere in modo completo il significato ontologico dei
dati spiegando come questi devono essere interpretati.
14
http://www.dublincore.org/specifications/dublin-core/dcmi-terms/
15
http://xmlns.com/foaf/spec/
16
https://www.w3.org/TR/owl-features/
17
https://www.w3.org/TR/rdf-schema/
18
M. C. Daconta, L. J. Obrst, K. T Smith, The Semantic Web: A Guide to the Future of XML,
Web Services, and Knowledge Management , Wiley, 2003.
16