iii
della materia trattata all'interno degli strumenti informatici messi a disposizione, per
facilitarne l'uso da parte di un'utenza che di quella materia ha familiarità.
Oggetto di questa tesi è l'organizzazione di un insieme di documenti riguardanti
la dottrina giuridica e la realizzazione di un motore di ricerca specializzato. In par-
ticolare si vedrà come sono stati applicati metodi di Machine Learning per l'analisi e
la catalogazione di documenti raccolti dal Web e come le informazioni raccolte siano
state integrate con altre già esistenti.
Tutti i problemi affrontati nella realizzazione del prototipo del Portale e le relative
soluzioni si incontrano anche considerando altri tipi di domini. Il lavoro svolto può
quindi risultare nuovamente utile affrontando risorse diverse dai documenti di dottrina
giuridica.
Struttura dei capitoli
Nel capitolo 1 è illustrato l'argomento di questa tesi e il progetto al quale appartiene.
Vengono illustrate le motivazioni che hanno spinto ad affrontarne la realizzazione e gli
obiettivi che sono stati prefissati.
Viene descritto nel capitolo 2 il formato Dublin Core, che definisce le proprietà dei
documenti del Portale e l'organizzazione delle informazioni raccolte ed elaborate. Si
affronta quindi, nel capitolo 3, l'architettura del Portale, descrivendone in particolare
i componenti già sviluppati. Il lavoro principale della tesi è invece approfondito nei
capitoli successivi.
Nel capitolo 4 è affrontato l'argomento alla base della classificazione dei docu-
menti, svolta attraverso l'addestramento e la creazione di un modello successivamente
usato per catalogare le informazioni raccolte. In particolare è descritta la teoria e il
funzionamento delle Support Vector Machines (SVM).
Si parla quindi, nel capitolo 5, del programma che si occupa di elaborare i dati
provenienti dal Web per produrre documenti strutturati, indicizzabili e ricercabili con
lo strumento e le modalità descritti nel capitolo 6.
Si conclude nel capitolo 7 riassumendo i punti principali del lavoro e parlando di
possibili sviluppi successivi. Seguono in appendice un esempio di documento del Portale
e la lista degli strumenti utilizzati durante lo svolgimento della tesi.
Capitolo 1
Il Portale
1.1 L'accesso alla letteratura giuridica
L'accesso all'informazione giuridica è un diritto fondamentale dei cittadini in ogni paese
democratico (ignorantia legis non excusat).
L'informazione giuridica viene ripartita generalmente in tre tipologie: legislazione,
giurisprudenza e dottrina. La dottrina giuridica in particolare è di primaria importanza
per la specifica funzione di favorire l'interpretazione, la distribuzione e l'applicazione
della legislazione e della giurisprudenza.
I documenti sulla dottrina provengono da studi, giornali specializzati, libri, seminari
e numerose altre fonti. Questo insieme cospicuo ed eterogeneo di dati, così diverso dagli
altri archivi di informazioni giuridiche, richiede una struttura per l'accesso più elastica
ed articolata.
Negli ultimi anni si è sviluppata la tendenza a convertire ogni risorsa in formato
elettronico; molti sono i progetti, istituzionali, accademici e commerciali, che hanno
come scopo la raccolta di materiali di letteratura legale. Inoltre si è sempre più diffusa
la possibilità di accedere ad Internet.
Questo scenario stimola lo sviluppo di strumenti informatici che possano garantire
il recupero e la facile consultazione della dottrina giuridica, sia da parte dei professio-
nisti che da parte dei comuni cittadini. Un portale specializzato rappresenta forse la
soluzione migliore per questo scopo, essendo uno strumento di semplice uso, che può
facilmente essere reso visibile una volta inserito nel Web.
Scopo del Portale non deve essere solo la raccolta di documenti sulla dottrina.
L'utente deve essere in grado di ricercare informazioni di suo interesse e devono essere
messi a disposizione quanti più servizi possibili che possono aiutarlo in questo compito.
Per poter trattare contenuti informativi in modo veloce ed efficace è però necessario che
1
1. Il Portale 2
l'insieme dei dati raccolti sia ben qualificato, cioè che sia accompagnato da un insieme
di metadati significativi.
I metadati descrivono caratteristiche importanti del documento al quale si riferi-
scono. Queste informazioni possono essere contenute nella risorsa raccolta, oppure
essere incluse in strutture esterne non accessibili o in forma non digitale. In ogni caso,
la loro presenza esplicita è necessaria per poter aumentare l'accuratezza nella ricer-
ca dei contenuti richiesti dall'utente e per poter elaborare le informazioni con metodi
automatizzati.
Allo scopo di realizzare questo Portale di dottrina giuridica è nato un progetto, pro-
mosso dall'Istituto di Teoria e Tecniche per l'Informazione Giuridica (ITTIG), organo
del Centro Nazionale delle Ricerche (CNR), che estende il più ampio progetto Norme
In Rete (NIR)1.
Questo istituto, nato nel 2002 dall'accorpamento dell'Istituto per la Documenta-
zione Giuridica e del Centro di Studio sul Diritto Romano e Sistemi Giuridici, svolge
attività di ricerca, alta formazione, consulenza e trasferimento tecnico-scientifico nel
campo delle tecnologie dell'informazione e della comunicazione applicate al diritto e
alla pubblica amministrazione2. La sua sede si trova a Firenze, mentre un'altra sezione
è ubicata a Roma. Uno dei campi nei quali sono investite più risorse è la gestione,
aggiornamento e distribuzione di banche dati d'interesse giuridico.
Questi archivi costituiscono alcune delle fonti dalle quali raccogliere informazioni
pertinenti per la realizzazione di un portale sulla dottrina giuridica. Altre risorse sono
invece presenti sul Web, diffuse nell'enorme insieme di documenti di varia natura.
La caratteristica principale che differenzia questi due tipi di fonti è la loro struttura.
Nel caso delle banche dati, le informazioni presenti sono già organizzate in un formato
adatto a contenere la ricchezza di contenuti della risorsa, sono cioè già presenti molti
metadati. Nel caso di documenti estratti dal Web, invece, non si può fare molto
affidamento sulla loro struttura e i metadati devono essere ricreati.
1.2 Obiettivi del progetto
Il progetto che si vuole presentare ha come obiettivo la realizzazione di un prototipo
di portale sulla dottrina giuridica, in grado di fornire accesso a risorse provenienti da
archivi strutturati e da documenti Web.
1
Il progetto NIR è focalizzato alla realizzazione di un sito Internet che costituisca un punto di
accesso unitario su tutta la documentazione normativa pubblicata su siti Web da organismi istituzionali
italiani. È un progetto nazionale promosso dal Ministero della Giustizia e finanziato dal Centro
Nazionale per l'Informatica nella Pubblica Amministrazione (CNIPA).
2Maggiori informazioni su http://www.ittig.cnr.it/
1. Il Portale 3
Ciò che l'utente generalmente richiede da un portale può essere riassunto dai tre
requisiti seguenti, enunciati tenendo conto che l'oggetto trattato è la dottrina giuridica:
1. copertura degli argomenti trattati, cioè esaustività, ottenuta integrando diverse
fonti, alcune già strutturate ed altre no, specializzate nell'argomento del portale
o meno, organizzate in archivi o raccolte dal Web;
2. consistenza dei dati presentati, ovvero preservare la loro validità nel tempo e la
loro uniformità sintattica;
3. disponibilità e qualità dei servizi di ricerca delle informazioni.
Condizioni essenziali per la predisposizione di strumenti capaci di integrare l'accesso
ad una varietà di documenti con formati e descrizioni diverse sono:
• l'adozione di uno standard per la catalogazione e la rappresentazione delle risorse;
• la creazione di uno strumento affidabile per estrarre informazioni utili dai docu-
menti raccolti;
• l'implementazione di strumenti di ricerca che soddisfino le richieste di utenti
specialisti.
L'uniformità nella descrizione delle risorse in una visione unica sui dati può essere
fornita mediante uno schema di metadati; in particolare, nel progetto del Portale è
stato adottato lo standard di metadati Dublin Core. Questo standard sarà descritto
nel capitolo successivo.
Obiettivo dell'architettura software è la costruzione di un indice di metadati Dublin
Core che fornisca un accesso integrato a risorse di dottrina giuridica di natura diversa.
Per ottenere questo indice sono stati adottati due diversi approcci, in corrispondenza
dei diversi insiemi di dati che devono essere trattati: le risorse provenienti da archivi
strutturati ed i documenti raccolti dal Web.
Per il primo caso era già stata sviluppata una struttura seguendo le indicazioni del
protocollo3 Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH),
all'interno della quale venivano effettuati la raccolta delle risorse dalle basi di dati ed il
mapping dei metadati specifici di ogni archivio nel formato Dublin Core. Questa parte
è descritta nel capitolo 3, nel quale si mostrano l'intera architettura del Portale e le
funzioni di ogni componente.
Nel secondo caso, quello di interesse principale per questa tesi, spesso i documenti
sono privi di metadati, o non presentano una forma tale da permettere una mappa-
tura diretta tra gli elementi del linguaggio HyperText Markup Language (HTML) e il
3Un protocollo è un insieme di regole che definiscono le comunicazioni tra più sistemi.
1. Il Portale 4
formato Dublin Core. Per questi motivi è necessario avere a disposizione un sistema
automatico di generazione di metadati che supporti l'attività intellettuale di qualifica-
zione dei documenti dal punto di vista semantico. Questo strumento è descritto nel
capitolo 5, nel quale è illustrato come sia stato sviluppato un generatore automatico
per i metadati più rilevanti.
Nel capitolo 6 viene infine mostrato come le due fonti di informazioni possano essere
integrate nella realizzazione di un motore di ricerca per il Portale.