12
Dovranno comunque di volta in volta essere prese in
considerazione le peculiari tà del sistema informativo in analisi per
permettere un‟ integrazione che allo s tesso tempo sia efficace ed
efficiente.
Organizzazione
Nella presente tesi verranno descrit te tutte le fasi della
progettazione.
Nel capitolo 1 verranno esposti gli aspett i relativi al la gestione
documentale, al fine di chiari re i concett i di base ed individuare i l
problema proposto.
Nel capitolo 2 verranno esposti i concett i generali relativi al
mondo dell‟ Information ret rieval , disciplina che è alla base del
funzionamento dei motori di ricerca.
Nel capitolo 3 verrà analizzata l a struttura dei meta motori di
ricerca e come i sistemi di voto vengano in aiuto nella compilazione del
risultato finale.
Nel capitolo 4 verrà proposta la soluzione del problema attraverso
la destrutturazione dei documenti strutturati , con l ‟aiuto dei meta
motori di ricerca.
Nel capitolo 5 si descriveranno i prodot ti e le tecnologie che sono
state considerate nel la pratica per l ‟analisi in questione.
Nel capitolo 6 saranno delineati gli spunti di ricerca futuri emersi
dalla t rat tazione.
Infine, verranno riportate alcune note conclusive.
13
1 LA GESTIONE DOCUMENTALE
«Pensiamo per concett i genera li , ma
viviamo di particolari .»
Alfred North Whitehead
1.1 Definizioni
Un documento può essere visto come un ‟ informazione organizzata
o un oggetto, t rat tato come unità.
Un documento non-strutturato è un documento senza un formato
specifico (ad esempio, un fi le di testo); un documento semi-strutturato
è un documento diviso in sezioni o paragrafi (ad esempio, un testo
formattato o una pagina web) .
I meta data (meta informazioni) sono informazioni strutturate che
descrivono singoli oggett i per fornire conoscenze aggiuntive per
trovare, gestire , controllare, capire o preservare tal i oggett i .
Un l inguaggio di annotazione ( l inguaggio di markup) è un sistema
formale per scambiare o pubblicare informazioni in modo strutturato.
XML è un l inguaggio di annotazione che fornisce un formato per la
descrizione di dati strutturati , che consente di dichiarare con maggior
precisione i l contenuto dei dati e di ottenere risultat i più s ignificativ i
nelle ricerche eseguite su diverse piattaforme (definisce in modo non
ambiguo la st ruttura dei dati contenuti nel documento).
Un documento strutturato è un documento che al suo interno
contiene un l inguaggio di annotazione che definisca le informazioni d i
base relative al documento stesso (es. l‟autore di un documento, i l
cl iente a cui fa riferimento una fattura, i l mittente di un messaggio di
posta elettronica). La strutturazione dei documenti è un aspetto
importante dato che permette di elaborare i docu menti in modo
automatico (archiviazione) e renderli facilmente recuperabil i ed
interpretabil i .
14
Una classe di documento (document class ) è la definizione delle
meta informazioni che sono contenute in un documento strutturato (es.
art icolo, fat tura, messaggio di posta elettronica). In l inguaggio XML,
un documento st rutturato è un ‟ istanza di documento mentre una classe
di documento è quel l ‟ insieme di regole che l ‟ istanza di documento deve
rispettare.
La gestione dei documenti (document management ) è i l processo di
acquisizione, condivisione, tracciamento, revisione e distr ibuzione di
documenti e delle informazioni in essi contenute.
Un sistema di gestione documentale (document management system
– DMS) è un sistema automatico di supporto alla creazione, uti l izzo e
manutenzione per la creazione di documenti (non dati ).
Un records management system (RMS) è un sistema per
l‟ identi ficazione, la classificazione, l ‟archiviazione e, a volte, la
cancellazione di record (rappresentati da singoli documenti).
Un sistema di gest ione documentale elettronica (EDMS) è un
sistema completo software e hardware per la gestione documentale;
include servizi di indicizzazione e ricerca dei documenti , acquisizione,
OCR, mass storage, gestione del worflow e della
condivisione/collaborazione.
Un electronic records management system (ERMS ) è un sistema
automatico per gest ire la creazione, l ‟util izzo, la manutenzione e la
distribuzione di record elettronici; questi sistemi mantengono delle
informazioni contestuali appropriate (metadata) e co llegamenti tra
record al fine di evidenziare i l loro contenuto.
1.2 Il problema: la strutturazione d i documenti non
strutturati
La maggior parte delle informazioni aziendali (circa l ‟80%) è
composta da documenti non strutturati , mentre gli at tuali sistemi di
gestione documental i non sono in grado di gesti re tal i documenti senza
un consistente intervento umano. Fino a poco tempo fa l ‟unico modo
che si aveva per gestire un documento di questo t ipo era la sua let tura
15
da un operatore e la successiva indicizzazione manuale all ‟ interno di un
EDMS. [Mur03]
Recentemente sono nati sistemi di auto classificazione e di auto
estrazione che riescono ad estrarre da documenti elett ronici non
strutturati o da documenti cartacei st rutturati (at traverso un sistema di
OCR) le informazioni necessarie per una loro indicizzazione automatica
o un loro inserimento in un sistema di gestione documentale.
Il problema della strutturazione di documenti non st rutturati
rimane comunque uno dei punti chiave della ricerca in campo
documentale, data la mole di informazioni che deve essere gesti ta ogni
giorno dalle aziende e dalla necessità di trasformare ogni singolo
documento in una componente del proprio patrimonio informativo.
1.3 Il vantaggio nell ’utilizzare documenti strutturati
L‟util izzo di st rumenti per la strutturazione dei documenti è la via
più efficace ed economica per gestire le informazioni. La st rutturazione
delle informazioni è un processo naturale della mente umana spesso
sottovalutato o considerato implicito , ma l ‟umanità ha sempre
considerato questo processo come fondamentale nella stesura di
documenti (basti pensare all ‟util izzo di sommari , indici , divisione in
capitoli /paragrafi). [MR96]
La strutturazione dei documenti permette di:
elaborare i documenti in maniera automatica in pro cessi di
archiviazione o di es trazione dati ;
effettuare ricerche efficaci in una base documentale;
rendere i l contenuto del documento faci lmente recuperabile
ed interpretabile;
identificare, elaborare ed estrarre qualsiasi parte di
documento.
L‟archiviazione di tal i documenti risulterà tanto dettagliata quanto
la finezza della granulari tà della classe di documento, superando così
gli inconvenienti dell ‟archiviazione dei documenti come fi le interi .
Generalmente un documento st rutturato viene quind i visto come un
16
insieme ordinato di nodi et ichettati , organizzato gerarchicamente con
una st ruttura ad albero, permettendo un ‟ulteriore gestione della
struttura gerarchica che a sua volta avvia una catena di elaborazione
automatica del documento (es. sistemi di gestione automatica del
workflow in cui ogni processo aziendale viene accompagnato dalla
relativa documentazione che passa di elaborazione in elaborazione).
[GalCap03]
1.4 Il ciclo di vita di un documento : workflow
documentale
Parlando del ciclo di vita di un documento occorre considerare i l
lavoro dei sistemi di gestione documentale, i l cui compito è proprio di
seguire potenzialmente tutto i l ciclo di vita di un documento, dalla sua
creazione in poi, gestendo aspett i che spaziano dalla memorizzazione
alla ricerca, dalla condivisione fra i dipendenti al la pubblicazione su
Internet (tra le funzioni cri t iche anche la definizione dei diri t t i di
accesso ai documenti e la forma in cui essi possono essere visualizzati
o stampati ). Tali sis temi possono anche interfacciarsi con i sistemi di
workflow, un aspetto particolarmente uti le quando i documenti sono
parte di un processo ben definito (per esempio l ‟approvazione di
acquisti ) che vede coinvolte più figure aziendali .
Analizziamo ora i l processo di creazione e gestione di un
documento condiviso.
La prima azione è la creazione del documento (anche detta check-
in): questa non si esaurisce con la sola scri t tura del documento, ma è
necessaria la sua archiviazione tenendo conto delle meta informazion i
ad esso associate che rappresentano i l documento (quasi) a prescindere
dal proprio contenuto (es. autore, data di creazione, progetto di
riferimento). Tali informazioni sono essenziali nella logica
organizzativa della gestione di un documento strutturato .
È comunque diffici le creare elementi di catalogazione oggett ivi
per chi deve progettare tutte le categorie in cui devono essere
organizzati i documenti: un documento può appartenere a più categorie,
17
oppure l ‟utente che deve scegliere dove classificare i l proprio
documento (alcuni sistemi uti l izzano allora sistemi automatici di
categorizzazione semantica che si basano sul algoritmi di text mining).
Per quanto riguarda l ‟archiviazione del documento, i l sistema deve
conservare non solo i l documento fis ico, m a anche l ‟ insieme dei
metadati a esso associati . Normalmente si parla di repository , anche se
in realtà l ‟archiviazione fisica del documento è effettuata in un fi le
system e quella dei metadati in un database relazionale. Si crea
successivamente una serie di collegamenti fra i due archivi tenendo
presente che l ‟utente, per accedere a un fi le (sul fi le system), deve
passare dal database che conserva i metadati collegati a quel fi le.
L‟architettura quindi normalmente è a tre l ivell i : i l cl ient (ult imamente
un browser) , i l server di gestione e i due elementi di archiviazione
(repository) .
A questo punto i l documento inizia a viaggiare logicamente
nell‟azienda e viene uti l izzato per acquisire conoscenza e per prendere
decisioni. Si parla quindi di workflow documentale definendolo come
un modello "a t re R": routes (processi: la sequenza di passi), rules
(azioni: ciò che va fatto) e roles (persone: chi lo deve fare) . Il
workflow documentale, che va ben dist into dal workflow di processo,
assume diversi aspett i a seconda del t ipo di processo: sequenziale,
condizionale, "t ime driven" (scandito dal tempo) o parallelo. [NW00]
In questo t rattato non analizzeremo gli aspett i propri di una
gestione di workflow non essendo oggetto del lavoro di tes i , ma questa
breve analisi è importante per capire l ‟effett iva importanza della meta
informazioni associate ad un documento.