3
software (linguaggi di marcatura per ipertesti quali XML, RDF, per citarne alcuni, e motori di
ricerca ad essi ispirati) si propongono come soluzione alla disorganizzazione venutasi a creare
dalla massificazione dell’uso di internet, proponendo un metodo nuovo di progettazione,
gestione e navigazione dei contenuti digitali. Tale metodo chiama in causa la semantica e la
differenziazione logica delle parti che compongono un documento elettronico di seconda
generazione, così da avere informazione strutturata, alla quale è anche possibile attribuire un
eventuale significato. Questo Web di seconda generazione che si va così delineando, prende il
nome di Semantic Web (termine coniato dall’inventore del World Wide Web, Tim Berners
Lee).
1
In tal senso questo cambio di rotta sembra essere un modo per avvicinarsi a quelli che
sono i modi di rappresentare e gestire la conoscenza che gli esseri umani (che sono anche i
fruitori di queste tecnologie) hanno fatto propri . Questa rivoluzione permetterà di sapere che
tipo di documento si sta consultando, di conoscere la struttura del documento e sapere dove
andare a cercare le informazioni di nostro interesse. Anche i nuovi motori di ricerca
consentiranno una ricerca non solo per parole chiave, come avviene ora, ma, ed è questa la
novità, anche per caratteristiche semantiche del contenuto e tipologia del documento che
contiene tali dati di interesse. In questa nuova realtà il nostro amico si recherà in una libreria e
una volta entrato si dirigerà, ad esempio, nel settore scienze umanistiche, poi verso la sezione
psicologia e così via fino a raggiungere le informazioni desiderate, con un margine d’errore
minimo e con un notevole risparmio di tempo e risorse cognitive.
1
Su tale argomento è possibile reperire molte informazioni direttamente on line. Cfr.:, ad esempio, Berners-Lee,
T. et al. (2000), Deckel, V. Harmelen, J. Broekstra et al. (2000)
4
C A P I
I
T O L O
1
Un po’ di storia...
La memoria è stato il primo archivio della conoscenza, legato alla cultura della
comunicazione orale e simboleggiata nel nostro immaginario da Omero, il poeta che non
scrisse. Fu la scrittura, su rotolo o libro, ad imporre un nuovo modo di conservare un
patrimonio che la nuova tecnologia sembrava rendere immenso, grazie alla sua capacità di
superare i limiti umani del tempo: la biblioteca, nuovo serbatoio della memoria umana,
dominò incontrastata da Alessandria d'Egitto ad ogni angolo della terra conosciuta attraverso
due millenni fin quando l'invenzione della stampa a caratteri mobili non sconvolse un sistema
che sembrava perfetto nella sua cristallizzazione. Una mole di carta scritta, prima impossibile
solo da immaginare, si riversò sui banchi degli studiosi, negli scaffali di molte case;
improvvisamente, colto non era più chi aveva avuto il privilegio nella sua vita di leggere
dieci, venti libri, ma soprattutto, per la prima volta la conoscenza poteva essere confrontata e
nella mente di chi leggeva poteva sorgere una nuova esigenza, quella di passare da un testo ad
un altro, costruendo così collegamenti, relazioni e riferimenti incrociati. Più la stampa
affinava il suo processo produttivo moltiplicando per mille i testi disponibili, più i lettori
cominciavano ad immaginare nuovi modi di raccogliere quel pozzo senza fondo. Nasceva
l'arte di classificare i libri, si diffondevano i repertori e, un secolo dopo la vera e propria data
di inizio della diffusione del libro a stampa in Europa, in un testo [Ramelli, 1588] compariva
una macchina in grado di permettere la lettura contemporanea di numerosi libri, o meglio il
passaggio dall'uno all'altro senza la necessità di uno spostamento. Il testo, del 1588 si
intitolava "Le diverse e artificiose macchine del Capitano Agostino Ramelli" e la macchina
altro non era che una ruota con tanti leggii bilanciati su cui poggiare i libri necessari e
tenendoli aperti a piacimento (fig. 1 ). Azzardando un po' si potrebbe dire che nasceva l'idea
dell'ipertesto.
5
Figura 1: macchina di Ramelli
II termine "ipertesto" fu coniato, tuttavia, solo nel 1965 quando Theodor Holm Nelson
in un suo saggio scriveva le seguenti parole:
" Lasciate che io introduca il termine "ipertesto" per rappresentare un insieme di
materiale scritto o figurato interconnesso in un modo così complesso da non poter essere
rappresentato su carta. Esso può contenere sommari o mappe dei suoi contenuti e delle
relazioni che vi intercorrono; può contenere annotazioni, note a fondo pagina di coloro che
vi hanno lavorato sopra [..] tale sistema correttamente disegnato e gestito, presenta grandi
potenzialità nel campo educativo per l'ampia gamma di scelte, per il suo senso di libertà, per
la sua presa intellettuale. Un sistema come questo può crescere indefinitamente, includendo
gradualmente sempre maggiori conoscenze [..]."iper" : ha il significato di estensione [..],
questo prefisso rappresenta l'impossibilità di rappresentare le informazioni contenute
attraverso una rappresentazione lineare, come una stringa di testo”. [Nelson, 1965].
Nel 1962 Douglas Engelbart iniziò un progetto per lo sviluppo di un sistema in grado
di aumentare la produttività degli operatori informatici, liberando il computer dalla schiavitù
6
del calcolo numerico e dedicando le sue potenzialità anche all'elaborazione di testi. Per la
prima volta si poneva il problema dell'interazione e, quindi, del rapporto efficiente tra uomo e
macchina. Nel 1968 Nelson lancia il suo progetto Xanadu con l'obiettivo di costruire un
sistema in grado di assicurare lo scambio di documenti in formato elettronico, attraverso la
comunicazione tra basi di dati, in modo assolutamente trasparente per l'utente, anni in cui,
quindi, diversi studiosi si pongono il problema della nuova struttura da dare alla
documentazione elettronica. Nella utopica visione di Nelson, Xanadu è la base di un universo
informativo globale ed orizzontale - da lui definito docuverse (docuverso) - costituito da una
sconfinata rete ipertestuale, distribuita su una rete mondiale di computer.
Siamo nel maggio del 1990 quando, Tim Berners Lee, un ricercatore del CERN di
Ginevra presenta ai dirigenti dei laboratori una relazione intitolata "Information Management:
a Proposal".
2
La proposta di Berners Lee aveva l'obiettivo di sviluppare un sistema di
pubblicazione e reperimento dell'informazione, distribuito su rete geografica che tenesse in
contatto la comunità internazionale dei fisici. Nacque così il World Wide Web.
2
Al riguardo, cfr.: Berners-Lee ,T. et al. (2000)
7
1.1 Dalla nascita del WWW ad oggi
Da allora la proliferazione delle cosiddette pagine internet non si è più arrestata, anzi,
continua ad aumentare, dopo aver superato il miliardo, con un ritmo di crescita di un milione
di pagine al giorno. Questo dato rende vagamente l’idea di quale universo di conoscenze e
culture diversificate si sia generato in questi anni. Conoscenze, purtroppo, la cui
organizzazione è lasciata alla buona volontà di coloro che pubblicano queste informazioni. Il
linguaggio fin ora usato per la loro compilazione, l’ormai notissimo HTML (anch’esso opera
di Berners Leee), non ha le caratteristiche adatte per poter dare una struttura logica a questi
documenti, poiché fornisce solo una formattazione il cui unico scopo è la visualizzazione a
video.
Chiunque abbia almeno una volta compiuto una ricerca attraverso un motore di ricerca
si è potuto rendere conto che l’impresa, a dispetto degli squilli di tromba e degli entusiasti, è
tutt'altro che banale: da una parte ci sono problemi legati alla individuazione di documenti
utili alle proprie esigenze, dall'altra, spesso i siti sono costruiti in modo da non rendere molto
agevole il reperimento di informazioni che si sa invece con certezza essere su quel host,
dall'altra ancora, il possibile rischio che di fronte ad un link che annuncia finalmente un sito
pieno di informazioni interessanti, la risposta al click sia solo un messaggio di errore da parte
del server. Tutto ciò è dovuto ad alcuni limiti insiti nel linguaggio che ha fatto dilagare il
Web, HTML, e, come vedremo meglio successivamente, non è difficile capirne il perché.
Norman [Norman, 1988] ci fa saggiamente notare che una soluzione ingegneristica,
apparentemente soddisfacente, spesso crea problemi, poiché non prende in considerazione
l’utente e le sue aspettative. L’interazione uomo-computer pone questo problema ad un livello
perfino maggiore, poiché l’attenzione volta a rendere “amichevole” (friendly) il rapporto con
l’utente è un fattore cruciale, affinché questa stessa interazione abbia successo.
8
Al fine di costruire linguaggi per il web sempre più adeguati, si pone, quindi, in primo
luogo, il problema di capire a fondo l’utente e i suoi meccanismi di elaborazione
dell’informazione. Dall’altra parte, è altrettanto importante individuare i principali sforzi
compiuti, e quelli ancora da compiere, nel campo della progettazione di software e di
linguaggi di programmazione, capaci di dar vita ad un rapporto tra uomo e informazioni, da
lui stesso generate, sempre più vantaggioso in termini di efficacia (capacità di raggiungere gli
obiettivi) ed efficienza (economicità nell’impiego delle risorse).
Sono questi due (rappresentazione e gestione della conoscenza e sforzi compiuti sul
versante informatico - ingegneristico) i principali temi che tratteremo nei capitoli due e tre.
Ora, però, soffermiamoci brevemente su quello che appare essere il nodo centrale
dell’intera “questione Semantic Web”: i limiti di HTML.
9
1.2 Limiti di HTML
La rapidità della diffusione di Internet è dovuta certamente all'utilità dello strumento e
alle sue implicazioni rivoluzionarie, ma non si sarebbe mai realizzata senza la presenza di un
substrato tecnico facilmente diffondibile. HTML (Hyper Text Markup Language) ha
rappresentato lo strumento ideale per fungere da substrato.
3
Innanzitutto, ed è il suo più
grande pregio, si tratta di un linguaggio fruibile da qualsiasi sistema operativo; oltre a ciò, il
suo utilizzo è semplice, sufficientemente intuitivo e aperto alla comprensione anche di chi non
possegga particolari competenze informatiche. Queste caratteristiche derivano dal fatto che
HTML non è altro che un linguaggio di formattazione e visualizzazione di testo, un
linguaggio che, partendo da un testo qualsiasi, definisce per ogni elemento la sua dimensione,
forma, colore, posizione ecc… La nascita di HTML (Hyper Text Markup Language) si deve
all’aggiunta da parte di Tim Berners-Lee dell'elemento Link ad una applicazione per la
circolazione dei documenti, SGML (Standard Generalized Markup Language), già utilizzata
all'interno del CERN di Ginevra. Servendosi di questa novità, ad un testo si applica una
marcatura che ne definisce la formattazione degli elementi, tra cui la possibilità per un
elemento di costituire da collegamento ad un altro documento. Sebbene il fatto che tutto
avvenga nella semplice definizione ad un unico livello della marcatura rende l'utilizzo di
HTML semplice, tuttavia ne compromette fin da l'inizio la potenza [Darnel, 1998: 11]. In
effetti, definendo a uno stesso livello il link, la formattazione, ma anche altre informazioni
quali, ad esempio, i metadati, i documenti prodotti in HTML presentano tutti questi elementi
come unità, rendendo difficoltosa la trasmissione e l'interscambio differenziato di questo tipo
di informazioni.
3
Cfr.: Decker, S., et al. (2000), Fensel, D., Lassila, O., Van Harmelen, F., Harrocks, I., Hendler J., McGuinness, D. L.
(2000)
10
Malgrado in questi termini la questione possa apparire poco chiara, è bene sottolineare
come la scarsa predittività dei link sia in parte dovuta proprio all’ impossibilità in HTML di
scindere i pacchetti di informazione. Come appare evidente, esprimendo i dati, i collegamenti
e la formattazione sullo stesso documento e, volendo poi, in un secondo momento,
posizionare questo documento in maniera diversa all’interno della rete ipertestuale, non è
possibile servirsi solo delle informazioni utili al fine di costituire la nuova relazione ma si
dovrà trascinare l’intero documento. In HTML i collegamenti fra documenti risultano molto
spesso rozzi, nel senso che si presentano o incapaci di comunicare la reale relazione semantica
che attivano o incapaci di offrire un testo che realizzi la relazione semantica promessa. Questo
proprio per la rigidità del linguaggio che posiziona ogni tipo di marcatura allo stesso livello.
In altre parole HTML non consente nessun tipo di ordinamento semantico
dell'informazione: non è possibile definire al suo interno una struttura o stabilire quali sezioni
convoglino quale tipo di dati.
La situazione è poi aggravata dal fatto che attualmente sulla rete le informazioni
convogliate da un documento non si limitano a testo ed immagine ma, molto spesso,
riguardano database, suoni, video, audio. HTML è stato chiamato a descrivere tipi differenti e
specifici di informazioni, a definire relazioni complesse di collegamenti fra documenti, a
trasmettere informazioni in diversi formati, tutti compiti per i quali non era stato progettato e
che hanno reso evidente la sua eccessiva rigidità. Non a caso l'HTML è oggi affiancato da una
miriade di supporti sul server (CGI, JAVA), che ne accrescono le potenzialità ma che
acutizzano il problema della cosiddetta balcanizzazione del Web, cioè della sua
frammentazione in territori di informazione gestita da linguaggi diversi [Floyd, 2000].
Oggi per la comunità informatica si offre tuttavia una possibilità di rendere più
agilmente gestibile l'informazione in Internet, come anche nelle reti locali. Questa possibilità
è offerta dal linguaggio di marcatura XML (Extensible Markup Language), un linguaggio che
11
ha come sua caratteristica fondamentale quella di rendere libera e personale la marcatura del
testo, nonché quella di suddividere l'informazione finale prodotta attraverso più documenti.
Prima di passare a XML e ad altri accorgimenti informatici, volti a rendere più
agevole ed intelligente la ricerca di informazioni sul web, appare, a questo punto, opportuno
descrivere, seppure brevemente, alcuni modelli psicologici del modo in cui l’uomo giunge ad
una rappresentazione della conoscenza e alla capacità di richiamare le informazioni giuste al
momento giusto. Come argomenteremo meglio nelle pagine successive, obiettivo di questa
tesi è, in effetti, proprio quello di mettere in luce le possibili relazioni esistenti tra i
meccanismi mentali di organizzazione e gestione dell’informazione e gli strumenti informatici
elaborati nel contesto del Semantic web. In particolare, sarebbe molto interessante poter
giungere a definire come e se le conoscenze acquisite in campo psicologico possano
contribuire alla messa a punto di strumenti informatici sempre più adeguati per il knowledge
management.