4
documento potrà avere un suo codice che identifichi univocamente il suo autore, si potrà
chiedere l’autenticazione dell’informazione e si potrà realizzare una rete di fiducia, in cui ogni
dato sarà seguito da una dichiarazione di veridicità sottoscritta da diversi attori o da apposite
aziende di certificazione. Ogni risultato ottenuto da un agente potrà essere verificato
dall’operatore chiedendo le motivazioni di tale risposta, sarà così possibile verificare il
“ragionamento“ fatto dall’agente e, al limite, modificare o rifiutare il risultato ottenuto.
Per ognuno di tali aspetti saranno necessarie opportune tecnologie, alcune delle quali sono già
disponibili e saranno analizzate in questo lavoro, per le altre sicuramente ci saranno sviluppi
futuri.
Avere un Web semantico significherà non solo avere strumenti più evoluti per la ricerca e la
gestione della conoscenza, ma comporterà un aumento della comprensione reciproca
permettendo, anche alle sottoculture, di comunicare e capirsi a vicenda. Si potrà così creare un
linguaggio e una conoscenza comune e condivisa.
5
Capitolo 2
Breve storia del Web e situazione attuale
La nascita del Web di solito si fa risalire all’utilizzo del primo browser commerciale di
Netscape, ma in realtà ben altri sono stati i passi iniziali.
L’idea di uno spazio in cui tutte le informazioni potevano essere disponibili a chiunque risale
agli anni 60 grazie a Ted Nelson il quale per primo ipotizzò uno spazio virtuale “Xanadu” in
cui tutte le informazioni erano disponibili sotto forma di ipertesto; con tale termine, coniato
per la prima volta, Nelson voleva indicare un testo “non lineare” nel senso che la sua lettura
non doveva obbligatoriamente procedere linearmente da pagina a pagina, ma poteva seguire
percorsi alternativi seguendo i vari “link”. Nella sua visione di Xanadu, Nelson ipotizzava una
forma di “copyright” in cui ogni qualvolta un autore veniva citato questi aveva diritto ad una
piccola percentuale, in tal modo l’informazione sarebbe circolata molto più velocemente,
garantendo a chiunque guadagni sulle proprie scoperte o informazioni, tutto però senza
organismi centrali di controllo (fu un’idea che non ebbe successo).
Il primo a mettere in pratica tale visione di spazio condiviso dell’informazione fu Tim Berners
Lee il quale con il suo primo programma “Enquire” (del 1980) già immaginava “un mondo in
cui tutti i computer sono collegati e scambiano informazioni, o pezzi di esse, con gli altri”[9];
il nome proveniva da un libro “Enquire Within upon Everything” che era un volume di
consigli pratici dell’era vittoriana su qualsiasi argomento, da come smacchiare i vestiti a come
investire in borsa; tale libro aveva ispirato l’idea di un portale su un universo in cui tutte le
informazioni fossero disponibili a tutti. Enquire era pensato in modo da poter inserire nuovi
frammenti d’informazione semplicemente collegandoli ad altri già esistenti. Tale programma
utilizzava link sia interni (tra elementi di uno stesso documento) sia esterni (tra elementi
presenti in file diversi o direttamente tra file). In tal modo lasciava piena libertà d’utilizzo,
permettendo di collegare le informazioni non solo ad altre presenti nel proprio terminale ma
anche a quelle presenti in altri terminali distribuiti in rete. L’idea di fondo, che guidava
l’autore, era la possibilità di definire un frammento d’informazione semplicemente
dichiarando i collegamenti e le loro proprietà (idea che sarà poi ripresa per il Web
Semantico).
Durante gli anni 80 si inizia a sfruttare i concetti di reti di computer con l’utilizzo di Internet e
altre reti locali tra varie istituzioni, nel frattempo l’uso dei computer aumenta e compaiono i
primi personal computers adatti anche ad un uso non professionale.
6
Nel 1989 Berners Lee elabora la sua prima proposta di World Wide Web e la consegna al
CERN.
Solo nel 1990 incomincia lo sviluppo vero e proprio; Berners Lee, assieme ai suoi
collaboratori, realizza il primo client e server Web; un client è un programma in grado di
collegarsi alla rete e “leggere” le informazioni, un server è il programma in grado di fornire
alla rete tali informazioni. Sempre nel 1990 viene proposto il protocollo HTTP (Hypertext
Transfer Protocol), questo è un linguaggio che permette a due computers di “capirsi a
vicenda”, quindi di interpretare i dati che si scambiano e di concordarsi sulle regole di
scambio. In fine, si propone lo schema per gli indirizzi dei vari documenti URI (Universal
Resource Indentifier) [10] che può essere considerato l’equivalente del codice postale
all’interno dell’ipertesto; un indirizzo URI identifica univocamente un documento all’interno
di una rete o di uno stesso computer.
Per permettere la creazione di pagine Web, Berners Lee elabora un suo linguaggio di markup
l’HTML (Hypertext Markup Language), questo è una derivazione del più complesso SGML
che permette al programmatore di inserire delle etichette (“tag”) all’interno di un documento
in modo da identificare che tipo d’elemento si sta utilizzando. In HTML queste etichette, a
differenza di SGML (e di XML), sono prestabilite e non possono essere personalizzate; un
esempio banale di formato HTML è:
<HTML>
<TITLE>
La mia pagina Web
</TITLE>
<BODY>
Questa è la mia prima pagina Web
</BODY>
</HTML>
Come si può notare le etichette sono racchiuse da due parentesi <> e ogni etichetta aperta è
chiusa con il simbolo / . Nell’esempio abbiamo inserito l’etichetta TITLE che identifica il
nome della pagina come sarà visualizzata in cima alla finestra del browser e l’etichetta BODY
che identifica il “corpo”(il contenuto) della pagina .
Alla fine del 1990, Berners Lee programma il primo browser Web chiamato WorldWideWeb.
Un browser è un programma che “legge” i dati dalla rete e li presenta all’utente in maniera
strutturata; tale programma funzionava solo sul sistema NeXT, mentre per le altre piattaforme
7
venne sviluppato un piccolo browser “line-mode” che presentava le informazioni solo in riga
di testo.
Nel 1991 vengono resi disponibili su Internet i browser e il server, inizia così la diffusione del
Web (aiutata dai consigli e critiche provenienti dalla comunità di utenti tramite il newsgroup
alt.hypertext ). Come dice lo stesso Tim Berners-Lee, “è stata la gente interessata presente in
Internet che ha costruito il Web dalle fondamenta fornendo feedback, stimoli, idee, contributi
al codice sorgente e supporto morale”[9].
Nel 1992 inizia la gara dei Browser: vedono la luce “Erwise” sviluppato da un gruppo di
studenti Finlandesi che funzionava sotto X-Windows (interfaccia grafica per i sistemi Unix),
ViolaWWW creato da Pei Wei per Unix (ottimo nella gestione della grafica ma difficile da
installare), Samba primo browser per Macintosh (anche se non completo come gli altri) e
Midas sempre per X-Windows; con l’arrivo di tali browser il numero di server aumenta
vistosamente, nasce l’acronimo URL (Uniform Resource Locator) come sotto tipo di URI in
quanto si riferisce solo agli indirizzi di risorse sul Web (in pratica, consiste nella sequenza di
quattro triple di numeri, ad es. 193.205.166.230).
Nel 1993 la diffusione del Web aumenta vistosamente, nascono altri browser: Arena creato da
un programmatore della HP, Mosaic sviluppato alla NCSA da Marc Andreessen ed Eric Bina
(questo fu il primo browser pensato in un’ottica commerciale, quindi, solo con lo scopo di
farlo usare a più persone possibili ), Cello primo browser per Windows Sviluppato da Tom
Bruce (graficamente molto curato).
Sempre nel 1993 vennero poste dall’università del Minnesota delle clausole sull’utilizzo di
gopher (il principale concorrente del World Wide Web in quanto anch’esso proponeva una
rete di computers per lo scambio d’informazioni tra varie università e laboratori di ricerca)
che ne segnarono la fine, poiché nessuno sviluppatore avrebbe creato un programma per tale
sistema con il rischio di dover pagare diritti all’Università proprietaria. Ciò servì da lezione al
CERN, il quale lasciò l’utilizzo del Web assolutamente libero. Nell’arco di tre anni lo
sviluppo del Web fu incredibile, dalle cento visite per giorno del server info.cern.ch nel 1991
alle mille del 1992 se ne registravano dieci mila al giorno nel 1993 e la tendenza era di un
raddoppio ogni tre o quattro mesi; nel marzo 1993 i collegamenti Web ammontavano allo
0,1% del traffico Internet passando poi all’1% in settembre e al 2,5% in dicembre. Sempre nel
1993 la Navisoft progetta il primo Browser/Editor per PC e Macintosh ispirato al client
“WorldWideWeb” di Berners-Lee e viene fondata da Mark Andreessen la Mosaic
Communications Corp. (che diventerà Netscape nel gennaio del 1994) che strappa allo NCSA
8
la squadra di sviluppo di Mosaic e commercializza un suo navigatore Mozilla distribuendolo
gratuitamente su Internet.
Il 1994 è l’anno dei grandi eventi: Microsoft annuncia di voler sviluppare un suo browser
assieme al nuovo sistema operativo Windows 95 , si concretizza la nascita del W3C (World
Wide Web Consortium), organismo pensato allo scopo di garantire al Web una crescita e uno
sviluppo regolari, il CERN abbandona il progetto World Wide Web (l’INRIA divenne il co-
host del consorzio), la Netscape pubblica la versione 1.0 del suo nuovo browser Navigator
disponibile gratuitamente nel Web per le piattaforme Windows, Unix e Macintosh.
Nel 1995 fu presentato il nuovo linguaggio di programmazione Java che, grazie alla sua
“leggerezza” in termini di requisiti Hardware, permetteva anche ai piccoli apparecchi di
collegarsi al Web. In novembre fu distribuito Windows 95 con il relativo browser. Nel 1996
milioni di persone accedevano al Web, gli ISP (Internet Service Provider) crescevano a vista
d’occhio con offerte sempre più economiche. Esce la versione 2.0 di Navigator con funzioni
di posta elettronica e supporto Java; nasce Amaya il browser/editor del consorzio che
sostituisce Arena .Vengono proposte le specifiche PICS (Platform for Internet Content
Selection)[11,12] per il controllo dei contenuti delle pagine Web (si basano sul principio di
autoregolazione e libertà di scelta).
Gli ultimi anni sono stati segnati da una crescita mondiale dell’utilizzo del Web, dal sempre
maggior perfezionamento dei browser e da un assiduo lavoro di specifiche del consorzio.
Vengono affinati nuovi motori di ricerca, proliferano le aste online e i servizi di home
banking e, soprattutto, nascono i grandi portali (gestiti spesso dai gestori telefonici di ISP),
che offrono servizi, informazioni, intrattenimento ecc.
Il World Wide Web, come lo vediamo ora, è un’enorme massa di informazioni disponibili
all’utente, le pagine Web sono di solito ben curate, facili da seguire e ricche di servizi
aggiuntivi (come motori di ricerca interni, mailing list ecc.). Il Web è ormai talmente radicato
nella vita quotidiana delle persone che è considerato come prima fonte d’informazione (ormai
anche la più piccola azienda locale dispone di un proprio sito in Internet) e sempre più spesso
viene usato per effettuare acquisti di vario genere (dal biglietto del treno all’automobile
nuova). La situazione però non è così idilliaca, anzi, tale quantità di informazioni spesso crea
problemi nel capire quale siano quelle utili e quali no, la sovrabbondanza crea confusione e
l’utilizzo di motori di ricerca o servizi appositi non risolve il problema. C’è la necessità di
creare un Web in cui le informazioni siano codificate e comprensibili anche dalle macchine,
in modo tale da consentire una ricerca specifica e precisa dell’informazione; c’è l’esigenza di
attribuire un significato a tutte le risorse disponibili: serve un Web semantico.
9
Per schematizzare gli attuali problemi del Web si possono riassumere in quattro punti [13]:
1. Ricerca dell’informazione: allo stato attuale, un sistema di ricerca basato su parole chiave
può recuperare informazioni irrilevanti, che usano una determinata parola ma con un
significato differente da quello richiesto, o può anche non trovare l’informazione, la quale
impiega magari parole chiave diverse ma con lo stesso significato.
2. Estrazione dell’informazione: ad oggi, l’estrazione di informazioni rilevanti è dominio
quasi esclusivo degli esseri umani, mediante la navigazione “manuale” e la lettura dei
documenti. Gli agenti software mancano della conoscenza e del senso comune richiesti
per estrarre l’informazione desiderata da rappresentazioni testuali.
3. Manutenzione dell’informazione: aggiornare sorgenti di testo strutturato è un’attività
difficile e che richiede un notevole investimento in tempo e risorse, soprattutto quando tali
sorgenti diventano grandi. Il mantenimento automatico di consistenza, correttezza e
aggiornamento dell’informazione richiederebbe un’appropriata rappresentazione della
semantica e vincoli che permettano di determinare anomalie.
4. Generazione automatica di documenti: ad esempio l’esistenza di siti Web che si adattano
nella presentazione alle esigenze degli utenti o ad altri aspetti rilevanti. Anche qui, per
l’automatizzazione, è richiesta una rappresentazione strutturata che sia “machine-
processable” ovvero comprensibile ed elaborabile dalle macchine.
Allo stato attuale, HTML non è in grado di risolvere tali problematiche, data la sua scarsa
strutturabilità e la sua inadeguatezza ad essere “letto” da utenti non umani. Sono state
proposte, quindi, nuove soluzioni come l’utilizzo di XML e RDF (che spiegherò nei prossimi
capitoli) che permettono di strutturare il documento e inserire l’informazione semantica;
questi documenti, integrati da opportune ontologie, possono esprimere il significato del loro
contenuto e possono essere elaborati da agenti software o altri programmi automatici. Per lo
specifico problema della ricerca nel Web, alcuni motori di ricerca hanno adottato delle
soluzioni parziali:
ξ Yahoo (http://www.yahoo.com) ha adottato un sistema di catalogazione manuale (ogni
pagina Web indicizzata viene poi inserita “manualmente” all’interno di categorie
predefinite, un sistema simile ad Open Directory (vedi più avanti)
ξ Google (http://www.google.com) utilizza il tradizionale sistema di ricerca per termini
chiave (come Altavista Lycos Excite ecc.) ma a differenza di questi presenta i risultati in
ordine di quotazione, ovvero in base al numero di link che altri documenti hanno verso il
primo.