Annotazioni Linguistiche: una rassegna
words and finally written content. Writing, in turn, originated as a way
to express ideas with signs, and then took a syllabic/phonetic
approach, focusing more on the description of sounds than on their
meaning. Meanwhile, humans settled across the entire planet, without
easy communication between people so widely spread. This situation
facilitated the differentiation of languages, but when technological
progress made communication easier again the need for interoperating
languages raised.
It is necessary to translate words and phrases from one language
to another, but to do this the structure of text had to be found. This
was the first linguistic annotation, or classification of parts of the
discourse based on its logical or grammatical structure. This is the
typical way teachers use to present a language to their students.
Another approach is that made by those who study pronunciation
of words, trying to find a common code to express the sounds made by
the voice to say a word. In this way, they created a phonetic alphabet,
which could be suitable for pronunciation of every natural language
spoken by men.
The latter and more versatile approach is focusing on the
semantics: the information the Linguistic Annotation has to carry now
concerns the meaning of the resource it annotates. We could tell when
and where a certain quote was said, and who said it, or we could do a
summary of that quote, pointing out the key information. We could
find relations between that quote and other quotes of the same
speaker, about the same content, or with the same opinion, for further
research. This is the typical work of journalists.
Technology progress made categorization of language resources
not only reliant on writing, but also on audio and video, and the birth
of computers, although a little lately, raised their accessibility and
usability. In the last years, attempts to automate also the annotations
were made, especially with the growth of mark-up languages like
HTML and XML, very suitable for this purpose. Recently, ISO had
recognized the importance of annotations and created a working group
to discuss these issues and find out a standard solution.
The first chapter will introduce the problem and make a summary
of the rest of the document. The second chapter will discuss the
6
Abstract
7
general aspects of linguistic annotation, in particular the different
approaches to annotation and what are the most used instruments to
implement them on computer systems. Chapter 3 will show some
examples of computer-based linguistic annotation, chosen to embrace
all kinds of approach and implementation. Chapter 4 will focus on the
process of standardization for language resources, and especially on
the ISO work. Chapter 5 will draw conclusions.
1 Introduzione
1 INTRODUZIONE
9
Il problema delle annotazioni linguistiche potrebbe risalire, nella
sua essenza, alla notte dei tempi o, almeno, alla comparsa della vita.
La necessità di utilizzare un linguaggio comprensibile a tutti, sia esso
visivo, gestuale, parlato o scritto, è propria di qualsiasi essere vivente.
La vita è comunicazione, non è possibile parlare di vita per una
qualsiasi entità se questa non entra in rapporto con l’ambiente che lo
circonda, sia esso il cielo, la terra, i microrganismi, le piante, gli
animali o i suoi simili.
D’altro canto, la comunicazione (perlomeno quella tra esseri
viventi, soprattutto animali) deve essere comprensibile; non è
possibile stabilire un contatto se gli interlocutori non possono far
capire, l’uno all’altro, cosa vogliono dire. È necessario un codice,
anche ridotto e banale, che sia certo e accettato da entrambi i soggetti
coinvolti nella comunicazione, e che faccia corrispondere a certi
segni, versi, gesti dei significati chiari.
La comunicazione, dunque, è l’arte di farsi capire, e ben si adatta
all’istinto di conservazione che è proprio di ogni essere vivente.
Urlare quando si è in pericolo, indicare la strada per il cibo, mostrare
particolari atteggiamenti per corteggiare le femmine sono esempi di
comunicazione che insieme soddisfano anche le necessità della
sopravvivenza propria e dei propri simili. Gli esseri inanimati hanno, a
loro volta, i propri mezzi per comunicare, inteso come rapportarsi
all’ambiente e alle condizioni che questo offre. Un albero, ad esempio,
perde le foglie per prepararsi al freddo invernale, le fa ricrescere in
primavera, affida i suoi semi al vento o ad insetti ed uccelli per
riprodursi.
La comunicazione, però, può essere anche l’arte di non farsi
capire, di nascondere, di confondere: mimetizzarsi, non muoversi di
fronte al nemico, produrre veleni o “travestirsi” da animali pericolosi
sono accorgimenti tipicamente usati da chi vuole sopravvivere. Sono
anche questi un modo di comunicare, un rapportarsi all’ambiente ed
alle situazioni che si presentano nella vita.
Annotazioni Linguistiche: una rassegna
Non per tutti comunicare è ugualmente importante; non tutti gli
esseri viventi si comportano allo stesso modo nei confronti
dell’ambiente. C’è chi ignora completamente ogni altra creatura, per
scelta o per paura, e si limita ad interpretare i segni della terra per
trovare cibo e riparo. Un albero non si cura molto degli altri suoi
simili, e spesso gli basta trovare con le sue radici l’acqua necessaria,
assorbire anidride carbonica dalle foglie e affidare al vento i suoi
semi. Molti animali del deserto vivono solitari, perché più si è più
bisognerà dividere le poche risorse, col rischio di morire tutti.
Altri animali, invece, comunicano con i loro simili, stabilendo
rapporti di diversa intensità, in base all’utilità che tale rapporto può
portare agli interlocutori. C’è chi quasi si ignora, conoscendo
l’esistenza degli altri solo perché si trovano a cacciare sullo stesso
territorio: ma questo può rendere più facile catturare le prede, e quindi
dare meno problemi nel dividerle fra più cacciatori. I piccoli sono
deboli ed hanno bisogno di molte attenzioni, e la madre (soprattutto in
certe specie molto prolifiche) può avere difficoltà a gestire la
situazione da sola. Per questo si formano branchi, che vivono insieme,
cacciano insieme, curano insieme la prole di tutti e la difendono dai
pericoli. Nel caso in cui la prolificità è molto alta e i piccoli
richiedono molte cure, può crearsi un ordine sociale più complesso. In
esso, il numero dei riproduttori è ridotto al minimo necessario per
garantire la sopravvivenza della colonia, e gli altri si occupano delle
esigenze di sostentamento. È il caso delle api, delle formiche e delle
termiti: una regina depone le uova, ci sono operaie dedicate alla cura
delle uova, alla ricerca delle fonti nutritive, alla raccolta del cibo, alla
difesa della colonia eccetera. Si tratta, certamente, di
un’organizzazione molto vicina a quella degli uomini.
La comunicazione, dunque, influenza l’esistenza di un essere
vivente in maniera preponderante. In molti casi, come accennato,
comunicare è farsi capire, ossia trovare un codice comune che associ,
in modo universalmente accettato, un significante (gesto, verso,
segno) ad un significato, il contenuto che si vuole far capire
all’interlocutore. Creare un linguaggio è qualcosa che gli esseri viventi
hanno stampato nel loro codice genetico, e sono spinti a farlo
10
1 Introduzione
11
inconsciamente. Fare questo è come dire costruire un’annotazione
linguistica.
Per meglio capire l’affermazione appena enunciata è necessario
spiegare cos’è un’annotazione linguistica. Si tratta, in parole povere,
di una descrizione di qualsiasi tipo associata a risorse linguistiche
(LR). Le LR, a loro volta, sono tutte le risorse contenenti materiale
scritto, parlato, gestuale, ossia tutto ciò che fa comunicare.
Scegliere, consciamente o meno, un codice comune che faciliti la
comunicazione, come accennato in precedenza, significa descrivere
come deve essere un gesto, un verso, un segno per fornire un certo
significato. Questa è un’annotazione linguistica, nel senso appena
citato.
Restringendosi all’ambito umano, il linguaggio (e quindi le
risorse linguistiche) è diventato sempre più diversificato e complesso,
e allo stesso modo le annotazioni sono diventate più raffinate. Quel
codice di comunicazione, che prima si tramandava di padre in figlio, è
stato formalizzato ad uso didattico, prima oralmente e poi su carta. La
necessità di diffusione delle tecniche di comunicazione ha reso la
scrittura più formale, legata al suono delle parole e non più all’idea.
L’esigenza di standardizzazione si è fatta impellente quando il
progresso tecnologico ha reso le comunicazioni più facili e diffuse
geograficamente. Da ultimo, l’avvento di Internet ha reso lo scambio
d’informazioni immediato e semplice, ma al tempo stesso ha richiesto
un codice universale di dialogo fra i computer e fra i loro utenti.
Le nazioni hanno trovato nella lingua comune un forte elemento
unitario, e l’hanno resa materia dominante nell’insegnamento. La
scrittura ha cominciato ad usare stili e fonti tipografiche, codifiche su
carta delle pause, dell’enfasi e dei diversi ruoli delle frasi in un
discorso. In informatica, i formati per la codifica di testo, immagini e
collezioni di dati hanno dato significato a stringhe di bit altrimenti
incomprensibili, e permesso a sistemi diversi di mostrare le stesse
informazioni. L’avvento delle reti si è basato su protocolli adottati, un
poco alla volta, su di una miriade di architetture diverse. Tutti questi
fatti dimostrano l’adozione su scala sempre più larga delle annotazioni
linguistiche. Proprio l’informatica usa in gran quantità sistemi di
Annotazioni Linguistiche: una rassegna
codifica di risorse linguistiche; questo fa prevedere, per il futuro, una
sempre maggiore importanza e necessità delle annotazioni.
Questo documento si concentrerà sulle annotazioni linguistiche
applicate all’informatica, ossia sulle possibilità che i computer offrono
per fornire contenuto su risorse linguistiche, anch’esse codificate in
formato comprensibile alla macchina.
Il trattamento dei testi è stato una conquista piuttosto tarda
dell’informatica, poiché per circa vent’anni l’uso dei computer è stato
ristretto, come suggerisce il nome, al solo calcolo di dati, grazie ai
quali era stata avviata la conquista dello spazio e la gestione
elettronica della contabilità per servizi pubblici e privati. Poi sono nati
i primi linguaggi di markup, gli editor WYSIWYG e i programmi di
DTP, fino alla nascita di SGML, poi affermatosi grazie alle intuizioni
di Tim Berners-Lee, che vi si ispirò nella creazione del World Wide
Web, senza dubbio l’applicazione di maggior successo presso il
grande pubblico tra quelle presenti su Internet.
Il linguaggio di markup (inteso come una qualsiasi codifica di
testo su computer con informazioni di punteggiatura, presentazione,
descrizione, riferimenti) è l’esempio più chiaro di annotazione
linguistica applicata all’informatica. I linguaggi di markup leggibile,
in particolare, rappresentano bene l’idea di un’informazione affiancata
ad un testo; dopotutto, il primo sistema di annotazione che questo
documento analizzerà, TEI [TEIweb2001], è stato proposto prima
ancora della nascita di HTML, che come TEI si basa su SGML.
Esistono tanti esempi di risorse linguistiche, anche nel campo
dell’informatica: un sito web, un documento Word, un’immagine
PNG contenente un gesto dell’alfabeto dei sordomuti, una clip MP3 o
un filmato MPEG contenente un’intervista, sono LR sulle quali è
possibile esprimere informazione, e al contempo contengono
annotazioni. Il sito web, infatti, è scritto, come detto, in un linguaggio
di markup, come il documento Word, dunque contiene informazioni
strutturali e presentazionali, mentre i formati PNG, MPEG e MP3
contengono header per l’inserimento di informazioni generiche, come
autore, data e descrizione del contenuto.
Una vasta categoria di persone (denominata “LR Community”) si
interessa delle risorse e delle annotazioni linguistiche. Si va dai gestori
12
1 Introduzione
13
di risorse e dai ricercatori, il cui ambito di interesse è limitato ma
necessita di fornire o di usare informazioni molto dettagliate, al
pubblico, che può richiedere contenuto più vasto ma, di norma, senza
necessità di completezza. In mezzo si trovano tutti coloro che hanno il
compito di fornire contenuto al pubblico oppure di usare informazioni
più complete di quelle disponibili a tutti, come giornalisti, studenti,
insegnanti, sviluppatori e bibliotecari. Le informazioni di cui hanno
bisogno sono, per l’appunto, più dettagliate di quelle disponibili al
pubblico, ma, di norma, non così complesse come quelle usate dai
gruppi più alti.
Il rapporto fra risorsa ed annotazione può essere esaminato a vari
livelli. Una prima distinzione è possibile sulla base della
segmentazione della risorsa, ossia la granularità della divisione in parti
della LR. Partendo dall’assunto che tutte le risorse contengono parole,
codificate in un qualche formato scritto o parlato, la segmentazione
può partire dal livello dei costituenti della parola (lettere e sillabe) per
passare alle singole parole, alle parti di una frase, alle frasi intere, alla
struttura dei documenti oppure ad un documento nella sua interezza.
Un rapporto da considerare è anche quello tra gli insiemi delle
risorse e delle annotazioni. È possibile, infatti, fornire più annotazioni
su una risorsa, di tipi diversi o dello stesso tipo. Ad esempio, si può
fornire un’annotazione su di un documento HTML, che, come
accennato in precedenza, contiene già informazioni associate al
contenuto; oppure è possibile che più autori forniscano lo stesso tipo
di annotazione sulla stessa risorsa, nel caso in cui tale informazione
possa variare secondo colui che la fornisce. È anche possibile fornire
la stessa annotazione per diverse risorse linguistiche; di solito questo
avviene quando le informazioni sono di tipo standard, come l’autore o
la data di un documento, oppure la descrizione grammaticale di una
parola. Si possono, infatti, facilmente avere documenti dello stesso
autore o editi lo stesso giorno, oppure parole con la stessa forma
grammaticale. In certi casi, questo parallelismo di risorse sulla stessa
annotazione è utile per la creazione di archivi navigabili, motori di
ricerca semantici e altri sistemi di collegamento di contenuti
omogenei.
Annotazioni Linguistiche: una rassegna
Altro legame importante fra risorsa ed annotazione è il rapporto
causa-effetto. Normalmente, infatti, si può pensare all’annotazione
come qualcosa che dipende dalla risorsa ed è creata in funzione di
questa. Questo legame, nel quale la risorsa è la “causa” e
l’annotazione l’“effetto”, non è però l’unico possibile. In certi casi,
anzi, si pensa prima a fornire un’informazione linguistica, poi si
creano risorse ad essa relative, con scopo esemplificativo o
applicativo. Un dizionario, ad esempio, è una collezione di
annotazioni che forniscono significato sulle parole di una lingua, sia
questo contenutistico, sinonimico o di traduzione; le frasi che una
voce del dizionario può contenere servono a fornire esempi su quel
termine, a meno che non si trattino di citazioni, cosa che avviene
spesso, ad esempio, nei vocabolari latini.
Sistemi nei quali la risorsa è l’effetto, e l’annotazione la causa,
sono anche quelli che producono risorse automaticamente, i cosiddetti
sintetizzatori. Un sintetizzatore vocale sa come vanno pronunciate le
parole di una certa lingua o di più lingue; quando è fornito un testo in
input, esso produce come output una nuova risorsa audio, che è la
lettura del testo ricevuto. Allo stesso modo funzionano i traduttori
automatici, mentre le applicazioni d’Intelligenza Artificiale lavorano
ad un livello più alto, elaborando un contenuto semantico adeguato
agli stimoli ricevuti, come una domanda fornita dall’utente, e
trasformandolo poi in una risorsa fruibile dall’utente stesso.
L’aspetto più importante in un’Annotazione Linguistica, quello
che influenza, di norma, tutti gli altri, è però l’approccio seguito
nell’annotazione, ossia il tipo di informazione che si vuole fornire. È
fuori di dubbio che la prima cosa da fare per definire un’annotazione
sia decidere il contenuto che tale annotazione dovrà avere. Tanti sono
gli approcci utilizzabili, ma è possibile formare alcuni gruppi di
annotazioni.
Un primo gruppo è formato dalle annotazioni fonetiche ed
ortografiche, ossia quelle che studiano la pronuncia e la scrittura delle
parole. Si tratta di informazioni molto precise e indiscutibili,
facilmente limitabili ad una sola lingua e che pongono particolari
problemi di codifica, per rappresentare codici fonetici e caratteri
speciali (lettere accentate, dieresi ecc.). Le annotazioni fonetiche ed
14
1 Introduzione
15
ortografiche si applicano particolarmente a sintetizzatori vocali e
testuali, correttori e traduttori automatici, oltre che ad applicazioni di
analisi della pronuncia o della grafia, a scopo investigativo o di studio.
Altro approccio all’annotazione è quello sintattico, ossia la
fornitura di contenuto riguardante il ruolo delle parole nel discorso
(annotazione grammaticale) oppure delle parti di una frase o di un
periodo nella frase o nel periodo stessi (annotazione logica). Queste
informazioni sono più universali di quelle fonetiche ed ortografiche
(valgono per tutte le lingue e non hanno esigenze particolari di
codifica), ma, di norma, altrettanto esatte ed indiscutibili (un
sostantivo non può essere qualcos’altro, così come un predicato è
facilmente individuabile). Le annotazioni sintattiche, però, non sempre
possono essere fornite automaticamente come quelle ortografiche e
fonetiche, anzi vi è una maggiore possibilità che l’informazione creata
in modo meccanizzato sia incompleta o errata. Esistono, comunque,
applicazioni di analisi e correzione sintattica automatiche di
documenti, ed un’annotazione logica o grammaticale, specie se fornita
manualmente, può aumentare l’affidabilità e l’efficacia dei traduttori e
dei sintetizzatori.
Ultimo e più vasto ambito di informazione esistente è quello
semantico, termine sotto il quale può stare tutto o quasi. Si tratta, in
effetti, di indicare il significato di una risorsa, e tale significato può
essere visto sotto vari aspetti. Una distinzione può essere fatta, però,
fra le informazioni di tipo strutturale, che permettono di distinguere
parti di significato diverso nel contenuto linguistico di una risorsa,
come titoli, paragrafi, liste e tabelle, e quelle che riguardano una
risorsa nel suo complesso. Queste ultime spaziano da annotazioni
editoriali semplici, come l’autore, il luogo e la data di pubblicazione, a
commenti dell’autore o revisore, a traduzioni e testi di confronto. Le
informazioni strutturali sono il nerbo dei linguaggi di markup, in
particolare i metalinguaggi come SGML e XML, dove qualsiasi tipo
di composizione del documento è possibile, e facilitano la navigazione
all’interno di qualsiasi documento. Le annotazioni prettamente
semantiche, invece, possono rivelarsi molto utili per sintetizzare e
tradurre automaticamente; alcune di esse, inoltre, permettono la
creazione di paralleli e gerarchie fra risorse.