1
CAPITOLO 1 INTRODUZIONE
1.1 Motivazioni e obiettivi del lavoro
Ho deciso di impostare la mia tesi di laurea trattando l’argomento della traduzione
automatica principalmente perchØ ero molto curiosa di comprendere il funzionamento di
questi sistemi che oggi sono gratuiti e comodamente accessibili in rete. Spesso mi è capitato
di affrontare l’argomento della traduzione automatica con alcuni amici che, non conoscendo
l’inglese, hanno utilizzato i vari sistemi disponibili online per tradurre dei brani in italiano:
tutti concordavano nel definire i risultati ottenuti “per nulla soddisfacenti”. In passato, quando
la mia conoscenza della lingua inglese era ancora abbastanza limitata, anche io utilizzavo
spesso il traduttore automatico che Google mette gratuitamente a disposizione per tradurre dei
brevi testi dall’inglese all’italiano e viceversa. Di solito questi documenti appartenevano alle
piø disparate tipologie testuali: testi di canzoni, brevi racconti, singole frasi e addirittura
ricette di cucina. I risultati ottenuti non erano sempre soddisfacenti e la scarsa qualità era
particolarmente evidente nelle traduzioni dall’inglese all’italiano dato che l’italiano è la mia
madrelingua.
Occasionalmente ho utilizzato il traduttore automatico per tradurre da lingue a me
totalmente sconosciute, come il cinese e il tedesco, delle pagine web che descrivevano i
metodi di pagamento e spedizione di alcuni siti di e-commerce. In questi casi specifici,
nonostante le numerose imprecisioni grammaticali e sintattiche, i testi tradotti
automaticamente dal cinese o dal tedesco in italiano mi erano comunque molto utili per capire
il senso generale di un testo che altrimenti sarebbe stato totalmente incomprensibile. Durante
il terzo anno di università ho avuto l’opportunità di frequentare per un breve periodo il corso
“Strumenti e tecnologie per la traduzione specialistica”, tenuto dal Prof. Gaspari al corso di
laurea magistrale, che mi ha fornito le basi teoriche sull’argomento della traduzione
automatica e numerosi spunti di riflessione e approfondimento. In questa occasione ho inoltre
compreso le principali differenze tra un sistema statistico e uno basato su regole, che di
conseguenza si riflettono anche sulla qualità dell’output tradotto. Ho avuto modo di rendermi
conto che la traduzione automatica è un settore in continuo sviluppo, utilizzato in numerosi
ambienti professionali, tra i quali la stessa Commissione Europea.
L’obiettivo principale di questo lavoro è dimostrare che un sistema di traduzione
automatica riesce a produrre delle traduzioni qualitativamente differenti a seconda delle
caratteristiche del testo originale (strutture lessicali o sintattiche, tipologia di testo, ecc.) e
della tipologia del sistema utilizzato. Ho perciò scelto due testi differenti sia per tipologia che
per caratteristiche lessicali in modo da rendere il piø evidente possibile questa differenza in
2
termini di risultato finale. Per svolgere la valutazione ho voluto fare uso di un questionario da
sottoporre ad un piccolo gruppo di persone. Questi soggetti hanno valutato le due traduzioni
automatiche tenendo in considerazione elementi quali lo stile, gli errori, il contenuto
semantico e la scorrevolezza nella lingua di arrivo.
1.2 Struttura della tesi
La mia tesi inizia con il capitolo 2 che illustra una breve cornice storica che descrive la
nascita e lo sviluppo della traduzione automatica dal dopoguerra ad oggi, soffermandosi sulle
principali caratteristiche che distinguono i sistemi statistici da quelli basati su regole. Dopo
questa parte introduttiva, il capitolo 3 analizza l’argomento della valutazione della traduzione
automatica. Inizialmente viene definito il concetto di qualità, proponendo un esempio di scala
di valutazione basata sull’intelligibilità del testo tradotto e in seguito vengono esaminati i
diversi metodi che permettono di analizzare gli eventuali errori presenti nella traduzione.
Successivamente si introducono le diverse tipologie di valutazione umana, a seconda dei
soggetti coinvolti (ricercatori, sviluppatori, potenziali acquirenti, traduttori e clienti) e dei loro
obiettivi. Questo capitolo si chiude con un accenno alla valutazione automatica, condotta
tramite l’impiego di algoritmi quali BLEU e NIST, di cui viene brevemente spiegato il
funzionamento e i principi su cui si basano.
Il capitolo 4 è invece dedicato alla parte sperimentale. Vengono inizialmente espresse
le motivazioni che mi hanno spinto ad utilizzare uno specifico sistema di traduzione
automatica, preferendolo ad altri disponibili online, le differenze strutturali e linguistiche dei
due testi proposti e i primi tentativi di valutazione, risultati poi inadeguati. In seguito viene
descritta analiticamente la struttura del questionario che ho realizzato, analizzando anche le
principali caratteristiche dei destinatari che lo hanno compilato. Infine, per ciascuno dei due
testi impiegati per la valutazione, sono stati riportati i risultati in due tabelle distinte che poi
ho analizzato in dettaglio, evidenziando gli aspetti particolarmente interessanti.
Il capitolo 5 si apre con l’analisi delle principali difficoltà linguistiche che incontra un
sistema di traduzione automatica, per poi introdurre i concetti di pre-editing e linguaggio
controllato. In seguito si definisce il concetto di post-editing, i vari livelli in cui può essere
svolto, le principali caratteristiche della figura del post-editor e le differenze esistenti tra un
intervento di revisione svolto al computer e uno svolto su carta. Il capitolo 5 si conclude con il
commento al post-editing dei due testi tradotti automaticamente, evidenziando ed analizzando
i vari interventi di correzione effettuati.
Infine il capitolo 6 presenta una conclusione in cui si riepilogano i risultati
effettivamente ottenuti e la rilevanza personale del lavoro.
3
CAPITOLO 2 CENNI STORICI SULLO SVILUPPO DELLA TRADUZIONE
AUTOMATICA
2.1 Il dopoguerra
L’americano Warren Weaver, vice presidente della Rockefeller Foundation, fu il
primo che poco dopo la fine della Seconda Guerra Mondiale avanzò la proposta di utilizzare il
computer per tradurre un messaggio da una lingua all’altra. La sua idea era di servirsi delle
tecniche di crittografia implementate durante la guerra per decodificare il messaggio da
tradurre, accettando anche di ottenere un risultato stilisticamente poco elegante ma pur sempre
comprensibile (Hutchins 1999). Nel 1949 Weaver diffuse la sua teoria scrivendo un
memorandum intitolato “Translation” che distribuì a 200 colleghi che avrebbero potuto avere
un potenziale interesse nel finanziare il suo progetto. Nel memorandum erano specificate
alcune proposte concrete come ad esempio: risolvere il problema dell’ambiguità di significato
basandosi sul contesto, considerare la lingua scritta come un’espressione logica e quindi
risolvibile dal calcolatore elettronico, applicare i metodi di crittografia alla traduzione e
valutare la possibile presenza di “universali linguistici” comuni a tutte le lingue. Per spiegare
il concetto di universali linguistici Weaver, citato in Hutchins (1999), si servì dell’analogia di
individui che vivono all’interno di alte torri chiuse, tutte con fondamenta in comune. Se questi individui
cercano di comunicare l'uno con un altro gridando ognuno dall’interno della sua torre, la comunicazione
non avrà un esito positivo. Ma se uno di loro scende dalla propria torre si ritroverà nel grande
seminterrato comune a tutte le torri. Qui la comunicazione sarà sicuramente piø facile. Il giusto modo di
tradurre [...] non è quello di tentare la via diretta, urlando da torre a torre. Forse il modo migliore è
scendere, da ogni lingua, fino alla base comune della comunicazione umana cioè fino a quella lingua
universale non ancora scoperta.
(Weaver 1949, traduzione mia)
Le reazioni al memorandum furono contrastanti: secondo alcuni era impensabile poter fare a
meno dell’intervento umano durante il processo di traduzione, secondo altri invece la
traduzione automatica rappresentava un progetto sicuramente ambizioso ma interessante. Nel
1951 Victor Oswald e Stuart L. Fletcher pubblicarono il primo articolo sulla traduzione
automatica concentrandosi sugli aspetti sintattici della lingua tedesca ed identificando una
dettagliata codifica grammaticale applicabile alla frase, in modo da distinguere i “blocchi
sostantivo” dai “blocchi verbo”. Successivamente al computer sarebbero state fornite queste
istruzioni che avrebbero permesso di riordinare la frase e tradurla in inglese (Hutchins 1986).
Lo scopo comune a tutte le ricerche portate avanti nel dopoguerra era quello di creare
un sistema capace di fornire una traduzione qualitativamente ottima per qualsiasi tipo di testo
4
senza l’intervento umano (il cui acronimo in inglese è FAHQMT-UT che sta per fully-
automatic high-quality machine translation of unrestricted text). Yehoshua Bar-Hillel,
ricercatore presso il Massachusetts Institute of Technology, considerò questo obiettivo troppo
ambizioso. Era infatti necessario accettare un compromesso sacrificando almeno uno dei tre
requisiti e Bar-Hillel propose di introdurre la presenza dell’essere umano all’inizio o alla fine
del processo di traduzione automatica in modo da ottenere una traduzione qualitativamente
buona per qualsiasi tipo di testo e sacrificando quindi la completa automazione del processo
(Hutchins 1998).
2.2 Gli anni 50-60
La prima dimostrazione pratica del funzionamento di un sistema di traduzione
automatica risale al gennaio 1954. Il progetto Georgetown-IBM, che coinvolgeva la
Georgetown University e la nota azienda informatica IBM, prevedeva un vocabolario di 250
parole in lingua russa e solo 6 regole grammaticali. I dati di input venivano inseriti nel
sistema tramite delle schede perforate e, utilizzando un computer IBM 701, furono tradotte 49
frasi pre-determinate dal russo all’inglese ma il sistema non funzionava nella direzione
traduttiva opposta. La scelta di tradurre dal russo all’inglese non è casuale (Hutchins 1986).
Questo è infatti il periodo della Guerra Fredda ed implementare un sistema capace di tradurre
la lingua russa aveva soprattutto obiettivi politici e militari. L’esperimento dimostrò che la
traduzione automatica era effettivamente un obiettivo realizzabile, contribuendo a stimolare i
finanziamenti alla ricerca da parte del governo ed un crescente entusiasmo per questa
disciplina.
Nel novembre 1966 il rapporto ALPAC (Automatic Language Processing Advisory
Committee) decretò la fine della maggior parte dei progetti di traduzione automatica negli
USA e, di conseguenza, un rallentamento anche negli altri Paesi in cui erano in corso attività
simili. Il compito del comitato, composto da esperti del settore nominati dal governo federale
statunitense, era di redigere un resoconto che descrivesse i progressi raggiunti nel campo della
traduzione automatica e i risultati furono deludenti. Il rapporto era un breve documento
corredato da quattro appendici che descrivevano la valutazione della traduzione automatica,
gli errori piø frequenti, il confronto tra una traduzione automatica revisionata e una traduzione
svolta da un traduttore umano ed infine il costo delle ricerche. Prima di tutto venne rilevato
che i risultati concreti delle ricerche svolte fino a quel momento furono definiti non così
sorprendenti da giustificare gli ingenti finanziamenti concessi e quindi questi ultimi furono
ridimensionati. Il resto del rapporto analizzava l’effettiva domanda di traduzioni definendola
non così elevata da legittimare l’uso su larga scala dei sistemi di traduzione automatica che
5
implicavano un dispendio di tempo e denaro. Secondo gli esperti dell’ALPAC il progetto di
creare un sistema di traduzione automatica che garantisse una traduzione equiparabile a quella
ottenuta da un professionista e allo stesso tempo garantisse un risparmio in termini di
tempo/denaro non era raggiungibile a breve termine (Hutchins 1996). Gli effetti del rapporto
ALPAC sulla ricerca furono devastanti: i dieci gruppi presenti in America (tra i quali anche
Georgetown e IBM) furono ridotti a tre, due dei quali senza possibilità di accedere ai
finanziamenti (Slocum 1985).
2.3 Gli anni 70-80
Gli anni 70 segnarono la nascita di famosi software per la traduzione automatica come
ad esempio Systran e Logos. Sviluppato da Petr Toma, che aveva in precedenza lavorato al
progetto Georgetown-IBM, Systran traduceva dal russo all’inglese e fu utilizzato anche dalla
NASA durante il Programma test Apollo-Sojuz del 1974. Appositamente per la NASA Petr
Toma sviluppò una versione di Systran che traducesse dall’inglese al russo e nel frattempo
vennero aggiunte altre lingue di lavoro come ad esempio il cinese, il francese e l’italiano
(Hutchins 1986). Oggi Systran traduce da e verso 52 lingue ed è utilizzato da multinazionali
come Symantec, General Motors e Cisco nonchØ dall’Unione Europea (Systran 2010)
1
.
L’altro software che venne creato in questo periodo è Logos, un sistema che traduceva
dall’inglese al vietnamita. Il progetto era sostenuto dall’aeronautica militare degli Stati Uniti
che se ne serviva per tradurre i manuali di addestramento dei piloti. Dopo pochi anni il
governo iraniano richiese alla Logos Corporation un sistema multilingua che traducesse in
Persiano (Hutchins 1986).
Negli anni 80 la realizzazione di software di traduzione automatica si concentrò in
Giappone, dove importanti multinazionali come Hitachi, Fujitsu e Mitsubishi implementarono
dei sistemi che traducevano dal giapponese all’inglese e viceversa.
2.4 Dagli anni 90 ad oggi
All’inizio degli anni 90 degli esperti giapponesi iniziarono ad utilizzare un approccio
chiamato “example-based”, cioè basato su esempi. L’idea principale era recuperare da un
database di corpora bilingui alcune espressioni e frasi già tradotte in precedenza da traduttori
professionisti e renderle disponibili al sistema di traduzione automatica (Hutchins 1986). Si
tratterà dei sistemi basati su esempi in maniera piø approfondita nella sezione 2.4.2.
1
SYSTRAN-Informazioni su Systran, http://www.systran.it/systran/profilo-aziendale (ultimo accesso
29/06/2010)