Skip to content

Dai sottotitoli ai corpora paralleli: un percorso metodologico

Dai corpora paralleli ai corpora multimediali

Quanto affermato sino a questo punto ha fatto sicuramente emergere l’aspetto della complessità legato alla ricerca linguistica che fa uso di corpora. Ciò che non è ancora emerso sono le peculiarità che un corpus multimediale dovrebbe possedere e i problemi che occorre affrontare nella sua progettazione.
Nonostante l’interpretazione e la traduzione audiovisiva richiedano la creazione di corpora multimediali paralleli allineati di lingua parlata, i progetti di dimensioni apprezzabili per la conduzione di studi che possano realmente definirsi corpus-based sono molto pochi e ancora in fase di sperimentazione (Valentini, 2009). Esistono alcuni esempi, soprattutto nel campo della traduzione simultanea, che non possono tuttavia essere considerati propriamente multimediali. Un esempio è il corpus multilingue EPIC (European Parliament Interpreting corpus) che è stato messo a punto presso il Dipartimento di Studi Interdisciplinari su Traduzione, Lingue e Culture (SITLeC) dell’Università di Bologna. Nel campo del doppiaggio esistono pochi esperimenti che possano, tra l’altro, dirsi interamente compiuti, tra questi, il Pavia corpus of Film Dialogue (Freddi & Pavesi, 2009) e Forlixt 1 (Heiss & Soffritti, 2008).
Per ciò che riguarda i corpora paralleli di sottotitoli e di liste dialoghi di film e serie televisive, ci si trova di fronte a un panorama alquanto variegato. Si tratta di corpora di tipo orale, che non contengono cioè annotazioni e collegamenti al dato multimediale, oppure di corpora di sottotitoli creati non con finalità propriamente traduttologiche in campo multimediale, quanto piuttosto con l’obiettivo di sperimentare procedure automatiche di allineamento di testi (Tiedeman, 2007; Itamar & Itai, 2008) o di sviluppare procedure per la traduzione assistita dal computer da includere all’interno di appositi programmi (Fishel et al., 2012).
Permangono tuttavia numerose difficoltà nella creazione di vere e proprie banchedati di corpora multimediali, in particolar modo di tipo parallelo, la più importante delle quali è quella che l’informazione è organizzata secondo i diversi canali della comunicazione (video, audio e testo) su supporti tecnici che non sempre consentono un’agevole elaborazione in forma automatizzata secondo uno schema uniforme. Per esempio, le versioni doppiate e sottotitolate di un film sono spesso prodotte da società di post-produzione differenti e il semplice allineamento dei dialoghi in parallelo può rappresentare un problema di non facile soluzione. Nel caso del Pavia corpus of Film Dialogue, citato poc'anzi,

“Il corpus è attualmente segmentato in base al turno di parola, corrispondente alla battuta. Ciascuna battuta viene inserita in una cella del database, assieme a informazioni di tipo extralinguistico (film, lingua, regista). Le singole battute sono inoltre allineate alle corrispondenti battute nella versione doppiata. (…) [Esso] è specificamente mirato allo studio della traduzione filmica, delle equivalenze traduttive, della lingua filmica originale (inglese) e doppiata (italiana), della variazione in base al genere, e dei vincoli che influiscono sulla traduzione. (…) Ciononostante (…) al momento, non è stata realizzata una sincronizzazione del materiale trascritto con il corrispondente file video.” (Valentini, 2009: 62).

Da quanto è infatti emerso nei paragrafi precedenti, un conto sono gli strumenti informatici e i linguaggi di marcatura messi a punto per l’analisi di un testo, un conto è invece il bisogno di “agganciare’ in qualche modo questo tipo di informazione ad altro tipo di dato, sempre a scopo d’analisi. Il presupposto teorico su cui si basano gli esperimenti più aggiornati è infatti

(…) che i testi multimediali debbano essere analizzati per ricercare l’effetto di senso complessivo che producono, risultato della coesistenza di tutti i codici in essi presenti, e non semplicemente della loro giustapposizione, per cui si sarebbe potuto procedere con delle analisi separate.” (idem: 65).

Il problema è dunque quello di delineare un percorso metodologico per l’annotazione, l’archiviazione e l’analisi dei sottotitoli che consenta di recuperare il dato multimediale attraverso una chiave di tipo logico che, in questo caso, può essere rappresentata unicamente dai timecodes. Questi ultimi, come già accennato nella prima parte di questo lavoro, rappresentano l’unico elemento in grado di collegare l’informazione audio e video a quella testuale, indipendentemente dai formati in cui è archiviata. La durata complessiva del segmento multi-mediale appartenente a un film o a una sit-com televisiva non dovrebbe subire in effetti grosse variazioni, specie se ci si riferisce a materiale autentico, protetto da copyright. Ovviamente occorre considerare la possibilità che possano esistere differenti versioni di un video in commercio: censurate, integrali, ampliate, destinate a un certo mercato, abusive, ecc.
Nel prossimo capitolo si illustrerà il percorso che può portare dall’identificazione dell’elemento testuale all’analisi strutturata di un piccolo corpus di sottotitoli proprio con lo scopo di evidenziare i diversi passaggi metodologici volti a ottenere una certa organizzazione dell’informazione testuale. Non si procederà comunque alla sua concatenazione con un file video o audio, che è peraltro conservata nel formato originario dei dati tramite i timecodes.

Questo brano è tratto dalla tesi:

Dai sottotitoli ai corpora paralleli: un percorso metodologico

CONSULTA INTEGRALMENTE QUESTA TESI

La consultazione è esclusivamente in formato digitale .PDF

Acquista

Informazioni tesi

  Autore: Ilaria Icardi
  Tipo: Tesi di Master
Master in Traduzione per il Cinema, la Televisione e l'Editoria Multimediale
Anno: 2013
Docente/Relatore: Paola Brusasco
Istituito da: Università degli Studi di Torino
  Lingua: Italiano
  Num. pagine: 134

FAQ

Per consultare la tesi è necessario essere registrati e acquistare la consultazione integrale del file, al costo di 29,89€.
Il pagamento può essere effettuato tramite carta di credito/carta prepagata, PayPal, bonifico bancario.
Confermato il pagamento si potrà consultare i file esclusivamente in formato .PDF accedendo alla propria Home Personale. Si potrà quindi procedere a salvare o stampare il file.
Maggiori informazioni
Ingiustamente snobbata durante le ricerche bibliografiche, una tesi di laurea si rivela decisamente utile:
  • perché affronta un singolo argomento in modo sintetico e specifico come altri testi non fanno;
  • perché è un lavoro originale che si basa su una ricerca bibliografica accurata;
  • perché, a differenza di altri materiali che puoi reperire online, una tesi di laurea è stata verificata da un docente universitario e dalla commissione in sede d'esame. La nostra redazione inoltre controlla prima della pubblicazione la completezza dei materiali e, dal 2009, anche l'originalità della tesi attraverso il software antiplagio Compilatio.net.
  • L'utilizzo della consultazione integrale della tesi da parte dell'Utente che ne acquista il diritto è da considerarsi esclusivamente privato.
  • Nel caso in cui l’utente che consulta la tesi volesse citarne alcune parti, dovrà inserire correttamente la fonte, come si cita un qualsiasi altro testo di riferimento bibliografico.
  • L'Utente è l'unico ed esclusivo responsabile del materiale di cui acquista il diritto alla consultazione. Si impegna a non divulgare a mezzo stampa, editoria in genere, televisione, radio, Internet e/o qualsiasi altro mezzo divulgativo esistente o che venisse inventato, il contenuto della tesi che consulta o stralci della medesima. Verrà perseguito legalmente nel caso di riproduzione totale e/o parziale su qualsiasi mezzo e/o su qualsiasi supporto, nel caso di divulgazione nonché nel caso di ricavo economico derivante dallo sfruttamento del diritto acquisito.
L'obiettivo di Tesionline è quello di rendere accessibile a una platea il più possibile vasta il patrimonio di cultura e conoscenza contenuto nelle tesi.
Per raggiungerlo, è fondamentale superare la barriera rappresentata dalla lingua. Ecco perché cerchiamo persone disponibili ad effettuare la traduzione delle tesi pubblicate nel nostro sito.

Scopri come funziona »

DUBBI? Contattaci

Contatta la redazione a
[email protected]

Ci trovi su Skype (redazione_tesi)
dalle 9:00 alle 13:00

Oppure vieni a trovarci su

Parole chiave

analisi del testo
sottotitolazione
linguistica dei corpora
screen translation
taltac

Tesi correlate


Non hai trovato quello che cercavi?


Abbiamo più di 45.000 Tesi di Laurea: cerca nel nostro database

Oppure consulta la sezione dedicata ad appunti universitari selezionati e pubblicati dalla nostra redazione

Ottimizza la tua ricerca:

  • individua con precisione le parole chiave specifiche della tua ricerca
  • elimina i termini non significativi (aggettivi, articoli, avverbi...)
  • se non hai risultati amplia la ricerca con termini via via più generici (ad esempio da "anziano oncologico" a "paziente oncologico")
  • utilizza la ricerca avanzata
  • utilizza gli operatori booleani (and, or, "")

Idee per la tesi?

Scopri le migliori tesi scelte da noi sugli argomenti recenti


Come si scrive una tesi di laurea?


A quale cattedra chiedere la tesi? Quale sarà il docente più disponibile? Quale l'argomento più interessante per me? ...e quale quello più interessante per il mondo del lavoro?

Scarica gratuitamente la nostra guida "Come si scrive una tesi di laurea" e iscriviti alla newsletter per ricevere consigli e materiale utile.


La tesi l'ho già scritta,
ora cosa ne faccio?


La tua tesi ti ha aiutato ad ottenere quel sudato titolo di studio, ma può darti molto di più: ti differenzia dai tuoi colleghi universitari, mostra i tuoi interessi ed è un lavoro di ricerca unico, che può essere utile anche ad altri.

Il nostro consiglio è di non sprecare tutto questo lavoro:

È ora di pubblicare la tesi