1
Introduzione
Alla base di questo studio vi è la linguistica dei corpora e il rapporto che questa può
instaurare con la didattica della lingua inglese. In particolare, si pone l’attenzione sulle
modalità in cui questa integrazione possa avvenire, prendendo spunto da studi effettuati
in precedenza da esperti nel settore. L’obiettivo di questa tesi di laurea è quello di fornire
un’analisi delle modalità in cui la linguistica dei corpora possa essere di ausilio nella
didattica della lingua e, possibilmente, offrire degli spunti per stimolare il lavoro
autonomo basato sull’uso dei corpora e dei software per l’analisi testuale.
La metodologia di ricerca si basa principalmente su studi condotti da linguisti e
insegnanti di lingua, i quali hanno tentato di introdurre i propri studenti allo studio della
lingua attraverso la linguistica dei corpora, e l’analisi di dati autentici e materiali corpus-
based già esistenti.
La tesi è strutturata in tre capitoli. Nel primo viene fornita un’introduzione alla
linguistica dei corpora e al suo rapporto con la didattica della lingua; vengono analizzati,
in particolare, i) una particolare tipologia di corpora, i learner corpora, e la loro utilità
nella didattica, e ii) l’analisi degli errori, ovvero lo studio e la classificazione degli errori
degli apprendenti, al fine di produrre una descrizione dettagliata della lingua degli
studenti e capirne le origini. Nel secondo capitolo si entra nel dettaglio con la descrizione
di un metodo di apprendimento definito da Tim Johns Data-Driven Learning; ne
vengono analizzati gli sviluppi nell’ambito della glottodidattica, nonché i metodi e gli
strumenti ad esso connessi. Si passa poi alla presentazione di quelli che vengono definiti
da Braun (2005), gli usi diretti ed indiretti dei corpora nella didattica, per poi chiudere
con un breve confronto tra i benefici e gli svantaggi che derivano da tali metodi corpus-
based. Infine, il terzo capitolo presenta studi ed esempi pratici di utilizzo degli usi diretti
e indiretti dei corpora nella pratica didattica.
Lo studio dimostra che una didattica corpus-based è non solo possibile, ma necessaria
per rendere l’apprendimento della lingua più stimolante ed autentico. Come mostrato
nell’intero lavoro, tale proposta non mira a rimpiazzare i metodi didattici tradizionali,
quanto piuttosto a completarli, offrendosi come ausilio per lo studio e l’acquisizione di
2
una lingua più autentica ed un apprendimento più stimolante sia per gli studenti che per
gli insegnanti.
Le motivazioni che mi hanno spinto ad approfondire tale studio sono, da un lato, il mio
interesse nei confronti della lingua inglese, che ho potuto sviluppare in modi diversi
durante i tre anni del mio corso in Lingue, Culture, Letterature e Traduzione presso
Sapienza Università di Roma e gli anni della scuola media e superiore, e, dall’altro, la
mia passione per la didattica delle lingue, la quale, anche grazie ad un periodo di
tirocinio che ho effettuato presso il centro IES Abroad a Roma, ha iniziato ad
interessarmi particolarmente anche come potenziale sbocco lavorativo.
3
Capitolo I
Corpora linguistici e didattica della lingua
Questo primo capitolo è strutturato come un’introduzione ai concetti chiave necessari ai
fini della comprensione dello studio in questione. Partendo da una presentazione della
linguistica dei corpora, punto focale della tesi (§ 1.1.), si passa al rapporto che viene ad
instaurarsi tra l’uso dei corpora e la didattica della lingua (§ 1.2.), grazie ad elementi
come i learner corpora (§ 1.2.1.) e l’analisi degli errori (§ 1.2.2.).
1.1. La linguistica dei corpora
La linguistica dei corpora (LC), diversamente dalle altre branche della linguistica, non
contiene nella propria denominazione l’oggetto di studio, quanto, piuttosto, la
metodologia utilizzata. La linguistica dei corpora è, infatti, una metodologia di analisi
di fenomeni linguistici tramite l’utilizzo di corpora. Il corpus è “una raccolta di materiale
scritto o parlato su cui si basa l’analisi linguistica” (Oxford English Dictionary, 2009,
seconda edizione), inizialmente cartacea, oggigiorno, computerizzata. La quantità di
corpora esistenti per le varie lingue è altamente variabile; per l’inglese, soprattutto negli
ultimi decenni, ne sono emersi molti di vaste dimensioni; corpora da milioni di parole,
come il British National Corpus (BNC, 100 milioni), la Bank of English (450 milioni)
o l’International Corpus of English (ICE, 20 milioni), sono accessibili da qualunque
computer e attraverso il web, quindi disponibili anche ad insegnanti e studenti di lingua.
Non bisogna però dimenticare che i corpora sono stati progettati per fini di ricerca
linguistica e non ci deve, quindi, stupire che insegnanti e studenti incontrino più di
qualche difficoltà nel loro utilizzo.
L’avanzamento tecnologico ha contribuito allo sviluppo dei corpora, in ampiezza e
qualità: la computerizzazione di vasti documenti si sviluppa in parallelo con la
diffusione di internet. Il primo corpus elettronico di lingua scritta è stato il Brown
4
Corpus, compilato negli anni Sessanta dalla Brown University e tutt’oggi in uso, che ha
fissato un primo standard per altri corpora. Con l’invenzione del registratore portatile,
alla fine degli anni Cinquanta, si è resa possibile la raccolta di dati orali, anche
trascrivendo eventi parlati. Il primo spoken corpus elettronico è stato creato dalla
University of Edinburgh, tra il 1963 e il 1965, su iniziativa di John Sinclair
(Krishnamurthy, 2004). Molti dei grandi corpora che abbiamo a disposizione oggi sono
principalmente basati su materiali giornalistici, di facile reperibilità nella forma digitale
e comodamente collezionabili ai fini della creazione di una raccolta dati bilanciata
secondo specifiche caratteristiche; tali raccolte di dati presentano tuttavia dei limiti, tra
cui in particolare una rappresentatività non equilibrata delle diverse varietà di una
lingua. Negli ultimi anni, con l’evolversi delle nuove tecnologie, si sono diffusi corpora
di testi elettronici come pagine web, e-mail e blog.
Le nuove tecnologie hanno dato anche la possibilità di creare corpora sempre più grandi,
qualità che non li rende necessariamente più utili, anzi, spesso, meno maneggevoli
poiché l’utilizzo di corpora molto vasti, mentre offre una grande varietà di risultati utili
per determinate ricerche, al tempo stesso può risultare controproducente in ambiti come
quello didattico, poiché l’estrazione di un numero troppo elevato di dati risulta difficile
da gestire, sia a livello di tempo richiesto sia di abilità necessarie; in questi casi è utile
operare una selezione casuale dei risultati (il cosiddetto random sampling) o dividere il
corpus in sotto-corpora, cioè in corpora più piccoli (Evison, 2010: 122-123). I corpora
più ridotti e specializzati permettono di analizzare usi del linguaggio, con particolare
riferimento a domini specialistici. Si è resa possibile anche la creazione di corpora
multimodali, nei quali si raccolgono varie modalità comunicative, come il parlato, il
linguaggio del corpo e lo scritto; attraverso l’uso di diverse tipologie di dati, dalle
trascrizioni del parlato alle registrazioni video e audio.
Le proprietà che distinguono un corpus dall’altro sono:
- la grandezza: il numero di tokens (o parole grafiche) che contiene un corpus; la
scelta del corpus (grande o piccolo) viene poi fatta sulla base dell’utilizzo che se
ne intenda fare, ad esempio, per molte aree di ricerca linguistica, come la
lessicografia, si preferiscono corpora di grandi dimensioni, in merito alla
5
prospettiva sulla didattica, invece, corpora troppo vasti non sarebbero altrettanto
utili, uno tra le 20 mila e le 200 mila parole sarebbe più che sufficiente, anzi
preferibile (Aston, 1997: 54), per ragioni di manualità per la quantità di risultati
che si dovrebbero gestire;
- il contenuto: i corpora sono raccolte di testi in genere considerati rappresentativi
di una lingua. Corpora grandi come il BNC e Bank of English includono testi di
svariati generi, argomenti e fonti;
- il formato dei dati: generalmente scritto, preso direttamente da testi scritti o da
trascrizioni di testi orali. Materiale audiovisivo, per il momento, è limitato a pochi
corpora, come il MICASE o il VOICE;
- le annotazioni: molti corpora basati su materiale scritto/trascritto sono arricchiti
da informazioni di vario tipo, da semplici aspetti strutturali del documento, a tratti
linguistici di morfo-sintassi (POS-tagging: parti del discorso, etc.) e semantici.
La linguistica dei corpora è una metodologia che si presta a diversi utilizzi, ma, allo
stesso tempo, è spesso associata ad una determinata visione della lingua, ovvero quella
che vede le regole della lingua legate all’utilizzo di essa e che, quindi, cambia quando
viene utilizzata dai parlanti; ciò vuol dire che chi fosse interessato a studiare una lingua,
come l’inglese, dovrebbe fare riferimento all’English in use; un modo efficiente per
avvalersi di ciò è attraverso l’utilizzo della metodologia dei corpora.
Da secoli ormai, vengono redatti dizionari e grammatiche della lingua inglese e
continuamente aggiornati, poiché la lingua è in continua evoluzione. Inizialmente questi
processi di descrizione della lingua si basavano molto sulle convinzioni del singolo
autore, su ciò che egli riteneva giusto; con il passare del tempo gli studiosi hanno iniziato
a basarsi su materiale più empirico; uno degli esempi più adatti a riguardo è A Modern
English Grammar on Historical Principles (1909-1949), del professore danese Otto
Jespersen, il quale, nella sua autobiografia, parla dell’enorme numero di scatole di
scarpe che aveva accumulato, in cui conservava dei fogli su cui aveva annotato esempi
interessanti sulla lingua inglese; così in ogni sezione del suo libro, sotto ogni struttura
grammaticale trattata, forniva esempi autentici che aveva conservato in quei fogli.
Questo progetto si è, ovviamente, rivelato molto complesso e Jespersen ha impiegato,
6
infatti, diversi anni per portarlo a termine e non c’è da stupirsi che non ci siano stati altri
progetti della stessa portata da parte di una sola persona, ma alcuni ottimi libri di
grammatica sono stati scritti usando un metodo simile. Il lavoro di Jespersen, e di altri
come lui, ha senz’altro reso innegabile che i libri di grammatica inglese per essere
descrittivi e completi debbano basarsi su dati autentici e, possibilmente, non solo su testi
letterari, ma anche su testi di registri diversi, sia scritti che orali.
È facile rendersi conto che compilare un corpus può richiedere un grande dispendio di
tempo e risorse economiche, ma tale impegno è giustificato dai benefici che da questo
si ricavano. I principali vantaggi che derivano dai corpora rispetto alla ricerca manuale
sono la velocità e l’affidabilità: utilizzando un corpus, il linguista può investigare una
grande quantità di materiale ed ottenere calcoli precisi sulla frequenza. “A corpus does
not contain new information about language, but the software offers us a new
perspective on the familiar” (Hunston, 2002: 3). Per accedere a questa nuova prospettiva
abbiamo a disposizione due metodi analitici dei corpora: generare concordanze o liste
di frequenza.
“A concordance is a collection of the occurrences of a word-form, each in its own textual
environment. In its simplest form it is an index. Each word-form is indexed and a reference is
given to the place of occurrence in a text.”
(Sinclair, 1991: 32)
Il metodo analitico chiamato concordanza si riferisce a parole chiavi presentate nei loro
contesti reali di occorrenza; tale tecnica di ricerca permette di ottenere un vasto numero
di esempi del termine ricercato, in un solo posto e con i suoi contesti originali. Le
concordanze vengono estratte automaticamente dal corpus attraverso specifici software
come nell’esempio alla Figura 1.1., preso dal BNC (British National Corpus), in cui si
è cercata la parola world e si possono osservare le sue occorrenze con un rigo di contesto.
1 W_fict_drama stink when I adore you " feeling. That " say I'm all the world to you,
you're out of your mind " " I know there's
2 W_fict_drama with you for your own reputation's sake, my dear son, for the
world will censure as it lists. But remember I depend upon you fitly to
provide