7
sulla fusione dei due, che è l’elemento che caratterizza la
statistica linguistica.
Nella seconda parte, dopo aver sottolineato le difficoltà
che si possono incontrare nel sottoporre ad analisi quantitativa
dei fatti di lingua, si è passati ad elencare le diverse possibili
applicazioni degli strumenti statistici a riguardo, mettendo in
rilievo il fatto che gli stessi possono considerare l’analisi
fonetica ed i sistemi fonologici, lo studio della morfologia e
della sintassi, l’analisi del lessico e del vocabolario, lo studio
relativo alla conoscenza ed all’uso di lessemi ed, infine, l’analisi
dei testi.
Nella terza parte, intendendo scegliere come corpus di
riferimento due discorsi del Presidente del Consiglio, Romano
Prodi, innanzitutto, è stato fatto un cenno sulla sua attività
accademica e politica. Si è successivamente passati ad analizzare
il linguaggio politico, la distinzione tra lo stesso ed il discorso
politico ed il modo in cui tale linguaggio andrebbe sottoposto
ad esame, evidenziando la distinzione tra analisi concettuale,
analisi descrittiva ed analisi del discorso.
Nell’ultima parte, dopo aver delineato il corpus di
riferimento, costituito precisamente dal discorso ai parlamentari
europei del centrosinistra, risalente al 1 febbraio 2006, in cui è
stato affrontato il tema “L’Italia dell’Unione in Europa e nel
Mondo” e dall’intervento alla Conferenza Stampa di fine anno
2006, si è passati ad elencare i possibili software che potrebbero
8
essere utilizzati nell’analisi automatica dei testi, ponendo
particolare attenzione allo SPAD v 5.0, ossia lo strumento che è
stato utilizzato per l’analisi di riferimento. Si è proceduto con
l’analisi delle diverse parole che compongono i due testi,
ordinandole secondo valori decrescenti di frequenza, quindi,
mediante la creazione di un vocabolario per ogni singolo
discorso e, successivamente, con l’analisi dei segmenti ripetuti,
ossia forme composte, costituite da parole che compaiono nel
corpus con la stessa sequenza.
9
CAPITOLO I
LA STATISTICA LINGUISTICA
1. IL TESTO E LA DISTINZIONE PARLATO-
SCRITTO
Il testo è un oggetto complesso e, in qualche misura,
anche sfuggente. Da un determinato punto di vista, la
definizione di testo è abbastanza semplice: qualsiasi oggetto
significante è un testo, quindi sono testi un romanzo, un film,
un saggio, un quadro, uno spot pubblicitario, una danza, un
paesaggio sia naturale che rappresentato, un vestito, un
discorso, un enunciato, un gesto, una frase e così via.
Tuttavia, una citazione può essere considerata anch’essa
testo, ne è in realtà una porzione che viene prelevata dallo
stesso. Ciò evidenzia che i limiti del testo sono piuttosto labili:
“il testo, in quanto luogo di demarcazione e di una finitezza è
oggetto di contrattazione. Anche quando i suoi limiti siano
fenomenicamente dati, empiricamente fissati, essi possono
tuttavia essere oggetto di negoziazione. Ciò porta
necessariamente ad una chiarezza sulle proprie ipotesi di lettura
come sull’assunzione di un determinato orizzonte
metodologico; riflettere sulla questione dei confini, siano essi
10
interni o esterni, è sempre un modo utile per agire sui testi
dotati di un punto di vista sulla propria azione”.
Ogni testo, pur nascendo da strutture e da un universo
culturale condiviso, ha una originalità propria, qualcosa che lo
rende unico ed è compito dell’analista saper cogliere e
descrivere lo stesso aiutandosi con gli strumenti che ritiene più
validi e magari crearne dei nuovi
1
.
In questo contesto, indicheremo con la dicitura testo
l’insieme di parole, dal latino textus, correlate tra loro per
costruire un’unità logico-concettuale, distinguendolo da un
insieme di parole accostate casualmente, grazie alla presenza in
esso di una finalità comunicativa, riconoscibile da un lettore di
media cultura.
Occorre però evidenziare la distinzione tra scritto e
parlato. Nella nostra cultura, il linguaggio scritto ha avuto
sempre un ruolo prevalente ma ciò non ci sorprende se
pensiamo che la tradizionale grammatica occidentale, ereditata
da quella greca e latina e da queste influenzata tuttora, si è
sviluppata nell’interesse prevalente e quasi esclusivo nei
confronti della lingua scritta letteraria, soprattutto dopo
l’invenzione della stampa che ha reso possibile il passaggio da
una fruizione orale della lingua ad una scritta. Da un punto di
vista disciplinare, di riflessione teorica sulla lingua, nel
1
PIERETTI A., BONERBA G., BERNARDELLI A., Introduzione alla semiotica,
Margiacchi-Galeno, Perugia 2002, pp. 119-122.
11
diciannovesimo secolo è iniziata un’inversione di tendenza.
Oggi, infatti, la maggior parte dei linguisti riconosce la priorità
della lingua parlata su quella scritta sulla base dei seguenti
elementi:
1) dal punto di vista filogenetico, in quanto la lingua parlata
precede quella scritta;
2) dal punto di vista ontogenetico, pensando che
l’acquisizione dell’orale da parte del bambino precede
quella dello scritto;
3) dal punto di vista della prassi, in quanto solitamente la
comunicazione avviene tramite l’articolazione fonica;
4) dal punto di vista socio-culturale, in quanto la lingua
parlata è importante nell’interazione sociale e culturale
più di quella scritta;
5) dal punto di vista interno, in quanto la lingua parlata
dispone di mezzi paralinguistici solo parzialmente
utilizzabili nello scritto
2
.
In ogni caso, qualsiasi testo, sia esso scritto o orale, è
intriso di significato che, grazie a diverse tipologie di approcci
che possono essere di tipo linguistico o statistico, viene reso
noto.
2
BAZZANELLA C., Le facce del parlare, La Nuova Italia, Firenze 1994, pp. 7-9.
12
2. L’ANALISI TESTUALE
L’analisi del testo o del discorso si fonda principalmente
sul significato che il testo o il discorso intendono comunicarci,
quindi sulla comprensibilità del testo e sulla coerenza, intesa
come caratteristica fondante la sua comprensione.
Le tecniche di analisi testuale consentono di analizzare,
esplorare ed interrogare raccolte di testi anche molto vasti. A
partire dagli anni Novanta, c’è stata una crescente diffusione di
software utili per l’analisi dei testi, grazie alla quale si è avuta
una crescita nelle applicazioni e nelle soluzioni.
Dopo aver definito l’insieme dei testi da analizzare,
bisogna fare attenzione all’organizzazione interna ed alla
trascrizione. In particolare, bisogna vedere se i testi sono
comparabili, se esistono degli elementi da associare a ciascun
frammento e se i testi hanno delle dimensioni tali da poter
essere analizzati con tecniche automatiche o meno.
In genere, si inizia analizzando le diverse parole che
compongono il corpus, ordinandole per valori decrescenti di
frequenza. Grazie a tale approccio, dopo aver individuato
parole come di, e, che, per, dal contenuto poco ricco, ci si imbatte
in quelle che vengono definite “parole tema”, che proprio
perché sono così frequenti all’interno di un testo, ci consentono
di carpirne immediatamente il focus.
13
L’analisi, in genere, procede in tale maniera: si analizzano i
segmenti ripetuti, poi le co-occorrenze, le parole caratteristiche,
il linguaggio peculiare, le parole con caratteristiche grammaticali
omogenee, le concordanze ed infine le corrispondenze lessicali.
I segmenti ripetuti sono delle forme composte costituite
da parole che compaiono nel testo con la stessa sequenza.
L’insieme dei segmenti ripetuti significativi di un testo ci aiuta a
rappresentare sinteticamente i contenuti del corpus e ad
individuare rapidamente attori, oggetti ed azioni su cui il testo è
strutturato.
L’analisi delle co-occorrenze ci permette, invece, di
studiare le associazioni tra parole, individuando quelle che
compaiono più spesso vicine.
Lo studio delle parole caratteristiche ci consente di
differenziare le diverse parti che costituiscono un testo,
mettendo in evidenza le parole che sono sovra-rappresentate
nel linguaggio di una categoria di autori (es. le donne). Grazie a
ciò, si riescono a caratterizzare i riferimenti tematici sovra-
rappresentati in determinati gruppi di individui.
L’analisi delle parole con caratteristiche grammaticali
omogenee ci permette, per esempio, di poter fare una
graduatoria delle azioni menzionate nel testo, dopo aver
analizzato i verbi, oppure di valutare il tono del testo, dopo aver
preso in considerazione gli aggettivi presenti nello stesso o,
14
infine, analizzando i pronomi, si può dar conto dell’interazione
presente tra i soggetti facenti parte del testo.
Analizzare le concordanze significa, invece, prendere in
considerazione il contesto d’uso di una o più parole. Si procede
visualizzando le parole precedenti e quelle successive alla parola
presa in analisi ogni volta che la stessa si ripete. Grazie a tale
studio, si riesce a tracciare una mappa concettuale tra parole e
temi affrontati.
Infine, l’analisi delle corrispondenze lessicali è una tecnica
multivariata che ci consente di sintetizzare le informazioni che
abbiamo.
15
3. QUALITATIVO-QUANTITATIVO: UN BINOMIO
INDISPENSABILE PER COMPRENDERE IL
LINGUAGGIO
I metodi quantitativi relativi allo studio della lingua e del
linguaggio in generale si sono sviluppati in modo tale da dar vita
anche ad ulteriori discipline, quali la linguistica matematica, la
statistica linguistica e la linguistica computazionale.
La linguistica matematica deve molto agli studi di Noam
Chomsky, la statistica linguistica ha antiche tradizioni e
continua ad evolversi cercando nuovi campi d’applicazione ed,
infine, la linguistica computazionale si sviluppa parallelamente
all’evoluzione dell’informatica, a volte sovrapponendosi con la
statistica linguistica.
Pensando ad Aristotele, Leibniz, Frege, Peano o Russell,
ci si accorge che gli studi linguistici hanno avuto basi logiche fin
dall’antichità.
L’analisi della struttura statistica della lingua ha interessato
da molto tempo sia i linguisti che gli statistici. Il matematico
Markov, da uno studio sull’opera Eugenj Onegin, in effetti, ha
sviluppato uno schema probabilistico notissimo in campo
scientifico per il suo significato e le sue possibili applicazioni in
diversi settori.
L’analisi delle corrispondenze, inoltre, è stata inizialmente
proposta, attorno al 1960, da Benzécri come metodo induttivo
16
di analisi dei dati linguistici. In quel periodo, la linguistica
matematica era dominata dalle teorie di Chomsky, che
sosteneva che non possono esistere delle procedure
sistematiche per definire la grammatica di una lingua. Secondo
Chomsky, quindi, la linguistica non può essere induttiva ma
solo deduttiva, nel senso che, partendo da assiomi, genera dei
modelli di lingue reali. Proprio in seguito a tale visione,
Benzécri iniziò a pensare ad un algoritmo che permettesse di
passare dalle pagine di un testo ad una sintassi e ad una
semantica, quindi a fornire al linguista un metodo induttivo.
Proprio in questo contesto, in Francia, è nata l’analisi delle
corrispondenze.
La quantificazione dei fatti di lingua presuppone delle
regole che sarà il linguista stesso a scegliere così come a lui
spetterà la scelta dei testi da analizzare.
L’insieme di testi indicizzati costituisce il corpus,
all’interno del quale si decide di studiare e quantificare fatti
lessicali, sintattici e così via. A causa della natura stessa del
linguaggio, però, essendo i fatti lessicali in continua evoluzione,
è difficile utilizzare un’unica norma quando si opera su testi
diversi a livello sintattico o tematico, o su opere scaglionate nel
tempo o su un corpus differenziato
3
.
3
RIZZI A., Stato e prospettive della statistica linguistica, in BOLASCO S., CIPRIANI R. (a
cura di), Ricerca qualitativa e computer. Teorie, metodi e applicazioni, Angeli, Milano 1995,
pp. 31-34.
17
4. L’APPROCCIO STATISTICO
Gli statistici ritengono che quanto più un termine è
presente in un testo, tanto più esso è rappresentativo dello
stesso. Esistono però dei limiti riguardanti il metodo statistico,
problemi di tipo soprattutto linguistico.
In effetti, in ogni lingua sono presenti delle parole come
avere, fare, essere, … che, pur essendo presenti in gran quantità,
non sono affatto significative. Proprio per questo, tali termini
dovranno essere filtrati.
Un ulteriore problema riguarda le ambiguità. In effetti,
esistono delle parole o insiemi di parole che possono avere un
significato letterale ma anche figurato. In questo caso, gli
elementi di tali frasi non dovranno essere presi in
considerazione come elementi di senso caratteristico dai
programmi d’analisi. Per esempio, la parola effetto può essere
usata in frasi come fare effetto su, fare l’effetto di, scontare un effetto o
essere presente in nomi composti come effetto-boomerang, effetto
luce, effetto speciale o ancora in avverbi composti come in effetti.
Indicizzando tale termine solo con i metodi statistici, otterremo
solo risultati aleatori, in quanto non si tiene conto della
presenza di tutte le parole composte.
L’ultimo limite presente all’interno dell’approccio
statistico è quello legato alla frequenza degli elementi di senso
designati da un termine composto. Per esempio, se prendiamo i
18
due termini effetto e tunnel, non ci basta sapere la frequenza con
cui queste parole compaiono nel testo, ma ci interessa
conoscere anche se le due compaiono vicine: effetto tunnel
4
.
4
ELIA A., Per una disambiguazione semi-automatica di sintagmi composti: i dizionari elettronici
lessico-grammaticali, in BOLASCO S., CIPRIANI R. (a cura di), Ricerca qualitativa e
computer. Teorie, metodi e applicazioni, cit., pp. 132-133.
19
5. L’APPROCCIO LINGUISTICO
La metodologia lessico-grammaticale non prevede
l’utilizzo del metodo statistico nella ricerca degli elementi
significativi presenti all’interno di un testo. L’approccio
linguistico si fonda sul principio che questi elementi di senso
non sono infiniti, quindi, se ne può stilare una lista a priori.
Grazie a tale metodo di ricerca, si possono costruire
dizionari contenenti tutti i termini portatori di senso e le loro
forme flesse e ci si può basare sugli stessi per analizzare i testi.
Si procede analizzando le forme produttive dei nomi
composti e prevedendo le parole assenti nel dizionario.
Con tale tipologia di analisi, si riconoscono i gruppi
nominali produttivi come la produzione petrolifera, agricola,
industriale e le esportazioni petrolifere, agricole, industriali. Inoltre, si
colgono i nomi composti che designano concetti precisi come,
ad esempio, gruppo bancario, gruppo elettrogeno, al cui interno è
presente la parola gruppo che accostata ad altre parole assume, di
volta in volta, significati diversi.
L’approccio di tipo lessico-grammaticale, quindi, facilita il
riconoscimento dei nomi composti e i programmi di
indicizzazione si basano sull’uso di dizionari elettronici
specializzati
5
.
5
Ibid., pp. 133-134.