Metodi statistici per l'analisi testuale: un'analisi empirica

Gratis L'anteprima di questa tesi è scaricabile gratuitamente in formato PDF.
Per scaricare il file PDF è necessario essere iscritto a Tesionline. L'iscrizione non comporta alcun costo: effettua il Login o Registrati.

Mostra/Nascondi contenuto.

7
sulla fusione dei due, che è l’elemento che caratterizza la
statistica linguistica.
Nella seconda parte, dopo aver sottolineato le difficoltà
che si possono incontrare nel sottoporre ad analisi quantitativa
dei fatti di lingua, si è passati ad elencare le diverse possibili
applicazioni degli strumenti statistici a riguardo, mettendo in
rilievo il fatto che gli stessi possono considerare l’analisi
fonetica ed i sistemi fonologici, lo studio della morfologia e
della sintassi, l’analisi del lessico e del vocabolario, lo studio
relativo alla conoscenza ed all’uso di lessemi ed, infine, l’analisi
dei testi.
Nella terza parte, intendendo scegliere come corpus di
riferimento due discorsi del Presidente del Consiglio, Romano
Prodi, innanzitutto, è stato fatto un cenno sulla sua attività
accademica e politica. Si è successivamente passati ad analizzare
il linguaggio politico, la distinzione tra lo stesso ed il discorso
politico ed il modo in cui tale linguaggio andrebbe sottoposto
ad esame, evidenziando la distinzione tra analisi concettuale,
analisi descrittiva ed analisi del discorso.
Nell’ultima parte, dopo aver delineato il corpus di
riferimento, costituito precisamente dal discorso ai parlamentari
europei del centrosinistra, risalente al 1 febbraio 2006, in cui è
stato affrontato il tema “L’Italia dell’Unione in Europa e nel
Mondo” e dall’intervento alla Conferenza Stampa di fine anno
2006, si è passati ad elencare i possibili software che potrebbero
8
essere utilizzati nell’analisi automatica dei testi, ponendo
particolare attenzione allo SPAD v 5.0, ossia lo strumento che è
stato utilizzato per l’analisi di riferimento. Si è proceduto con
l’analisi delle diverse parole che compongono i due testi,
ordinandole secondo valori decrescenti di frequenza, quindi,
mediante la creazione di un vocabolario per ogni singolo
discorso e, successivamente, con l’analisi dei segmenti ripetuti,
ossia forme composte, costituite da parole che compaiono nel
corpus con la stessa sequenza.
9
CAPITOLO I

LA STATISTICA LINGUISTICA

1. IL TESTO E LA DISTINZIONE PARLATO-
SCRITTO

Il testo è un oggetto complesso e, in qualche misura,
anche sfuggente. Da un determinato punto di vista, la
definizione di testo è abbastanza semplice: qualsiasi oggetto
significante è un testo, quindi sono testi un romanzo, un film,
un saggio, un quadro, uno spot pubblicitario, una danza, un
paesaggio sia naturale che rappresentato, un vestito, un
discorso, un enunciato, un gesto, una frase e così via.
Tuttavia, una citazione può essere considerata anch’essa
testo, ne è in realtà una porzione che viene prelevata dallo
stesso. Ciò evidenzia che i limiti del testo sono piuttosto labili:
“il testo, in quanto luogo di demarcazione e di una finitezza è
oggetto di contrattazione. Anche quando i suoi limiti siano
fenomenicamente dati, empiricamente fissati, essi possono
tuttavia essere oggetto di negoziazione. Ciò porta
necessariamente ad una chiarezza sulle proprie ipotesi di lettura
come sull’assunzione di un determinato orizzonte
metodologico; riflettere sulla questione dei confini, siano essi
10
interni o esterni, è sempre un modo utile per agire sui testi
dotati di un punto di vista sulla propria azione”.
Ogni testo, pur nascendo da strutture e da un universo
culturale condiviso, ha una originalità propria, qualcosa che lo
rende unico ed è compito dell’analista saper cogliere e
descrivere lo stesso aiutandosi con gli strumenti che ritiene più
validi e magari crearne dei nuovi
1
.
In questo contesto, indicheremo con la dicitura testo
l’insieme di parole, dal latino textus, correlate tra loro per
costruire un’unità logico-concettuale, distinguendolo da un
insieme di parole accostate casualmente, grazie alla presenza in
esso di una finalità comunicativa, riconoscibile da un lettore di
media cultura.
Occorre però evidenziare la distinzione tra scritto e
parlato. Nella nostra cultura, il linguaggio scritto ha avuto
sempre un ruolo prevalente ma ciò non ci sorprende se
pensiamo che la tradizionale grammatica occidentale, ereditata
da quella greca e latina e da queste influenzata tuttora, si è
sviluppata nell’interesse prevalente e quasi esclusivo nei
confronti della lingua scritta letteraria, soprattutto dopo
l’invenzione della stampa che ha reso possibile il passaggio da
una fruizione orale della lingua ad una scritta. Da un punto di
vista disciplinare, di riflessione teorica sulla lingua, nel

1
PIERETTI A., BONERBA G., BERNARDELLI A., Introduzione alla semiotica,
Margiacchi-Galeno, Perugia 2002, pp. 119-122.
11
diciannovesimo secolo è iniziata un’inversione di tendenza.
Oggi, infatti, la maggior parte dei linguisti riconosce la priorità
della lingua parlata su quella scritta sulla base dei seguenti
elementi:
1) dal punto di vista filogenetico, in quanto la lingua parlata
precede quella scritta;
2) dal punto di vista ontogenetico, pensando che
l’acquisizione dell’orale da parte del bambino precede
quella dello scritto;
3) dal punto di vista della prassi, in quanto solitamente la
comunicazione avviene tramite l’articolazione fonica;
4) dal punto di vista socio-culturale, in quanto la lingua
parlata è importante nell’interazione sociale e culturale
più di quella scritta;
5) dal punto di vista interno, in quanto la lingua parlata
dispone di mezzi paralinguistici solo parzialmente
utilizzabili nello scritto
2
.
In ogni caso, qualsiasi testo, sia esso scritto o orale, è
intriso di significato che, grazie a diverse tipologie di approcci
che possono essere di tipo linguistico o statistico, viene reso
noto.

2
BAZZANELLA C., Le facce del parlare, La Nuova Italia, Firenze 1994, pp. 7-9.
12
2. L’ANALISI TESTUALE

L’analisi del testo o del discorso si fonda principalmente
sul significato che il testo o il discorso intendono comunicarci,
quindi sulla comprensibilità del testo e sulla coerenza, intesa
come caratteristica fondante la sua comprensione.
Le tecniche di analisi testuale consentono di analizzare,
esplorare ed interrogare raccolte di testi anche molto vasti. A
partire dagli anni Novanta, c’è stata una crescente diffusione di
software utili per l’analisi dei testi, grazie alla quale si è avuta
una crescita nelle applicazioni e nelle soluzioni.
Dopo aver definito l’insieme dei testi da analizzare,
bisogna fare attenzione all’organizzazione interna ed alla
trascrizione. In particolare, bisogna vedere se i testi sono
comparabili, se esistono degli elementi da associare a ciascun
frammento e se i testi hanno delle dimensioni tali da poter
essere analizzati con tecniche automatiche o meno.
In genere, si inizia analizzando le diverse parole che
compongono il corpus, ordinandole per valori decrescenti di
frequenza. Grazie a tale approccio, dopo aver individuato
parole come di, e, che, per, dal contenuto poco ricco, ci si imbatte
in quelle che vengono definite “parole tema”, che proprio
perché sono così frequenti all’interno di un testo, ci consentono
di carpirne immediatamente il focus.
13
L’analisi, in genere, procede in tale maniera: si analizzano i
segmenti ripetuti, poi le co-occorrenze, le parole caratteristiche,
il linguaggio peculiare, le parole con caratteristiche grammaticali
omogenee, le concordanze ed infine le corrispondenze lessicali.
I segmenti ripetuti sono delle forme composte costituite
da parole che compaiono nel testo con la stessa sequenza.
L’insieme dei segmenti ripetuti significativi di un testo ci aiuta a
rappresentare sinteticamente i contenuti del corpus e ad
individuare rapidamente attori, oggetti ed azioni su cui il testo è
strutturato.
L’analisi delle co-occorrenze ci permette, invece, di
studiare le associazioni tra parole, individuando quelle che
compaiono più spesso vicine.
Lo studio delle parole caratteristiche ci consente di
differenziare le diverse parti che costituiscono un testo,
mettendo in evidenza le parole che sono sovra-rappresentate
nel linguaggio di una categoria di autori (es. le donne). Grazie a
ciò, si riescono a caratterizzare i riferimenti tematici sovra-
rappresentati in determinati gruppi di individui.
L’analisi delle parole con caratteristiche grammaticali
omogenee ci permette, per esempio, di poter fare una
graduatoria delle azioni menzionate nel testo, dopo aver
analizzato i verbi, oppure di valutare il tono del testo, dopo aver
preso in considerazione gli aggettivi presenti nello stesso o,
14
infine, analizzando i pronomi, si può dar conto dell’interazione
presente tra i soggetti facenti parte del testo.
Analizzare le concordanze significa, invece, prendere in
considerazione il contesto d’uso di una o più parole. Si procede
visualizzando le parole precedenti e quelle successive alla parola
presa in analisi ogni volta che la stessa si ripete. Grazie a tale
studio, si riesce a tracciare una mappa concettuale tra parole e
temi affrontati.
Infine, l’analisi delle corrispondenze lessicali è una tecnica
multivariata che ci consente di sintetizzare le informazioni che
abbiamo.

15
3. QUALITATIVO-QUANTITATIVO: UN BINOMIO
INDISPENSABILE PER COMPRENDERE IL
LINGUAGGIO

I metodi quantitativi relativi allo studio della lingua e del
linguaggio in generale si sono sviluppati in modo tale da dar vita
anche ad ulteriori discipline, quali la linguistica matematica, la
statistica linguistica e la linguistica computazionale.
La linguistica matematica deve molto agli studi di Noam
Chomsky, la statistica linguistica ha antiche tradizioni e
continua ad evolversi cercando nuovi campi d’applicazione ed,
infine, la linguistica computazionale si sviluppa parallelamente
all’evoluzione dell’informatica, a volte sovrapponendosi con la
statistica linguistica.
Pensando ad Aristotele, Leibniz, Frege, Peano o Russell,
ci si accorge che gli studi linguistici hanno avuto basi logiche fin
dall’antichità.
L’analisi della struttura statistica della lingua ha interessato
da molto tempo sia i linguisti che gli statistici. Il matematico
Markov, da uno studio sull’opera Eugenj Onegin, in effetti, ha
sviluppato uno schema probabilistico notissimo in campo
scientifico per il suo significato e le sue possibili applicazioni in
diversi settori.
L’analisi delle corrispondenze, inoltre, è stata inizialmente
proposta, attorno al 1960, da Benzécri come metodo induttivo
16
di analisi dei dati linguistici. In quel periodo, la linguistica
matematica era dominata dalle teorie di Chomsky, che
sosteneva che non possono esistere delle procedure
sistematiche per definire la grammatica di una lingua. Secondo
Chomsky, quindi, la linguistica non può essere induttiva ma
solo deduttiva, nel senso che, partendo da assiomi, genera dei
modelli di lingue reali. Proprio in seguito a tale visione,
Benzécri iniziò a pensare ad un algoritmo che permettesse di
passare dalle pagine di un testo ad una sintassi e ad una
semantica, quindi a fornire al linguista un metodo induttivo.
Proprio in questo contesto, in Francia, è nata l’analisi delle
corrispondenze.
La quantificazione dei fatti di lingua presuppone delle
regole che sarà il linguista stesso a scegliere così come a lui
spetterà la scelta dei testi da analizzare.
L’insieme di testi indicizzati costituisce il corpus,
all’interno del quale si decide di studiare e quantificare fatti
lessicali, sintattici e così via. A causa della natura stessa del
linguaggio, però, essendo i fatti lessicali in continua evoluzione,
è difficile utilizzare un’unica norma quando si opera su testi
diversi a livello sintattico o tematico, o su opere scaglionate nel
tempo o su un corpus differenziato
3
.

3
RIZZI A., Stato e prospettive della statistica linguistica, in BOLASCO S., CIPRIANI R. (a
cura di), Ricerca qualitativa e computer. Teorie, metodi e applicazioni, Angeli, Milano 1995,
pp. 31-34.
17
4. L’APPROCCIO STATISTICO

Gli statistici ritengono che quanto più un termine è
presente in un testo, tanto più esso è rappresentativo dello
stesso. Esistono però dei limiti riguardanti il metodo statistico,
problemi di tipo soprattutto linguistico.
In effetti, in ogni lingua sono presenti delle parole come
avere, fare, essere, … che, pur essendo presenti in gran quantità,
non sono affatto significative. Proprio per questo, tali termini
dovranno essere filtrati.
Un ulteriore problema riguarda le ambiguità. In effetti,
esistono delle parole o insiemi di parole che possono avere un
significato letterale ma anche figurato. In questo caso, gli
elementi di tali frasi non dovranno essere presi in
considerazione come elementi di senso caratteristico dai
programmi d’analisi. Per esempio, la parola effetto può essere
usata in frasi come fare effetto su, fare l’effetto di, scontare un effetto o
essere presente in nomi composti come effetto-boomerang, effetto
luce, effetto speciale o ancora in avverbi composti come in effetti.
Indicizzando tale termine solo con i metodi statistici, otterremo
solo risultati aleatori, in quanto non si tiene conto della
presenza di tutte le parole composte.
L’ultimo limite presente all’interno dell’approccio
statistico è quello legato alla frequenza degli elementi di senso
designati da un termine composto. Per esempio, se prendiamo i
18
due termini effetto e tunnel, non ci basta sapere la frequenza con
cui queste parole compaiono nel testo, ma ci interessa
conoscere anche se le due compaiono vicine: effetto tunnel
4
.

4
ELIA A., Per una disambiguazione semi-automatica di sintagmi composti: i dizionari elettronici
lessico-grammaticali, in BOLASCO S., CIPRIANI R. (a cura di), Ricerca qualitativa e
computer. Teorie, metodi e applicazioni, cit., pp. 132-133.

19
5. L’APPROCCIO LINGUISTICO

La metodologia lessico-grammaticale non prevede
l’utilizzo del metodo statistico nella ricerca degli elementi
significativi presenti all’interno di un testo. L’approccio
linguistico si fonda sul principio che questi elementi di senso
non sono infiniti, quindi, se ne può stilare una lista a priori.
Grazie a tale metodo di ricerca, si possono costruire
dizionari contenenti tutti i termini portatori di senso e le loro
forme flesse e ci si può basare sugli stessi per analizzare i testi.
Si procede analizzando le forme produttive dei nomi
composti e prevedendo le parole assenti nel dizionario.
Con tale tipologia di analisi, si riconoscono i gruppi
nominali produttivi come la produzione petrolifera, agricola,
industriale e le esportazioni petrolifere, agricole, industriali. Inoltre, si
colgono i nomi composti che designano concetti precisi come,
ad esempio, gruppo bancario, gruppo elettrogeno, al cui interno è
presente la parola gruppo che accostata ad altre parole assume, di
volta in volta, significati diversi.
L’approccio di tipo lessico-grammaticale, quindi, facilita il
riconoscimento dei nomi composti e i programmi di
indicizzazione si basano sull’uso di dizionari elettronici
specializzati
5
.

5
Ibid., pp. 133-134.

Anteprima dalla tesi:

Metodi statistici per l'analisi testuale: un'analisi empirica

CONSULTA INTEGRALMENTE QUESTA TESI

La consultazione è esclusivamente in formato digitale .PDF

Acquista

Informazioni tesi

Autore:	Maruska Berardi
Tipo:	Laurea II ciclo (magistrale o specialistica)
Anno:	2006-07
Università:	Università degli Studi Gabriele D'Annunzio di Chieti e Pescara
Facoltà:	Scienze Manageriali
Corso:	Scienze statistiche ed economiche
Lingua:	Italiano
Num. pagine:	249

FAQ

Come consultare una tesi

Per consultare la tesi è necessario essere registrati e acquistare la consultazione integrale del file, al costo di 29,89€.
Il pagamento può essere effettuato tramite carta di credito/carta prepagata, PayPal, bonifico bancario.
Confermato il pagamento si potrà consultare i file esclusivamente in formato .PDF accedendo alla propria Home Personale. Si potrà quindi procedere a salvare o stampare il file.
Maggiori informazioni

Perché consultare una tesi?

Ingiustamente snobbata durante le ricerche bibliografiche, una tesi di laurea si rivela decisamente utile:

perché affronta un singolo argomento in modo sintetico e specifico come altri testi non fanno;
perché è un lavoro originale che si basa su una ricerca bibliografica accurata;
perché, a differenza di altri materiali che puoi reperire online, una tesi di laurea è stata verificata da un docente universitario e dalla commissione in sede d'esame. La nostra redazione inoltre controlla prima della pubblicazione la completezza dei materiali e, dal 2009, anche l'originalità della tesi attraverso il software antiplagio Compilatio.net.

Clausole di consultazione

L'utilizzo della consultazione integrale della tesi da parte dell'Utente che ne acquista il diritto è da considerarsi esclusivamente privato.
Nel caso in cui l’utente che consulta la tesi volesse citarne alcune parti, dovrà inserire correttamente la fonte, come si cita un qualsiasi altro testo di riferimento bibliografico.
L'Utente è l'unico ed esclusivo responsabile del materiale di cui acquista il diritto alla consultazione. Si impegna a non divulgare a mezzo stampa, editoria in genere, televisione, radio, Internet e/o qualsiasi altro mezzo divulgativo esistente o che venisse inventato, il contenuto della tesi che consulta o stralci della medesima. Verrà perseguito legalmente nel caso di riproduzione totale e/o parziale su qualsiasi mezzo e/o su qualsiasi supporto, nel caso di divulgazione nonché nel caso di ricavo economico derivante dallo sfruttamento del diritto acquisito.

Vuoi tradurre questa tesi?

L'obiettivo di Tesionline è quello di rendere accessibile a una platea il più possibile vasta il patrimonio di cultura e conoscenza contenuto nelle tesi.
Per raggiungerlo, è fondamentale superare la barriera rappresentata dalla lingua. Ecco perché cerchiamo persone disponibili ad effettuare la traduzione delle tesi pubblicate nel nostro sito.
Per tradurre questa tesi clicca qui »
Scopri come funziona »

DUBBI? Contattaci

Contatta la redazione a
[email protected]

Ci trovi su Skype (redazione_tesi)
dalle 9:00 alle 13:00

Oppure vieni a trovarci su

Parole chiave

accezioni

analisi critica del discorso politico

analisi descrittiva del discorso politico

analisi proposizionale

analisi testuale

dizionari elettronici

legge canonica di zipf

leggibilità

linguaggio politico

linguistica

mandelbrot

occorrenza

parlato scritto

parole caratteristiche

rendimento funzionale

romano prodi

segmenti ripetuti

semantica quantitativa

spad

statistica testuale

testo

text mining

vocabolario di base

zipf

Tesi correlate

Non hai trovato quello che cercavi?

Abbiamo più di 45.000 Tesi di Laurea: cerca nel nostro database

Oppure consulta la sezione dedicata ad appunti universitari selezionati e pubblicati dalla nostra redazione

Ottimizza la tua ricerca:

individua con precisione le parole chiave specifiche della tua ricerca
elimina i termini non significativi (aggettivi, articoli, avverbi...)
se non hai risultati amplia la ricerca con termini via via più generici (ad esempio da "anziano oncologico" a "paziente oncologico")
utilizza la ricerca avanzata
utilizza gli operatori booleani (and, or, "")

Idee per la tesi?

Scopri le migliori tesi scelte da noi sugli argomenti recenti

Come si scrive una tesi di laurea?

A quale cattedra chiedere la tesi? Quale sarà il docente più disponibile? Quale l'argomento più interessante per me? ...e quale quello più interessante per il mondo del lavoro?

Scarica gratuitamente la nostra guida "Come si scrive una tesi di laurea" e iscriviti alla newsletter per ricevere consigli e materiale utile.

Leggi la guida

La tesi l'ho già scritta,
ora cosa ne faccio?

La tua tesi ti ha aiutato ad ottenere quel sudato titolo di studio, ma può darti molto di più: ti differenzia dai tuoi colleghi universitari, mostra i tuoi interessi ed è un lavoro di ricerca unico, che può essere utile anche ad altri.

Il nostro consiglio è di non sprecare tutto questo lavoro:

È ora di pubblicare la tesi

Scopri di più

Metodi statistici per l'analisi testuale: un'analisi empirica

Anteprima dalla tesi:

Metodi statistici per l'analisi testuale: un'analisi empirica

CONSULTA INTEGRALMENTE QUESTA TESI

La consultazione è esclusivamente in formato digitale .PDF

Informazioni tesi

FAQ

Come consultare una tesi

Perché consultare una tesi?

Clausole di consultazione

Vuoi tradurre questa tesi?

DUBBI? Contattaci

Parole chiave

Tesi correlate

Non hai trovato quello che cercavi?

Ottimizza la tua ricerca:

Idee per la tesi?

Come si scrive una tesi di laurea?

La tesi l'ho già scritta,ora cosa ne faccio?

Login

La tesi l'ho già scritta,
ora cosa ne faccio?