As far as speech is concerned, the DTD is made to take into considera-
tion its features (e.g. the importance of the clause level, of discourse mark-
ers, false starts, hesitations, etc). However, the relationship between spoken
language, which, for its connection with the various contexts of enunciation,
is always new, unrepeatable, and a software, witch demands a certain degree
of rigour, is not unproblematic.
During the tagging process (carried out on a corpus of eight radio and TV
spoken passages), several problems were found: syntactic problems, such as
the boundaries between clauses, or the treatment of conjunctions with a prag-
matic function and of particular noun modifiers; problems with the structure
of the DTD, such as the treatment of inchoative verbs; other problems, such
as the recognition of multiword expressions, or the treatment of interruptions
(retrace-and-repair sequences).
In conclusion, it must be pointed out that, although this thesis deals
exclusively with the tagging process and its problems, the aim of AN.ANA.S.
is studying the structures of the language (both the spoken one and the
written one), by querying the database created by the software about the
percentage of each feature of the tagged corpus (i.e. unexpressed subjects).
2
Capitolo 1
Problemi di sintassi del parlato
1.1 Introduzione: il parlato
Il parlato, inteso come parlato spontaneo, e` stato spesso studiato definen-
done i caratteri che lo differenziano dalla lingua scritta. Eccone i principali1:
Innanzitutto, il parlato e` il primo stadio di acquisizione linguistica (si
impara prima a parlare e poi a scrivere) e, inoltre, si trova in tutte le societa`
(esistono lingue che sono solo parlate ma non lingue che siano solo scritte).
In secondo luogo, il parlato e` listener-oriented, il che significa che ha la
funzione principale di creare e mantenere i legami sociali, mentre lo scritto e`
message-oriented, cioe` e` principalmente veicolatore di informazioni.
Inoltre, il parlato fa uso della prosodia, laddove lo scritto si affida a mezzi
grafici.
Il parlato puo` far riferimento al qui ed ora dell’enunciazione, lo scrit-
to, invece, deve essere piu` esplicito in quanto manca di tutta quella serie
1Da Gramley, S., Patzold, K. M., A Survey of Modern English, London, Routledge,
1999.
3
di riferimenti al contesto che aiutano i partecipanti della conversazione alla
costruzione del senso.
Per finire, il parlato non e` pianificato, o meglio, la sua pianificazione e`
contemporanea all’enunciazione. Potremmo dire che ogni enunciazione porta
con se´ lo “sforzo” derivato dalla pianificazione, che si manifesta sotto la
forma di false starts, ripetizioni, ecc. Lo scritto e`, invece, il risultato di una
pianificazione.
La definizione di parlato e` stata anche legata ai concetti di oralita`, sistema
fonico-uditivo e varieta` linguistica2. Dal concetto di oralita`3 deriverebbero,
tra le altre cose, il legame del parlato al contesto dell’enunciazione (v. so-
pra) e, di conseguenza, la sua tipica ridondanza, che deriva appunto dalla
mancanza di un testo scritto di riferimento che fa s`ı che chi parla debba ri-
tornare continuamente sul gia` detto per non perdere la continuita` del senso.
Dal sistema fonico-uditivo derivano la non ripetibilita` e la non permanenza
delle fonie, che si legano in parte a quanto detto a proposito dell’oralita`. Per
quanto riguarda il concetto di varieta` linguistica, lungi dall’essere conside-
rato meramente una varieta` diamesica, il parlato e` stato definito piuttosto
una “varieta` pragmatica”, che si riferisce, dunque, alla presenza di particolari
strategie comunicative piuttosto che a caratteristiche strutturali4.
2Voghera, M., Sintassi e intonazione nell’italiano parlato, Bologna, Il Mulino, 1992.
3
Il termine oralita` designa “l’insieme delle pratiche comunicative associate alla compo-
sizione, esecuzione e trasmissione orale” (Mureddu 1982; Finnegan 1988, cit. in Voghera
(1992), Introduzione) di civilta` che non conoscono la scrittura.
4Per una trattazione piu` diffusa di queste nozioni, si veda Voghera (1992), Introduzione.
4
1.2 Problemi di sintassi del parlato: frase,
clausola, enunciato
Passiamo ora ad analizzare l’unita` di pertinenza della sintassi del parlato,
definendone caratteristiche e criteri per la sua determinazione.
1.2.1 Definizione dell’unita` di pertinenza della sintassi
del parlato.
Partiamo da alcune definizioni: l’enunciato, nell’accezione comune, e`
qualsiasi porzione di discorso, indipendentemente dalla sua struttura e dalla
sua estensione. Con frase, invece, si intende una categoria teorica astratta in
base alla quale puo` essere descritta e spiegata la sintassi di un enunciato. La
clausola e` una porzione di frase che ha la forma di una frase5. Ora, due ordini
di problemi: da un lato e` stato dimostrato da numerosi studi che il parlato
ha, come unita` massima di progettazione sintattica, la clausola; dall’altro,
clausola o frase che sia, nel parlato e` difficile delineare con certezza il confine
tra queste unita` linguistiche. Questo per motivi che si ricollegano anche a
quanto detto in precedenza: la prosodia ed il contesto di enunciazione spesso
disambiguano situazioni enunciative che mancano di connessioni esplicite fra
clausole e, inoltre, e` facile avere congiunzioni che perdono la loro funzione
sintattica per assumere una funzione pragmatica (v. par. 1.3).
5Ibidem,p.121. Voghera in questo caso parla di proposizione, non di clausola, ma i due
termini possono essere considerati sinonimi.
5
1.2.2 Criteri per la determinazione della frase.
Voghera (1992)6 ci propone tre criteri per il riconoscimento dei segni-frase
nel parlato. Questi tre criteri sono:
• Predicazione, in base alla quale distinguiamo appunto i segni predicativi
da quelli che non lo sono. La definizione piu` pertinente di predicazione
e`, in questo caso, quella che la considera come un’operazione che mette
in relazione due termini il cui prodotto risulta un qualcosa di nuovo.
Quindi ci distanziamo dalla definizione di predicazione di matrice logi-
cista secondo la quale e` necessario un verbo che colleghi un nome ad
una proprieta` che gli viene attribuita per avere una predicazione, bens`ı
riconosciamo come segni-frase anche espressioni come Bella la nuova
casa! 7 , che sono a nodo centrale non verbale.
• Autonomia, considerata soprattutto dal punto di vista sintattico, che
permette di riconoscere come segno-frase qualsiasi forma indipendente
in posizione libera, cioe` non inclusa in una forma piu` ampia8. Anche
questa definizione naturalmente prescinde dalle categorie grammaticali
che troviamo nella frase (soprattutto prescinde dalla presenza di un
verbo nella frase).
• Intonazione. Voghera (1992) considera l’intonazione un fattore deter-
minante per il riconoscimento delle frasi nel parlato. Anche in C-
ORAL-ROM9, l’unita` di pertinenza individuata per l’analisi dei cor-
6Ibidem, cap. IV.
7Esempio di M. Voghera.
8Criterio dell’ indipendenza distribuzionale (in Bloomfield, L., Language, London,
George Allen & Unwin, 1979, cit. in Voghera (1992), cap. IV).
9
Il progetto C-ORAL-ROM e` uno studio contrastivo di corpora di parlato italiano,
6
pora e` l’enunciato (ingl. utterance). Il criterio utilizzato qui per la
determinazione dei confini tra enunciati e` quello prosodico. In parti-
colare, si distinguono terminal e non-terminal prosodic breaks : i primi
segnalano la fine di un enunciato, i secondi la fine di una unita` tona-
le che non per forza costituisce enunciato. Avremo, quindi, enunciati
composti da una sola unita` tonale, ed enunciati composti da piu` unita`
tonali (divise, dunque, da non-terminal breaks)10.
Predicazione, autonomia e intonazione sono, ovviamente, fattori interdi-
pendenti tra loro, anche se non sembra, comunque, esserci corrispondenza
diretta tra predicazione ed intonazione: la corrispondenza ad un gruppo to-
nale non interessa i segni predicativi piu` di quanto non interessi quelli non
predicativi.
1.3 Problemi di sintassi del parlato: presen-
za di congiunzioni coordinanti e subordi-
nanti con funzione pragmatica
Al pari dei confini fra frasi, anche i confini e la tipologia delle clausole
(o proposizioni) sono difficili da delineare anche per quanto accennato nel
francese, spagnolo e portoghese, coordinato dall’ Universita` di Firenze in collaborazione
con Universite´ de Provence, Centro de Lingu´ıstica da Universidade de Lisboa, Universidad
Auto´noma de Madrid. Il suo scopo e` quello di essere una valida rappresentazione della
variazione nel parlato quotidiano delle quattro principali lingue Romanze, attraverso lo
studio di fenomeni prosodici e sintattici tra loro correlati.
10E` naturalmente il parlante ad assegnare ai prosodic breaks lo statuto di terminal o
non-terminal.
7
paragrafo 1.2.1: la massiccia presenza, nel parlato, di congiunzioni coordi-
nanti e subordinanti che perdono la loro funzione puramente sintattica di
nesso tra proposizioni, ed assumono una funzione pragmatica di apertura del
canale comunicativo. In questi usi i nessi diventano veri e propri discourse
markers, elementi che, svuotatisi in parte del loro significato originario, assu-
mono, appunto, un ruolo funzionale, pragmatico, connesso con la dimensione
interpersonale del parlato11. Consideriamo gli esempi (1) e (2):
(1) Ma il pane l’hai comprato?
(2) Senti, il pane l’hai comprato?
Ma e Senti possono essere messi sullo stesso piano in questo caso: Ma si
trova in posizione iniziale ed ha chiaramente perso la sua funzione di connet-
tore tra clausole; Senti e` un tipico esempio di discourse marker. Notiamo
che sia Ma che Senti in questo caso non possono essere considerati elementi
appartenenti ad una data categoria grammaticale, bens`ı funzionale.
1.4 Obiettivo della ricerca
A questo punto abbiamo evidenziato che le caratteristiche del parlato
sono dovute soprattutto a fattori pragmatici, e questo perche´, come abbiamo
gia` detto in parte, la lingua parlata e` “per l’altro”12, ha la funzione di creare e
mantenere i legami sociali, e` legata al contesto dell’enunciazione, quindi fa uso
11Bazzanella, C., Segnali discorsivi e contesto, in Heinrich, W., Heis, C., Soffritti, M.,(a
cura di), Modalita` e substandard, Bologna, CLUEB, 2001 (pp. 41-64).
12Bachtin (1979) ha parlato della dialogicita` insita nella parola umana, anche quando
non c’e` un vero e proprio scambio comunicativo verbale (come nel caso del monologo).
8
di tutta una serie di strategie comunicative estranee alla lingua scritta. C’e`
da dire, pero`, che se quelli del parlato sono considerati tratti peculiari e` anche
e soprattutto in relazione e in contrapposizione a cio` che viene considerata
la “norma” scritta, che da sempre gode di maggiore prestigio.
In questo quadro, l’applicazione AN.ANA.S. (annotazione e analisi sin-
tattica) e` stata creata per l’etichettatura e l’analisi sintattica di tutti i tipi
di testo (parlato ma anche scritto), facendo uso del linguaggio XML e avva-
lendosi di un software manuale (XGATE) e di una struttura chiamata DTD,
che e` l’insieme delle regole di etichettatura. Per quanto riguarda il parlato,
oggetto della presente analisi, la costruzione della DTD ha cercato di tener
conto il piu` possibile delle sue peculiarita` (discourse markers, false starts,
importanza attribuita alla sintassi della clausola). Il cap. 2 sara` una descri-
zione dettagliata del programma di etichettatura e della sua DTD. Il cap.
3, invece, sara` una discussione dei problemi relativi alla fase di etichettatu-
ra, derivanti dalla difficolta` di far coincidere le caratteristiche sempre nuove,
mai ripetute o ripetibili, degli scambi comunicativi orali con le esigenze di
un software che, per definizione, esige rigore e ripetibilita`.
9