La linguistica dei corpora e le sue ricadute lessicografiche
Con linguistica dei corpora si intende la branca della linguistica che si occupa di elaborare i dati provenienti da larghi insiemi di testi immagazzinati su supporti informatici. Attraverso tali operazioni, gli studiosi ricavano numerose informazioni possibili sui testi e sulla lingua in cui sono scritti.
La storia dei grandi corpora elettronici di testi mostra che ci sono voluti anni per raggiungere l’attuale maturità nelle tecniche d’archiviazione di dati e che è sempre opportuno conservare accanto a versioni etichettate una versione del corpus poco elaborata, perché in futuro si potrebbero scoprire modi migliori di organizzarlo o affermarsi diverse esigenze di interrogazione.
Gli autori del LIP hanno accluso al volume due dischetti con la trascrizione del corpus di italiano parlato su cui sono basati. In tal modo tutti possono utilizzare il materiale da cui provengono le statistiche del volume per trarne altre informazioni. L’optimum sarebbe avere anche le registrazioni da cui sono tratte le trascrizioni, ma già così è un buon risultato. Il lessicografo può trarre molti vantaggi dall’interrogazione di un corpus: può stabilire quali e quanti lemmi debbono far parte di un dizionario fondamentale, o se un’accezione di una parola polisemica è più frequente di un’altra.
Utili al linguista, al glottodidatta e al lessicografo sono le basi di dati linguistici come quelle prodotte in centri che si occupano di linguistica computazionale. Si tratta di liste di lemmi con etichettature grammaticali, sintattiche, semantiche di vario tipo. Un esempio è quella realizzata sul VdB presso l’Istituto di Psicologia del Consiglio Nazionale delle Ricerche da Thornton, Iacobini, Burani (1994).
Continua a leggere:
- Successivo: Le concordanze, i dizionari inversi e i dizionari di frequenza
- Precedente: Dizionari d'italiano nei programmi di videoscrittura e nei traduttori elettronici
Dettagli appunto:
- Autore: Domenico Valenza
- Università: Università degli Studi di Catania
- Esame: Linguistica Applicata - a.a. 2008/09
- Titolo del libro: Le parole dell'italiano
- Autore del libro: Carla Marello
- Editore: Zanichelli - Bologna
- Anno pubblicazione: 1996
Altri appunti correlati:
Per approfondire questo argomento, consulta le Tesi:
- Prestiti di lusso e falsi anglicismi nei periodici femminili italiani
- La lingua delle cronache calcistiche nella stampa italiana e spagnola
- Incontri di lingue e culture: i prestiti dalle lingue europee all'arabo
- Il linguaggio della cronaca calcistica in tv: La Domenica Sportiva, Controcampo e Diretta Stadio (2009/2010)
- ''Ho preso il pulma e sono andato casa mia alla città vecchia'' - Analisi linguistica degli elaborati di una scuola media del Borgo Antico di Taranto
Puoi scaricare gratuitamente questo appunto in versione integrale.