![]() |
![]() |
I primi corpora elettronici in italiano sono stati creati principalmente per ottenere liste di frequenza.[1] Da alcuni anni lo European Expert Group on Language Engineering Standards (EAGLES), un'attività sponsorizzata dalla Commissione Europea, ha sviluppato una serie di raccomandazioni e linee guida per l'annotazione di corpora e sempre questa commissione ha dato l'avvio ad un progetto per la creazione di corpora comparabili (di 50 milioni di parole ciascuno) per tutte le lingue ufficiali dell'Unione Europea (Network of European Reference Corpora - NERC. Cfr. Calzolari et al. 1995). Al momento però l'IRC (Italian Reference Corpus), messo in cantiere dal dipartimento di linguistica computazionale dell'Università di Pisa (cfr. Calzolari 1996) è composto di circa 26 milioni di parole, la maggior parte da testi giornalistici, e non è pubblicamente accessibile.[2]
In alcuni centri universitari (Forlì, Pisa, Bologna, Trieste), sono stati avviati alcuni esperimenti con corpora bilingui italiano inglese.[3] Altri piccoli corpora di testi italiani sono disponibili presso centri per la raccolta e la distribuzione di corpora testuali, come la European Language Resources Association[4] o la Trans-European Language Resources Infrastructure[5] che hanno il compito di agire da tramite tra i diversi utenti nelle realtà del mondo accademico e commerciale. Nessuno di questi progetti particolari ha però prodotto testi elettronici utilizzabili nell'ambito di questa ricerca.
Il corpus di riferimento, composto da testi letterari contemporanei, è stato quindi costruito appositamente prelevando alcuni testi elettronici disponibili sul sito Internet della Fondazione Galiano.[6] Si tratta di una biblioteca elettronica messa a disposizione dalla fondazione creata da Ezio Galiano per i non vedenti:[7] il sito contiene una raccolta di testi elettronici di vari generi e tipi, tra i quali anche alcuni testi di narrativa italiana contemporanea. I testi che costituiscono il corpus sono stati selezionati principalmente in base alla qualità del formato elettronico. Alla fine del processo di selezione sono quindi rimasti diciassette testi, per un totale complessivo di circa 850.000 parole (una dimensione simile al corpus delle traduzioni italiane di Rushdie). Si tratta in tutti i casi di testi integrali, la cui lunghezza varia dalle 12.000 alle 152.000 parole. La tabella che segue. elenca i testi contenuti nel corpus di riferimento italiano e le loro principali caratteristiche.
Il corpus di riferimento italiano
|
Titolo |
Autore |
Anno |
Nome file |
N. parole |
Caratteristiche |
1
|
Cròniche epifániche |
Francesco Guccini |
1990 |
croniche.txt |
74.667 |
full text |
2 |
Gialloparma |
Alberto Bevilacqua |
1997 |
parma.txt |
65.293 |
full text |
3
|
Il barone rampante |
Italo Calvino |
1957 |
barone.txt |
73.579 |
full text |
4 |
Il cavaliere inesistente |
Italo Calvino |
1959 |
cavalier.txt |
33.472 |
full text |
5
|
Il giorno della civetta |
Leonardo Sciascia |
1961 |
ilgiorno.txt |
30.404 |
full text |
6
|
Il visconte dimezzato |
Italo Calvino |
1952 |
visconte.txt |
27.773 |
full text |
7
|
La diceria dell'untore |
Gesualdo Bufalino |
1981 |
diceria.txt |
42.728 |
full text |
8
|
La stagione della caccia |
Andrea Camilleri |
1992 |
camilleri.txt |
38.999 |
full text |
9
|
L'isola del giorno dopo |
Umberto Eco |
1994 |
isola.txt |
152.838 |
full text |
10
|
Magia rossa |
Gianfranco Manfredi |
1983 |
magia.txt |
57.365 |
full text |
11
|
Novecento |
Alessandro Baricco |
1994 |
novecent.txt |
12.086 |
full text |
12
|
Per amore, solo per amore |
Pasquale Festa Campanile |
1984 |
peramore.txt |
62.796 |
full text |
13
|
Per voce sola |
Susanna Tamaro |
1991 |
tamaro.txt |
48.966 |
full text |
14
|
Seta |
Alessandro Baricco |
1996 |
seta.txt |
15.136 |
full text |
15
|
Sostiene Pereira |
Antonio Tabucchi |
1993 |
pereira.txt |
43.969 |
full text |
16
|
Tommaso e il fotografo cieco, ovvero Il
Patatràc |
Gesualdo Bufalino |
1996 |
tommaso.txt |
50.279 |
full text |
17
|
Volevo i pantaloni |
Lara Cardella |
1989 |
volevo.txt |
29.651 |
full text |
Totale |
Ca.
856.000 parole |
Quattordici di questi testi sono romanzi, uno è una raccolta di racconti (S. Tamaro, Per voce sola), uno è un monologo teatrale (A. Baricco, Novecento) e infine uno è di carattere autobiografico (L. Cardella, Volevo i pantaloni). I testi sono stati pubblicati in prevalenza negli anni '80 e '90, ma coprono un arco di tempo che va dal 1957 al 1997.
[1] Il primo lessico di frequenza dell'italiano è il LIF (Lessico di frequenza della lingua italiana contemporanea, Bortolini, Tagliavini e Zampolli 1971), che ricava dallo spoglio di testi scritti tra il 1940 e il 1960 e appartenenti a vari generi una lista di oltre 5000 lemmi a partire da un corpus di 500.000 parole. Una lista analoga (Frequency Dictionary of Italian Words, Juilland e Traversa 1973) è stata ottenuta da un corpus delle medesime dimensioni composto però da testi appartenenti a generi in parte diversi. Entrambi i corpora contengono testi teatrali, narrativa e periodici; il LIF contiene anche sussidiari scolastici mentre il Juilland-Traversa saggistica e testi tecnici e scientifici. A queste due opere si è aggiunto nel 1977 il Vocabolario fondamentale della lingua italiana curato da Sciarone che combina i due campioni aggiungendo altri testi di bilanciamento per un totale di 1.500.000 occorrenze, ricavandone i 2726 termini più frequenti. Il VELI (Vocabolario elettronico della lingua italiana, pubblicato da IBM Italia nel 1989) consiste in un lemmario di 10.000 parole ed è ricavato da un corpus di 26 milioni di occorrenze. Quest'ultimo corpus è però meno bilanciato dei precedenti in quanto composto nella quasi totalità da testi giornalistici. Per quanto riguarda la lingua parlata, è del 1992 la pubblicazione del LIP (Lessico dell’italiano parlato), cfr. De Mauro, Mancini et al. 1993.
[2] Le informazioni sulla composizione e sulla disponibilità dell' IRC sono state fornite da Remo Bindi, responsabile della gestione informatica del corpus. Cfr. Bindi, Monachini e Orsoline 1991.
[3] A Pisa è stato creato un corpus parallelo prototipo composto da un romanzo di Henry James e da una sua traduzione italiana per sperimentare il sistema di allineamento Pisync (Peters e Picchi 1998). A Forlì sono stati creati piccoli corpora bilingui comparabili di testi giornalistici e articoli scientifici utilizzati a scopo didattico (Gavioli e Zanettin 1997, Zanettin 1998. A Bologna è stato creato un corpus comparabile bilingue di testi giuridici (Rossini-Favretti 1997). Trieste partecipa al progetto europeo Multiconcord e dispone di un piccolo corpus parallelo contenente normativa europea plurilingue e alcuni romanzi (Ulrych 1997).
[5] TELRI, http://www.telri.de.
[6] L'indirizzo Internet della Fondazione Galiano è: http://www.galiano.it.
[7] Molti dei testi originariamente disponibili nel sito della Fondazione Galiano sono coperti dal diritto d'autore, e non sono disponibili pubblicamente. I testi utilizzati per questa ricerca sono stati eliminati successivamente all'analisi.