4

I primi corpora elettronici in italiano sono stati creati principalmente per ottenere liste di frequenza.[1] Da alcuni anni lo European Expert Group on Language Engineering Standards (EAGLES), un'attività sponsorizzata dalla Commissione Europea, ha sviluppato una serie di raccomandazioni e linee guida per l'annotazione di corpora e sempre questa commissione ha dato l'avvio ad un progetto per la creazione di corpora comparabili (di 50 milioni di parole ciascuno) per tutte le lingue ufficiali dell'Unione Europea (Network of European Reference Corpora - NERC. Cfr. Calzolari et al. 1995). Al momento però l'IRC (Italian Reference Corpus), messo in cantiere dal dipartimento di linguistica computazionale dell'Università di Pisa (cfr. Calzolari 1996) è composto di circa 26 milioni di parole, la maggior parte da testi giornalistici, e non è pubblicamente accessibile.[2]

In alcuni centri universitari (Forlì, Pisa, Bologna, Trieste), sono stati avviati alcuni esperimenti con corpora bilingui italiano inglese.[3] Altri piccoli corpora di testi italiani sono disponibili presso centri per la raccolta e la distribuzione di corpora testuali, come la European Language Resources Association[4] o la Trans-European Language Resources Infrastructure[5] che hanno il compito di agire da tramite tra i diversi utenti nelle realtà del mondo accademico e commerciale. Nessuno di questi progetti particolari ha però prodotto testi elettronici utilizzabili nell'ambito di questa ricerca.

Il corpus di riferimento, composto da testi letterari contemporanei, è stato quindi costruito appositamente prelevando alcuni testi elettronici disponibili sul sito Internet della Fondazione Galiano.[6] Si tratta di una biblioteca elettronica messa a disposizione dalla fondazione creata da Ezio Galiano per i non vedenti:[7] il sito contiene una raccolta di testi elettronici di vari generi e tipi, tra i quali anche alcuni testi di narrativa italiana contemporanea. I testi che costituiscono il corpus sono stati selezionati principalmente in base alla qualità del formato elettronico. Alla fine del processo di selezione sono quindi rimasti diciassette testi, per un totale complessivo di circa 850.000 parole (una dimensione simile al corpus delle traduzioni italiane di Rushdie). Si tratta in tutti i casi di testi integrali, la cui lunghezza varia dalle 12.000 alle 152.000 parole. La tabella che segue. elenca i testi contenuti nel corpus di riferimento italiano e le loro principali caratteristiche.

Il corpus di riferimento italiano

	Titolo	Autore	Anno	Nome file	N. parole	Caratteristiche
1	Cròniche epifániche	Francesco Guccini	1990	croniche.txt	74.667	full text
2	Gialloparma	Alberto Bevilacqua	1997	parma.txt	65.293	full text
3	Il barone rampante	Italo Calvino	1957	barone.txt	73.579	full text
4	Il cavaliere inesistente	Italo Calvino	1959	cavalier.txt	33.472	full text
5	Il giorno della civetta	Leonardo Sciascia	1961	ilgiorno.txt	30.404	full text
6	Il visconte dimezzato	Italo Calvino	1952	visconte.txt	27.773	full text
7	La diceria dell'untore	Gesualdo Bufalino	1981	diceria.txt	42.728	full text
8	La stagione della caccia	Andrea Camilleri	1992	camilleri.txt	38.999	full text
9	L'isola del giorno dopo	Umberto Eco	1994	isola.txt	152.838	full text
10	Magia rossa	Gianfranco Manfredi	1983	magia.txt	57.365	full text
11	Novecento	Alessandro Baricco	1994	novecent.txt	12.086	full text
12	Per amore, solo per amore	Pasquale Festa Campanile	1984	peramore.txt	62.796	full text
13	Per voce sola	Susanna Tamaro	1991	tamaro.txt	48.966	full text
14	Seta	Alessandro Baricco	1996	seta.txt	15.136	full text
15	Sostiene Pereira	Antonio Tabucchi	1993	pereira.txt	43.969	full text
16	Tommaso e il fotografo cieco, ovvero Il Patatràc	Gesualdo Bufalino	1996	tommaso.txt	50.279	full text
17	Volevo i pantaloni	Lara Cardella	1989	volevo.txt	29.651	full text
*Totale*					*Ca. 856.000 parole*

Quattordici di questi testi sono romanzi, uno è una raccolta di racconti (S. Tamaro, Per voce sola), uno è un monologo teatrale (A. Baricco, Novecento) e infine uno è di carattere autobiografico (L. Cardella, Volevo i pantaloni). I testi sono stati pubblicati in prevalenza negli anni '80 e '90, ma coprono un arco di tempo che va dal 1957 al 1997.

[1] Il primo lessico di frequenza dell'italiano è il LIF (Lessico di frequenza della lingua italiana contemporanea, Bortolini, Tagliavini e Zampolli 1971), che ricava dallo spoglio di testi scritti tra il 1940 e il 1960 e appartenenti a vari generi una lista di oltre 5000 lemmi a partire da un corpus di 500.000 parole. Una lista analoga (Frequency Dictionary of Italian Words, Juilland e Traversa 1973) è stata ottenuta da un corpus delle medesime dimensioni composto però da testi appartenenti a generi in parte diversi. Entrambi i corpora contengono testi teatrali, narrativa e periodici; il LIF contiene anche sussidiari scolastici mentre il Juilland-Traversa saggistica e testi tecnici e scientifici. A queste due opere si è aggiunto nel 1977 il Vocabolario fondamentale della lingua italiana curato da Sciarone che combina i due campioni aggiungendo altri testi di bilanciamento per un totale di 1.500.000 occorrenze, ricavandone i 2726 termini più frequenti. Il VELI (Vocabolario elettronico della lingua italiana, pubblicato da IBM Italia nel 1989) consiste in un lemmario di 10.000 parole ed è ricavato da un corpus di 26 milioni di occorrenze. Quest'ultimo corpus è però meno bilanciato dei precedenti in quanto composto nella quasi totalità da testi giornalistici. Per quanto riguarda la lingua parlata, è del 1992 la pubblicazione del LIP (Lessico dell’italiano parlato), cfr. De Mauro, Mancini et al. 1993.

[2] Le informazioni sulla composizione e sulla disponibilità dell' IRC sono state fornite da Remo Bindi, responsabile della gestione informatica del corpus. Cfr. Bindi, Monachini e Orsoline 1991.

[3] A Pisa è stato creato un corpus parallelo prototipo composto da un romanzo di Henry James e da una sua traduzione italiana per sperimentare il sistema di allineamento Pisync (Peters e Picchi 1998). A Forlì sono stati creati piccoli corpora bilingui comparabili di testi giornalistici e articoli scientifici utilizzati a scopo didattico (Gavioli e Zanettin 1997, Zanettin 1998. A Bologna è stato creato un corpus comparabile bilingue di testi giuridici (Rossini-Favretti 1997). Trieste partecipa al progetto europeo Multiconcord e dispone di un piccolo corpus parallelo contenente normativa europea plurilingue e alcuni romanzi (Ulrych 1997).

[4] ELRA, http://www.icp.grenet.fr/ELRA/cata/text_det.html.

[5] TELRI, http://www.telri.de.

[6] L'indirizzo Internet della Fondazione Galiano è: http://www.galiano.it.

[7] Molti dei testi originariamente disponibili nel sito della Fondazione Galiano sono coperti dal diritto d'autore, e non sono disponibili pubblicamente. I testi utilizzati per questa ricerca sono stati eliminati successivamente all'analisi.