vai alla sezione precedente

Il corpus italiano

Vai alla sezione successiva

I primi corpora elettronici in italiano sono stati creati principalmente per ottenere liste di frequenza.[1] Da alcuni anni lo European Expert Group on Language Engineering Standards (EAGLES), un'attività sponsorizzata dalla Commissione Europea, ha sviluppato una serie di raccomandazioni e linee guida per l'annotazione di corpora e sempre questa commissione ha dato l'avvio ad un progetto per la creazione di corpora comparabili (di 50 milioni di parole ciascuno) per tutte le lingue ufficiali dell'Unione Europea (Network of European Reference Corpora - NERC. Cfr. Calzolari et al. 1995). Al momento però l'IRC (Italian Reference Corpus), messo in cantiere dal dipartimento di linguistica computazionale dell'Università di Pisa (cfr. Calzolari 1996) è composto di circa 26 milioni di parole, la maggior parte da testi giornalistici, e non è pubblicamente accessibile.[2]

In alcuni centri universitari (Forlì, Pisa, Bologna, Trieste), sono stati avviati alcuni esperimenti con corpora bilingui italiano inglese.[3] Altri piccoli corpora di testi italiani sono disponibili presso centri per la raccolta e la distribuzione di corpora testuali, come la European Language Resources Association[4] o la Trans-European Language Resources Infrastructure[5] che hanno il compito di agire da tramite tra i diversi utenti nelle realtà del mondo accademico e commerciale. Nessuno di questi progetti particolari ha però prodotto testi elettronici utilizzabili nell'ambito di questa ricerca.

Il corpus di riferimento, composto da testi letterari contemporanei, è stato quindi costruito appositamente prelevando alcuni testi elettronici disponibili sul sito Internet della Fondazione Galiano.[6] Si tratta di una biblioteca elettronica messa a disposizione dalla fondazione creata da Ezio Galiano per i non vedenti:[7] il sito contiene una raccolta di testi elettronici di vari generi e tipi, tra i quali anche alcuni testi di narrativa italiana contemporanea. I testi che costituiscono il corpus sono stati selezionati principalmente in base alla qualità del formato elettronico. Alla fine del processo di selezione sono quindi rimasti diciassette testi, per un totale complessivo di circa 850.000 parole (una dimensione simile al corpus delle traduzioni italiane di Rushdie). Si tratta in tutti i casi di testi integrali, la cui lunghezza varia dalle 12.000 alle 152.000 parole. La tabella che segue. elenca i testi contenuti nel corpus di riferimento italiano e le loro principali caratteristiche.

 

Il corpus di riferimento italiano

 

 

Titolo

Autore

Anno

Nome file

N. parole

Caratteristiche

1    

Cròniche epifániche

Francesco Guccini

 1990

 croniche.txt

 74.667

 full text

2    

Gialloparma

Alberto Bevilacqua

 1997

 parma.txt

 65.293

 full text

3    

Il barone rampante

Italo Calvino

 1957

 barone.txt

 73.579

 full text

4    

Il cavaliere inesistente

Italo Calvino

 1959

 cavalier.txt

 33.472

 full text

5    

Il giorno della civetta

Leonardo Sciascia

 1961

 ilgiorno.txt

 30.404

 full text

6    

Il visconte dimezzato

Italo Calvino

 1952

 visconte.txt

 27.773

 full text

7    

La diceria dell'untore

Gesualdo Bufalino

 1981

 diceria.txt

 42.728

 full text

8    

La stagione della caccia

Andrea Camilleri

 1992

 camilleri.txt

 38.999

 full text

9    

L'isola del giorno dopo

Umberto Eco

 1994

 isola.txt

 152.838

 full text

10                 

Magia rossa

Gianfranco Manfredi

 1983

 magia.txt

 57.365

 full text

11                 

Novecento

Alessandro Baricco

 1994

 novecent.txt

 12.086

 full text

12                 

Per amore, solo per amore

 Pasquale Festa Campanile

 1984

 peramore.txt

 62.796

 full text

13                 

Per voce sola

Susanna Tamaro

 1991

 tamaro.txt

 48.966

 full text

14                 

Seta

Alessandro Baricco

 1996

 seta.txt

 15.136

 full text

15                 

Sostiene Pereira

Antonio Tabucchi

 1993

 pereira.txt

 43.969

 full text

16                 

Tommaso e il fotografo cieco, ovvero Il Patatràc

Gesualdo Bufalino

 1996

 tommaso.txt

 50.279

 full text

17                 

Volevo i pantaloni

Lara Cardella

 1989

 volevo.txt

 29.651

 full text

Totale

Ca. 856.000 parole

 

Quattordici di questi testi sono romanzi, uno è una raccolta di racconti (S. Tamaro, Per voce sola), uno è un monologo teatrale (A. Baricco, Novecento) e infine uno è di carattere autobiografico (L. Cardella, Volevo i pantaloni). I testi sono stati pubblicati in prevalenza negli anni '80 e '90, ma coprono un arco di tempo che va dal 1957 al 1997.

Vai alla sezione successiva

 



[1] Il primo lessico di frequenza dell'italiano è il LIF (Lessico di frequenza della lingua italiana contemporanea, Bortolini, Tagliavini e Zampolli 1971), che ricava dallo spoglio di testi scritti tra il 1940 e il 1960 e appartenenti a vari generi una lista di oltre 5000 lemmi a partire da un corpus di 500.000 parole. Una lista analoga (Frequency Dictionary of Italian Words, Juilland e Traversa 1973) è stata ottenuta da un corpus delle medesime dimensioni composto però da testi appartenenti a generi in parte diversi. Entrambi i corpora contengono testi teatrali, narrativa e periodici; il LIF contiene anche sussidiari scolastici mentre il Juilland-Traversa saggistica e testi tecnici e scientifici. A queste due opere si è aggiunto nel 1977 il Vocabolario fondamentale della lingua italiana curato da Sciarone che combina i due campioni aggiungendo altri testi di bilanciamento per un totale di 1.500.000 occorrenze, ricavandone i 2726 termini più frequenti. Il VELI (Vocabolario elettronico della lingua italiana, pubblicato da IBM Italia nel 1989) consiste in un lemmario di 10.000 parole ed è ricavato da un corpus di 26 milioni di occorrenze. Quest'ultimo corpus è però meno bilanciato dei precedenti in quanto composto nella quasi totalità da testi giornalistici. Per quanto riguarda la lingua parlata, è del 1992 la pubblicazione del LIP (Lessico dell’italiano parlato), cfr. De Mauro, Mancini et al. 1993.

[2] Le informazioni sulla composizione e sulla disponibilità dell' IRC sono state fornite da Remo Bindi, responsabile della gestione informatica del corpus. Cfr. Bindi, Monachini e Orsoline 1991.

[3] A Pisa è stato creato un corpus parallelo prototipo composto da un romanzo di Henry James e da una sua traduzione italiana per sperimentare il sistema di allineamento Pisync (Peters e Picchi 1998). A Forlì sono stati creati piccoli corpora bilingui comparabili di testi giornalistici e articoli scientifici utilizzati a scopo didattico (Gavioli e Zanettin 1997, Zanettin 1998. A Bologna è stato creato un corpus comparabile bilingue di testi giuridici (Rossini-Favretti 1997). Trieste partecipa al progetto europeo Multiconcord e dispone di un piccolo corpus parallelo contenente normativa europea plurilingue e alcuni romanzi (Ulrych 1997).

[4] ELRA, http://www.icp.grenet.fr/ELRA/cata/text_det.html.

[5] TELRI, http://www.telri.de.

[6] L'indirizzo Internet della Fondazione Galiano è: http://www.galiano.it.

[7] Molti dei testi originariamente disponibili nel sito della Fondazione Galiano sono coperti dal diritto d'autore, e non sono disponibili pubblicamente. I testi utilizzati per questa ricerca sono stati eliminati successivamente all'analisi.