4

Il Corpus Parallelo Rusdie (CPR) può essere caratterizzato come un corpus parallelo costituito da testi interi (non samples) e di dimensioni relativamente piccole (circa 1.500.000 parole nel suo complesso) ma estremamente rappresentativo, dato che è costituito dalla quasi totalità delle opere di Rushdie e delle loro traduzioni italiane. Per quanto riguarda il formato del corpus, si è tenuto conto da un lato delle limitazioni pratiche imposte dalle risorse a disposizione, dall'altro di esigenze di standardizzazione in vista di eventuali successivi sviluppi sia in direzione di un'espansione del corpus sia in direzione di diversi utilizzi del medesimo. Gli strumenti utilizzati per la creazione e l'analisi del corpus sono costituiti da programmi commerciali funzionanti su personal computer. Il corpus parallelo è composto da dodici testi monolingui (sei inglesi e sei italiani) in formato solo testo e altrettanti in formato TEI Lite. La tabella la composizione del Corpus Parallelo Rushdie riassume la composizione del corpus bilingue.

La composizione del Corpus Parallelo Rushdie

*Titolo*	Nome file		Numero di parole
*Titolo*	Solo testo	TEI Lite	Numero di parole
Midnight's Children	mc.txt	mc.sgm	214.982
I figli della mezzanotte	fm.txt	fm.sgm	224.398
Haroun and the Sea of Stories	hss.txt	hss.sgm	43.877
Harun e il mar delle storie	harun.txt	harun.sgm	44.624
The Moor's Last Sigh	moor.txt	moor.sgm	159.752
L’ultimo sospiro del Moro	moro.txt	moro.sgm	167.630
Shame	shame.txt	shame.sgm	105.488
La vergogna	vergo.txt	vergo.sgm	107.946
The Satanic Verses	satver.txt	satver.sgm	192.634
I versi satanici	versat.txt	versat.sgm	196.646
Chekov and Zulu	chekov_e.txt	chekov_e.sgm	4.687
Chekov e Zulu	chekov_i.txt	chekov_i.sgm	5.025
*Totale testi inglesi*			721.420
*Totale testi italiani*			746.269

L'adesione alle norme TEI fornisce una base di partenza per ulteriori elaborazioni (ad esempio l'inserimento di annotazioni linguistiche e/o il passaggio agli standard CES e CESALIGN) e allo stesso tempo permette di creare un corpus in cui i testi siano minimamente strutturati e abbiano associate un livello minimo di informazioni sulle caratteristiche del progetto, sul paratesto degli originali cartacei e su determinate categorie extratestuali a cui i testi possono fare riferimento (ad esempio informazioni sui traduttori o sul processo di traduzione).

I files in formato solo testo hanno fornito la base di partenza per la creazione del corpus allineato, a sua volta disponibile in due formati: sei testi bilingui (in cui segmenti di testo inglese si alternano alla traduzione italiana) in formato solo testo e una memoria traduttiva in formato TWM (Trados Workbench Memory) che contiene l'intero corpus parallelo allineato. La codifica del corpus allineato in formato conforme agli standard TEI, operazione che avrebbe richiesto un ulteriore grado di elaborazione informatica e un notevole investimento di lavoro e di tempo, non rientrava tra le finalità immediate del progetto e non era comunque praticabile per la mancanza di strumentazione e software adeguati. Tale codifica, che permetterebbe più raffinate modalità di interrogazione di testi multilingui, è però implementabile a partire dai testi che costituiscono il corpus bilingue non allineato, secondo i criteri utilizzati in progetti di più ampia portata riguardanti corpora paralleli, quali l'ENPC o il Pedant corpus.

Le operazioni di codifica dei testi e di allineamento del corpus parallelo sono descritte in codifica e allineamento.