Il Corpus Parallelo Rusdie (CPR) può essere caratterizzato come un corpus parallelo costituito da testi interi (non samples) e di dimensioni relativamente piccole (circa 1.500.000 parole nel suo complesso) ma estremamente rappresentativo, dato che è costituito dalla quasi totalità delle opere di Rushdie e delle loro traduzioni italiane. Per quanto riguarda il formato del corpus, si è tenuto conto da un lato delle limitazioni pratiche imposte dalle risorse a disposizione, dall'altro di esigenze di standardizzazione in vista di eventuali successivi sviluppi sia in direzione di un'espansione del corpus sia in direzione di diversi utilizzi del medesimo. Gli strumenti utilizzati per la creazione e l'analisi del corpus sono costituiti da programmi commerciali funzionanti su personal computer. Il corpus parallelo è composto da dodici testi monolingui (sei inglesi e sei italiani) in formato solo testo e altrettanti in formato TEI Lite. La tabella la composizione del Corpus Parallelo Rushdie riassume la composizione del corpus bilingue.
La composizione del Corpus Parallelo
Rushdie
Titolo |
Nome file |
Numero di parole |
|
Solo
testo |
TEI
Lite |
||
mc.txt |
mc.sgm |
214.982 |
|
fm.txt |
fm.sgm |
224.398 |
|
hss.txt |
hss.sgm |
43.877 |
|
harun.txt |
harun.sgm |
44.624 |
|
moor.txt |
moor.sgm |
159.752 |
|
moro.txt |
moro.sgm |
167.630 |
|
shame.txt |
shame.sgm |
105.488 |
|
vergo.txt |
vergo.sgm |
107.946 |
|
satver.txt |
satver.sgm |
192.634 |
|
versat.txt |
versat.sgm |
196.646 |
|
Chekov and Zulu |
chekov_e.txt |
chekov_e.sgm |
4.687 |
Chekov e Zulu |
chekov_i.txt |
chekov_i.sgm |
5.025 |
Totale testi inglesi |
|
|
721.420 |
Totale testi italiani |
|
|
746.269 |
L'adesione alle norme TEI fornisce una base di partenza per ulteriori elaborazioni (ad esempio l'inserimento di annotazioni linguistiche e/o il passaggio agli standard CES e CESALIGN) e allo stesso tempo permette di creare un corpus in cui i testi siano minimamente strutturati e abbiano associate un livello minimo di informazioni sulle caratteristiche del progetto, sul paratesto degli originali cartacei e su determinate categorie extratestuali a cui i testi possono fare riferimento (ad esempio informazioni sui traduttori o sul processo di traduzione).
I files in formato solo testo hanno fornito la base di
partenza per la creazione del corpus allineato, a sua volta disponibile in due
formati: sei testi bilingui (in cui segmenti di testo inglese si alternano alla
traduzione italiana) in formato solo testo e una memoria traduttiva in formato
TWM (Trados Workbench Memory) che
contiene l'intero corpus parallelo allineato. La codifica del corpus
allineato in formato conforme agli standard TEI, operazione che avrebbe
richiesto un ulteriore grado di elaborazione informatica e un notevole
investimento di lavoro e di tempo, non rientrava tra le finalità immediate del
progetto e non era comunque praticabile per la mancanza di strumentazione e
software adeguati. Tale codifica, che permetterebbe più raffinate modalità di
interrogazione di testi multilingui, è però implementabile a partire dai testi
che costituiscono il corpus bilingue non allineato, secondo i criteri
utilizzati in progetti di più ampia portata riguardanti corpora paralleli,
quali l'ENPC o il Pedant corpus.
Le operazioni di codifica dei testi e di allineamento del corpus parallelo sono descritte in codifica e allineamento.