vai alla sezione precedente

Versioni elettroniche

Vai alla sezione successiva

Il Corpus Parallelo Rusdie (CPR) può essere caratterizzato come un corpus parallelo costituito da testi interi (non samples) e di dimensioni relativamente piccole (circa 1.500.000 parole nel suo complesso) ma estremamente rappresentativo, dato che è costituito dalla quasi totalità delle opere di Rushdie e delle loro traduzioni italiane. Per quanto riguarda il formato del corpus, si è tenuto conto da un lato delle limitazioni pratiche imposte dalle risorse a disposizione, dall'altro di esigenze di standardizzazione in vista di eventuali successivi sviluppi sia in direzione di un'espansione del corpus sia in direzione di diversi utilizzi del medesimo. Gli strumenti utilizzati per la creazione e l'analisi del corpus sono costituiti da programmi commerciali funzionanti su personal computer. Il corpus parallelo è composto da dodici testi monolingui (sei inglesi e sei italiani) in formato solo testo e altrettanti in formato TEI Lite. La tabella la composizione del Corpus Parallelo Rushdie riassume la composizione del corpus bilingue.

 

La composizione del Corpus Parallelo Rushdie

 

Titolo

Nome file

Numero di parole

Solo testo

TEI Lite

Midnight's Children

mc.txt

mc.sgm

214.982

I figli della mezzanotte

fm.txt

fm.sgm

224.398

Haroun and the Sea of Stories

hss.txt

hss.sgm

43.877

Harun e il mar delle storie

harun.txt

harun.sgm

44.624

The Moor's Last Sigh

moor.txt

moor.sgm

159.752

L’ultimo sospiro del Moro

moro.txt

moro.sgm

167.630

Shame

shame.txt

shame.sgm

105.488

La vergogna

vergo.txt

vergo.sgm

107.946

The Satanic Verses

satver.txt

satver.sgm

192.634

I versi satanici

versat.txt

versat.sgm

196.646

Chekov and Zulu

chekov_e.txt

chekov_e.sgm

4.687

Chekov e Zulu

chekov_i.txt

chekov_i.sgm

5.025

Totale testi inglesi

 

 

721.420

Totale testi italiani

 

 

746.269

 

L'adesione alle norme TEI fornisce una base di partenza per ulteriori elaborazioni (ad esempio l'inserimento di annotazioni linguistiche e/o il passaggio agli standard CES e CESALIGN) e allo stesso tempo permette di creare un corpus in cui i testi siano minimamente strutturati e abbiano associate un livello minimo di informazioni sulle caratteristiche del progetto, sul paratesto degli originali cartacei e su determinate categorie extratestuali a cui i testi possono fare riferimento (ad esempio informazioni sui traduttori o sul processo di traduzione).

I files in formato solo testo hanno fornito la base di partenza per la creazione del corpus allineato, a sua volta disponibile in due formati: sei testi bilingui (in cui segmenti di testo inglese si alternano alla traduzione italiana) in formato solo testo e una memoria traduttiva in formato TWM (Trados Workbench Memory) che contiene l'intero corpus parallelo allineato. La codifica del corpus allineato in formato conforme agli standard TEI, operazione che avrebbe richiesto un ulteriore grado di elaborazione informatica e un notevole investimento di lavoro e di tempo, non rientrava tra le finalità immediate del progetto e non era comunque praticabile per la mancanza di strumentazione e software adeguati. Tale codifica, che permetterebbe più raffinate modalità di interrogazione di testi multilingui, è però implementabile a partire dai testi che costituiscono il corpus bilingue non allineato, secondo i criteri utilizzati in progetti di più ampia portata riguardanti corpora paralleli, quali l'ENPC o il Pedant corpus.

Le operazioni di codifica dei testi e di allineamento del corpus parallelo sono descritte in codifica e allineamento.

Vai alla sezione successiva