vai alla sezione precedente

Acquisizione

Vai alla sezione successiva

Le versioni elettroniche dei cinque romanzi e del racconto in inglese, e delle loro traduzioni in italiano sono state create a partire dai testi a stampa, le cui pagine sono state acquisite con uno scanner e trasformate in testo tramite un programma di riconoscimento ottico dei caratteri. Ciascun testo acquisito in questo modo è stato sottoposto a revisione manuale e in seguito codificato semiautomaticamente, per arrivare ad ottenere per ciascun testo cartaceo una versione elettronica rispondente allo standard internazionale indicato dalle linee guida elaborate dalla Text Encoding Initiative (cfr. codifica) Il corpus così ottenuto è stato a sua volta la base per la costituzione dei testi bilingui allineati e della memoria traduttiva.

La tabella consistenza del corpus cartaceo indica il numero totale di pagine acquisite con lo scanner suddivise per ciascun testo. 

 

Consistenza del corpus cartaceo

 

Titolo

Numero di pagine

Grimus

253

Midnight's Children

463

I figli della mezzanotte

518

Shame

287

La vergogna

345

The Satanic Verses

555

I versi satanici

583

Haroun and the Sea of Stories

216

Harun e il mar delle storie

226

The Moor's Last Sigh

437

L’ultimo sospiro del Moro

479

Chekov and Zulu

24

Chekov e Zulu

26

Totale pagine

4412

 

Il software utilizzato per la scansione ottica è stato Caere OmniPage 8.0, installato su un computer dotato di processore Pentium 75 con 24 Mb di memoria RAM.[1] La fase successiva è consistita nella "ripulitura" dei testi, cioè nella correzione degli errori che rendevano il testo contenuto nei files diverso da quello contenuto nei libri a stampa.

Vai alla sezione successiva

 



[1] Il tempo necessario alla trasformazione dei testi cartacei in una prima versione in formato digitale (tutti i testi sono stati inizialmente acquisiti in formato RTF) può essere calcolato suddividendo il numero di pagine per il tempo necessario al software per acquisire l'immagine di ciascuna pagina e riconoscere i caratteri, unitamente a una percentuale di tempi di lavorazione secondari (avviamento e uscita dal programma per ciascuna sessione, tempi di salvataggio, impostazione e perfezionamento del programma per ciascun testo), imprevisti dovuti al malfunzionamento delle apparecchiature informatiche (crolli del sistema che hanno portato alla perdita e alla conseguente riacquisizione di circa 200 pagine) e a errori umani (circa venti pagine sono state acquisite due volte, mentre una decina sono state omesse e successivamente introdotte tramite tastiera). Il tempo di acquisizione e riconoscimento dei caratteri varia a seconda delle dimensioni delle pagine e della dimensione dei caratteri e della lingua (i testi italiani necessitano di un tempo di lavorazione maggiore data la varietà tipografica). Mediamente sono occorsi circa trenta secondi per l'acquisizione di ciascuna immagine (due pagine del libro) e un minuto per il riconoscimento ottico. A questo si può aggiungere circa un altro minuto per tempi di lavorazione secondari e inconvenienti vari. Moltiplicando il numero delle immagini acquisite (2206, circa la metà del numero totale delle pagine) per i due minuti e mezzo necessari alla loro "traduzione" in formato digitale si ottiene un totale di 55 ore e 15 minuti, che corrispondono, probabilmente per difetto, al tempo reale impiegato in questa fase di lavoro.