Durante la fase di ripulitura sono stati inseriti
manualmente i codici relativi alla suddivisione in parti, capitoli e sezioni.
Per "parti" si intendono divisioni interne del testo maggiori di un
capitolo, indicate nei testi a stampa come "libri" o
"parti"; per "sezioni" si intendono suddivisioni interne ai
capitoli segnalate tipograficamente da caratteri (ad esempio da asterischi) e
da spazi tipografici. Nella figura che segue si riporta a titolo di esempio l'inizio
del corpo del testo de I figli della
mezzanotte.
<BODY>
<DIV1 TYPE="part"
ID="FMPart1">
<HEAD
TYPE="parttit">Libro primo </HEAD>
<DIV2 TYPE="chapter"
ID="FMChapter1">
<HEAD
TYPE="main">Il lenzuolo Perforato</HEAD>
<DIV3 TYPE="section">
<P><S>Io sono nato nella
città di Bombay ... tanto tempo fa. </S>
Subito dopo il marcatore (tag) che segnala l'inizio del corpo del testo <BODY> viene la
riga che identifica l'inizio della prima suddivisione del testo stesso. Il
marcatore che identifica la suddivisione gerarchicamente superiore del testo
<DIV1 è seguito da due attributi, TYPE, che specifica il tipo di
suddivisione (part) e ID, che identifica inequivocabilmente questa suddivisione
nell'intero testo (FMPart1, per I figli della
mezzanotte, parte prima), mentre nella riga successiva appare,
racchiuso dai propri marcatori di apertura e chiusura, il titolo di questa
suddivisione (Libro primo). Seguono quindi due righe che contengono
rispettivamente i tags che
introducono la suddivisione successiva (DIV2) cioè il capitolo, e il titolo del
capitolo (Il lenzuolo perforato). Viene poi il tag che identifica l'inizio della prima suddivisione interna al
primo capitolo (DIV3), e infine la prima frase del testo, "Io sono nato
nella città di Bombay … tanto tempo fa." Preceduta dal tag di inizio paragrafo <P> e
racchiusa dai tags di apertura
<S> e di chiusura </S> di "frase".
Altri marcatori inseriti manualmente durante la ripulitura
del testo sono; i tags di
interruzione pagina <PB N=[numero
della pagina]> (non in tutti i testi) per facilitare riscontri nel testo
a stampa, posizionati a fondo pagina; i marcatori utilizzati per segnalare la
presenza di immagini (in The Moor's Last Sigh / L’ultimo sospiro
del Moro) e di diagrammi (in Shame).
Infine sono state codificate le note: per ciascuna nota è
stata indicata la responsabilità (dell'autore o del traduttore),[1]
la posizione (a piè di pagina) e un numero di identificazione (se presente nel
testo a stampa). Le glosse interlineari sono state
segnalate, anche se non inizialmente in maniera sistematica, attraverso il
marcatore di "nota",
assegnando all'attributo "tipo" il valore "non dichiarata"
e all'attributo "luogo" il valore "nel corpo del testo".[2]
Il primo dei due esempi qui di seguito illustra la codifica di una nota a
piè di pagina, mentre il secondo esempio illustra la codifica di una nota non
dichiarata (sempre da I figli della
mezzanotte).
Esempio 1
<S>molte delle barchette, le shikara, <NOTE
RESP="translator" PLACE="foot"
N="2">Imbarcazione del Kashmir simile a una gondola.
(N.d.t.)</NOTE> si erano fatte sorprendere dal sonno, e anche questo era
normale.</S>
Esempio 2
<S>E nel mio decimo compleanno, rubai le iniziali del Metro Cub
Club - che erano anche quelle di una squadra inglese di cricket in
tournée - e le passai alla nuova Midnight Children's Conference
</S><NOTE TYPE="nondeclared" RESP="translator"
PLACE="inline">(Conferenza dei bambini della mezzanotte) </NOTE>,
la mia Midnight's Children
personale.</S>
Semiautomaticamente sono stati invece inseriti i codici che
segnalano enfasi nel testo a stampa, solo per quei testi dove i corsivi dei
libri erano stati riconosciuti in maniera sufficientemente attendibile dal
programma di riconoscimento ottico, facilitando l'opera di inserimento dei
codici. Il testo in corsivo è stato incluso tra i codici <HI> e
</HI>, utilizzati nelle linee guida TEI per indicare l'evidenziazione
tipografica. Evidenti errori di battitura presenti nel testo a stampa rilevati
durante la fase di ripulitura del testo sono stati
rettificati e la presenza e il tipo di correzione sono stati segnalati tramite
un apposito marcatore.[3]
Nessun altro tipo di codifica è stato inserito durante questa fase: in
particolare, non sono state segnalate le citazioni o i brani non in prosa, di
cui sono state ritenute solamente le "spezzature" in paragrafi.
Le altre codifiche sono state introdotte automaticamente.
Una prima operazione automatizzata è stata infatti quella di sostituire i
caratteri contenenti segni diacritici (accenti, dieresi, ecc.) con le
corrispondenti entity references
definite dalle tabelle di traduzione di file in formato ASCII (minimo comun
denominatore alfabetico per qualsiasi sistema informatico) in formato SGML.
Come si nota ad esempio nella prima frase de I figli della mezzanotte, la lettera accentata "a" nella
parola "città" è stata sostituita dalla stringa di caratteri
"à". Altre entity
references sono state utilizzate per i trattini di sospensione e le
virgolette di apertura e chiusura del discorso diretto (standardizzando in
questo modo i diversi sistemi utilizzati nelle pubblicazioni inglesi e
italiane).
Sono inoltre stati inseriti automaticamente i marcatori di
apertura e chiusura paragrafo <P> e </P> in corrispondenza dei
codici di paragrafo dei file in formato ASCII, il marcatore di inizio frase
<S> in corrispondenza di quello di inizio paragrafo e dopo i segni di
punteggiatura. La suddivisione del testo in frasi è senz'altro l'operazione più
problematica, sia sotto l'aspetto tecnico che sotto l'aspetto linguistico.
Per quanto riguarda l'aspetto tecnico i problemi sono
derivati dalla difficoltà di identificare delle precise sequenze di caratteri
utilizzate in maniera uniforme per delimitare una frase. I codici di inizio
frase sono stati inseriti in maniera automatica in corrispondenza dei caratteri
di punto, punto e virgola, punto esclamativo e punto di domanda seguiti da
spazio. Si è cercato tramite una serie di operazioni preparatorie di diminuire
per quanto possibile l'effetto di "elementi di disturbo" come puntini
e trattini di sospensione, sigle, interferenze tra punteggiatura e discorso
diretto, ma dato anche l'uso spesso non convenzionale della punteggiatura da
parte di Rushdie se non dei suoi traduttori, si sono resi necessari una serie
di controlli semi-automatici ed è inevitabile la permanenza di alcune
incoerenze. I programmi utilizzati per l'allineamento del corpus bilingue (Trados WinAlign) e per l'analisi dei
testi digitali (Wordmith Tools) non
utilizzano marcatori di frase in formato SGML ma si basano sulle suddivisioni
del testo create dalla punteggiatura, mediante procedure di identificazione
delle frasi simili anche se non esattamente coincidenti con quelle adottate
durante la codifica.
Per quanto riguarda l'aspetto linguistico vi è invece la
difficoltà di decidere, anche dal punto di vista contrastivo, che cosa siano
esattamente una frase, una phrase e
una sentence e quali ne siano i
confini. Questo aspetto è risultato evidente durante l'operazione di
allineamento, e viene trattato in il frontespizio elettronico.
Dopo avere inserito i codici sopra elencati al
"corpo" del testo sono stati aggiunti e codificati i materiali
testuali che compaiono prima e dopo il corpo del testo nel libro (frontespizio,
indici, dediche, glossari) e il frontespizio elettronico.
La codifica in formato TEI Lite rappresenta un primo passo
verso la creazione di edizioni elettroniche di testi da utilizzare nell'ambito
di studi empirici sulla traduzione seguendo un approccio basato sui corpora, in
particolare in vista della creazione di corpora di testi paralleli allineati.[4]
Dato il numero relativamente ristretto di testi (13 in tutto, considerando
anche la versione elettronica di Grimus)
e le limitazioni poste dai diversi software utilizzati per l'allineamento e
l'analisi del corpus, il tipo di codifica effettuato ha un valore
principalmente metodologico, illustrando le potenzialità e le problematiche
connesse alla creazione di edizioni elettroniche di testi a stampa.
L'utilizzo in fase di analisi delle traduzioni dei marcatori
di nota e di glossa interlineare per visualizzarle i corrispondenti segmenti
paralleli ha evidenziato l'utilità di una codifica strutturata, suggerendo
l'opportunità di eventuali arricchimenti della codifica in simili progetti, ad
esempio tramite l'inserimento di appositi marcatori per identificare le istanze
di discorso diretto nei testi narrativi.[5]
[1] L'unica nota dell'autore è presente in Grimus. cfr. le traduzioni francese e tedesca
[2] All'interno dei marcatori si è utilizzata la lingua inglese in conformità alle linee guida del manuale TEI Lite.
[3] Esempio di rettifica del testo all'interno di una frase, dalla versione elettronica de I versi satanici: <S>Il suo corpo selvaggio di un metro e <CORR SIC="ottanza" RESP="FZ">ottanta</CORR> strizzava l'occhio attraverso una maglia a catena d'oro di Rabanne. </S>
[4] Una codifica secondo standard accettati a livello internazionale è necessaria anche in vista dei problemi legati ai diritti d'autore, per effettuare il passaggio da "versioni elettroniche" a "edizioni elettroniche".
[5] Questo tipo di codifica è stato ad esempio introdotto nella componente centrale del ENPC (cfr. tipi di corpora per lo studio della traduzione) in una seconda fase del progetto (Johansson 1998: 12).