5

Durante la fase di ripulitura sono stati inseriti manualmente i codici relativi alla suddivisione in parti, capitoli e sezioni. Per "parti" si intendono divisioni interne del testo maggiori di un capitolo, indicate nei testi a stampa come "libri" o "parti"; per "sezioni" si intendono suddivisioni interne ai capitoli segnalate tipograficamente da caratteri (ad esempio da asterischi) e da spazi tipografici. Nella figura che segue si riporta a titolo di esempio l'inizio del corpo del testo de I figli della mezzanotte.

Inizio del corpo del testo

<BODY>

<HEAD TYPE="parttit">Libro primo </HEAD>

<HEAD TYPE="main">Il lenzuolo Perforato</HEAD>

<P><S>Io sono nato nella città di Bombay ... tanto tempo fa. </S>

Subito dopo il marcatore (tag) che segnala l'inizio del corpo del testo <BODY> viene la riga che identifica l'inizio della prima suddivisione del testo stesso. Il marcatore che identifica la suddivisione gerarchicamente superiore del testo <DIV1 è seguito da due attributi, TYPE, che specifica il tipo di suddivisione (part) e ID, che identifica inequivocabilmente questa suddivisione nell'intero testo (FMPart1, per I figli della mezzanotte, parte prima), mentre nella riga successiva appare, racchiuso dai propri marcatori di apertura e chiusura, il titolo di questa suddivisione (Libro primo). Seguono quindi due righe che contengono rispettivamente i tags che introducono la suddivisione successiva (DIV2) cioè il capitolo, e il titolo del capitolo (Il lenzuolo perforato). Viene poi il tag che identifica l'inizio della prima suddivisione interna al primo capitolo (DIV3), e infine la prima frase del testo, "Io sono nato nella città di Bombay … tanto tempo fa." Preceduta dal tag di inizio paragrafo <P> e racchiusa dai tags di apertura <S> e di chiusura </S> di "frase".

Altri marcatori inseriti manualmente durante la ripulitura del testo sono; i tags di interruzione pagina <PB N=[numero della pagina]> (non in tutti i testi) per facilitare riscontri nel testo a stampa, posizionati a fondo pagina; i marcatori utilizzati per segnalare la presenza di immagini (in The Moor's Last Sigh / L’ultimo sospiro del Moro) e di diagrammi (in Shame).

Infine sono state codificate le note: per ciascuna nota è stata indicata la responsabilità (dell'autore o del traduttore),[1] la posizione (a piè di pagina) e un numero di identificazione (se presente nel testo a stampa). Le glosse interlineari sono state segnalate, anche se non inizialmente in maniera sistematica, attraverso il marcatore di "nota", assegnando all'attributo "tipo" il valore "non dichiarata" e all'attributo "luogo" il valore "nel corpo del testo".[2] Il primo dei due esempi qui di seguito illustra la codifica di una nota a piè di pagina, mentre il secondo esempio illustra la codifica di una nota non dichiarata (sempre da I figli della mezzanotte).

Esempio 1

<S>molte delle barchette, le shikara, <NOTE

RESP="translator" PLACE="foot" N="2">Imbarcazione del Kashmir simile a una gondola. (N.d.t.)</NOTE> si erano fatte sorprendere dal sonno, e anche questo era normale.</S>

Esempio 2

<S>E nel mio decimo compleanno, rubai le iniziali del Metro Cub Club - che erano anche quelle di una squadra inglese di cricket in tournée - e le passai alla nuova Midnight Children's Conference </S><NOTE TYPE="nondeclared" RESP="translator" PLACE="inline">(Conferenza dei bambini della mezzanotte) </NOTE>, la mia Midnight's Children personale.</S>

Semiautomaticamente sono stati invece inseriti i codici che segnalano enfasi nel testo a stampa, solo per quei testi dove i corsivi dei libri erano stati riconosciuti in maniera sufficientemente attendibile dal programma di riconoscimento ottico, facilitando l'opera di inserimento dei codici. Il testo in corsivo è stato incluso tra i codici <HI> e </HI>, utilizzati nelle linee guida TEI per indicare l'evidenziazione tipografica. Evidenti errori di battitura presenti nel testo a stampa rilevati durante la fase di ripulitura del testo sono stati rettificati e la presenza e il tipo di correzione sono stati segnalati tramite un apposito marcatore.[3] Nessun altro tipo di codifica è stato inserito durante questa fase: in particolare, non sono state segnalate le citazioni o i brani non in prosa, di cui sono state ritenute solamente le "spezzature" in paragrafi.

Le altre codifiche sono state introdotte automaticamente. Una prima operazione automatizzata è stata infatti quella di sostituire i caratteri contenenti segni diacritici (accenti, dieresi, ecc.) con le corrispondenti entity references definite dalle tabelle di traduzione di file in formato ASCII (minimo comun denominatore alfabetico per qualsiasi sistema informatico) in formato SGML. Come si nota ad esempio nella prima frase de I figli della mezzanotte, la lettera accentata "a" nella parola "città" è stata sostituita dalla stringa di caratteri "à". Altre entity references sono state utilizzate per i trattini di sospensione e le virgolette di apertura e chiusura del discorso diretto (standardizzando in questo modo i diversi sistemi utilizzati nelle pubblicazioni inglesi e italiane).

Sono inoltre stati inseriti automaticamente i marcatori di apertura e chiusura paragrafo <P> e </P> in corrispondenza dei codici di paragrafo dei file in formato ASCII, il marcatore di inizio frase <S> in corrispondenza di quello di inizio paragrafo e dopo i segni di punteggiatura. La suddivisione del testo in frasi è senz'altro l'operazione più problematica, sia sotto l'aspetto tecnico che sotto l'aspetto linguistico.

Per quanto riguarda l'aspetto tecnico i problemi sono derivati dalla difficoltà di identificare delle precise sequenze di caratteri utilizzate in maniera uniforme per delimitare una frase. I codici di inizio frase sono stati inseriti in maniera automatica in corrispondenza dei caratteri di punto, punto e virgola, punto esclamativo e punto di domanda seguiti da spazio. Si è cercato tramite una serie di operazioni preparatorie di diminuire per quanto possibile l'effetto di "elementi di disturbo" come puntini e trattini di sospensione, sigle, interferenze tra punteggiatura e discorso diretto, ma dato anche l'uso spesso non convenzionale della punteggiatura da parte di Rushdie se non dei suoi traduttori, si sono resi necessari una serie di controlli semi-automatici ed è inevitabile la permanenza di alcune incoerenze. I programmi utilizzati per l'allineamento del corpus bilingue (Trados WinAlign) e per l'analisi dei testi digitali (Wordmith Tools) non utilizzano marcatori di frase in formato SGML ma si basano sulle suddivisioni del testo create dalla punteggiatura, mediante procedure di identificazione delle frasi simili anche se non esattamente coincidenti con quelle adottate durante la codifica.

Per quanto riguarda l'aspetto linguistico vi è invece la difficoltà di decidere, anche dal punto di vista contrastivo, che cosa siano esattamente una frase, una phrase e una sentence e quali ne siano i confini. Questo aspetto è risultato evidente durante l'operazione di allineamento, e viene trattato in il frontespizio elettronico.

Dopo avere inserito i codici sopra elencati al "corpo" del testo sono stati aggiunti e codificati i materiali testuali che compaiono prima e dopo il corpo del testo nel libro (frontespizio, indici, dediche, glossari) e il frontespizio elettronico.

La codifica in formato TEI Lite rappresenta un primo passo verso la creazione di edizioni elettroniche di testi da utilizzare nell'ambito di studi empirici sulla traduzione seguendo un approccio basato sui corpora, in particolare in vista della creazione di corpora di testi paralleli allineati.[4] Dato il numero relativamente ristretto di testi (13 in tutto, considerando anche la versione elettronica di Grimus) e le limitazioni poste dai diversi software utilizzati per l'allineamento e l'analisi del corpus, il tipo di codifica effettuato ha un valore principalmente metodologico, illustrando le potenzialità e le problematiche connesse alla creazione di edizioni elettroniche di testi a stampa.

L'utilizzo in fase di analisi delle traduzioni dei marcatori di nota e di glossa interlineare per visualizzarle i corrispondenti segmenti paralleli ha evidenziato l'utilità di una codifica strutturata, suggerendo l'opportunità di eventuali arricchimenti della codifica in simili progetti, ad esempio tramite l'inserimento di appositi marcatori per identificare le istanze di discorso diretto nei testi narrativi.[5]

[1] L'unica nota dell'autore è presente in Grimus. cfr. le traduzioni francese e tedesca

[2] All'interno dei marcatori si è utilizzata la lingua inglese in conformità alle linee guida del manuale TEI Lite.

[3] Esempio di rettifica del testo all'interno di una frase, dalla versione elettronica de I versi satanici: <S>Il suo corpo selvaggio di un metro e <CORR SIC="ottanza" RESP="FZ">ottanta</CORR> strizzava l'occhio attraverso una maglia a catena d'oro di Rabanne. </S>

[4] Una codifica secondo standard accettati a livello internazionale è necessaria anche in vista dei problemi legati ai diritti d'autore, per effettuare il passaggio da "versioni elettroniche" a "edizioni elettroniche".

[5] Questo tipo di codifica è stato ad esempio introdotto nella componente centrale del ENPC (cfr. tipi di corpora per lo studio della traduzione) in una seconda fase del progetto (Johansson 1998: 12).