vai alla sezione precedente

Codifica

Vai alla sezione successiva

All'interno della "grammatica" generale di codifica dei testi elettonici denominata SGML (Stardard Generalized Markup Language) lo standard TEI.2 è stato elaborato appositamente per la conversione in formato elettronico di testi orali o a stampa. Lo standard TEI è stato utilizzato ampiamente in progetti riguardanti corpora linguistici di ampie dimensioni come il BNC ( Aston e Burnard 1998) o i corpora bilingui sopracitati, oltre che in progetti riguardanti l'analisi letteraria assistita da mezzi informatici (Ciotti s.d.). Le linee guida TEI non impongono una codifica predefinita, ma esplicitano una serie di criteri che permettono a chi codifica un testo elettronico di strutturarlo in modo tale da renderlo omogeneo ad altri testi codificati secondo le medesime linee guida. La quantità e la profondità delle informazioni inserite nel testo attraverso la codifica possono variare notevolmente, andando dalla relativamente semplice strutturazione di alcuni elementi obbligatori ad elaborate annotazioni linguistiche.

Le annotazioni inserite nel Corpus Parallelo Rushdie sono conformi alle indicazioni contenute in TEI Lite: An Introduction to Text Encoding for Interchange (Sperberg-McQueen e Burnard 1994), che specificano una selezione minimale di elementi da utilizzare nella codifica di un testo rispondente ai criteri definiti dalla Text Encoding Initiative, con un livello di codifica equiparabile a quello dei testi elettronici custoditi ad esempio negli Oxford Text Archives.

Ad un primo livello un testo conforme alle norme TEI si compone di un frontespizio elettronico e del testo vero e proprio. Il frontespizio elettronico, lo header, contiene informazioni sul testo elettronico in quanto tale, cioè ad esempio informazioni sui responsabili dell'edizione elettronica, informazioni bibliografiche sul testo fonte (il volume stampato da cui trae origine l'edizione elettronica) e informazioni sui criteri utilizzati per la codifica. I frontespizi elettronici per i testi costituenti il Corpus Parallelo Rushdie sono stati creati manualmente per ciascun testo, a partire da un modello di header elaborato tramite il programma SoftQuad Author/Editor 3.5 per la creazione di testi SGML, che è stato utilizzato anche per il controllo e la validazione di ciascuna edizione elettronica. La codifica del testo vero e proprio è invece stata effettuata in maniera semiautomatica tramite l'immissione manuale di alcuni codici in fase di ripulitura del testo, l'immissione automatica di altri codici tramite delle macro elaborate con il programma di videoscrittura Microsoft Word 97 e infine un ulteriore controllo e perfezionamento manuale.

Ciascuna versione elettronica dei testi di Rushdie si compone quindi di:

·        Document Type Definition (dichiarazione SGML inserita dal software validante)

·        frontespizio elettronico (TEI header)

·        testo vero e proprio (Text)

quest'ultimo è a sua volta composto di materiale prefatorio (Frontmatter), postfatorio (Backmatter) e del corpo centrale (Body), a sua volta composto da vari livelli interni di strutturazione, con la frase come unità minima codificata.

La struttura semplificata del testo elettronico è riprodotta nella figura che segue; la "nidificazione" gerarchica delle codifiche strutturali è stata evidenziata graficamente:

 

Struttura del testo elettronico

 

<!--SGML declaration [..] --> fornisce le istruzioni per l'interpretazione del testo SGML

<TEI.2> inizio documento TEI

<TEIHEADER> frontespizio elettronico

[struttura interna omessa]

</TEIHEADER> termine del frontespizio elettronico

<TEXT> inizio del testo

<FRONTMATTER> materiale prefatorio

[struttura interna omessa]

</FRONTMATTER> termine materiale prefatorio

<BODY> inizio del corpo del testo

<DIV1> inizio della prima parte

<DIV2> inizio del primo capitolo

<DIV3> inizio della prima sezione

<P> inizio primo paragrafo

<S> inizio prima frase

[testo della frase]

</S> termine prima frase

                                               [seguono altre frasi ]

                                   </P> termine primo paragrafo

                                         [seguono altri paragrafi ]

</DIV3> termine prima sezione

[seguono altre sezioni ]

                        </DIV2> termine primo capitolo

                             [seguono altri capitoli ]

                  <DIV1> termine prima parte

                        [seguono altre parti ]

            </BODY> termine corpo del testo

            <BACKMATTER> inizio materiale postfatorio

                  [struttura interna omessa]

            </BACKMATTER> termine materiale postfatorio

      </TEXT> termine del testo

<TEI.2> termine del documento TEI