Il formato TBX
Il TBX ha lo scopo di fornire una rappresentazione strutturata orientata al concetto di dati terminologici ed è stato recepito dall'ISO (International Organization for Standardization) attraverso la norma ISO-30042 del 2008.
Altre norme legate al TBX sono la ISO-12620 in cui sono elencate le categorie da utilizzare per identificare le varie informazioni all'interno delle schede terminologiche e la ISO-12200 attraverso cui viene definito il MARTIF (MAchine-Readable Terminology Interchange Format) basato su SGML, cui il TBX si richiama esplicitamente.
Grazie al TBX è possibile lo scambio di informazioni terminologiche fra software diversi di traduzione assistita, di traduzione automatica o strumenti per la scrittura in linguaggio controllato garantendo la massima coerenza terminologica tanto a livello di produzione che di localizzazione.
Più che essere un formato vero e proprio come il TMX, il TBX corrisponde a una famiglia di linguaggi basati su XML, chiamati appunto TML (Terminological Markup Languages). L'elemento comune a tutti i tipi di TBX è la struttura di base, che permette la rappresentazione delle informazioni su cinque livelli in ordine gerarchico, mentre sono lasciate ai singoli TML le specifiche per le categorie di dati contemplate (valore degli attributi, contenuto degli elementi, ecc…), i livelli strutturali in cui le categorie possono comparire e in che numero.
Il modello concettuale, o metamodello, di riferimento è quello elaborato nell'ambito del TMF (Terminological Markup Framework) per la rappresentazione della terminologia, articolato su cinque livelli secondo la normativa ISO-16642 del 2003 (figura 51). Questo corrisponde alla struttura di base comune a tutti i database rappresentati mediante TBX.
Il primo livello, TDC (Terminological Data Collection) è rappresentato dal database terminologico nel suo complesso. Il secondo livello è il cosiddetto entry level (TE, Terminological Entries), che corrisponde a tutti i concetti di cui si compone il database, cioè le voci dello stesso. Il livello successivo, language level, è rappresentato dalla lingua o dalle lingue in cui il concetto viene espresso (LS, Language Section). Al quarto livello o term level sono presenti i singoli termini. L'ultimo livello (TCS Term Component Section) contiene informazioni che su applicano su unità più piccole del singolo termine (es. le singole parole nei termini composti o complessi).
La struttura di base fornisce una serie di elementi generici (le cosiddette ‘categorie di dati’) fissa, attraverso cui è possibile inserire tanto gli elementi dei livelli quanto una serie di informazioni descrittive o di ordine amministrativo (ad es. data, creatore, ecc…).
In quanto ‘chiusa’ e relativamente semplice la struttura di base di un documento TBX ben si presta a essere descritta attraverso una DTD tradizionale, com'è possibile osservare nella ‘DOCTYPE declaration’ presente all'inizio del TBX (cfr. riquadro 51).
Gli elementi della struttura di base possono essere però gestiti in maniera diversa a seconda delle esigenze dell'utente o dello strumento utilizzato ed è questo a determinare l'esistenza dei diversi TML. Ad esempio, la struttura di base mette a disposizione l'elemento <termNote> a livello di termine. Questo può essere utilizzato in alcuni TML per esprimere la categoria grammaticale del termine, in altri per il genere o per entrambi, e così via. Inoltre, in un determinato TML può essere specificato un numero chiuso di valori possibili per il determinato elemento (picklist), in altri questi possono essere diversi o può essere permesso l'inserimento di testo arbitrario.
Le specificità di questa parte ‘flessibile’ di ogni TML sono contenute in un file XCS (eXtensible Constraint Specification) separato, sempre in formato XML, e citato all'interno dell'intestazione attraverso un URI.
Un approccio alternativo prevede, invece, l'integrazione della DTD e del file XCS in un unico schema XML, in modo da superare la staticità imposta da una DTD senza dover ricorrere ad altre risorse separate. In ogni caso, il risultato è un formato modulare e ampiamente flessibile che si propone di adattarsi a numerosi impieghi.
A questo proposito, vale la pena ricordare che esiste anche un formato semplificato, il ‘TBX Basic’ costituito da un sottoinsieme delle categorie di dati fra quelle disponibili nel TBX standard limitato a 23 elementi (i più utilizzati) corredato da un file XCS anch'esso fisso. Questo ‘dialetto’ del TBX è messo a disposizione dalla LISA stessa e si presta all'impiego in progetti di piccole e medie dimensioni [Melby, 2008].
Le condizioni necessarie affinché un file possa essere considerato un TBX valido sono: che sia un documento XML ben formato (well-formed), valido rispetto alla struttura di base TBX ma anche, a differenza di quanto avviene per il TMX, che rispetti i vincoli relativi alle categorie di dati espressi in un XCS. Dal momento che non esiste, quindi, un ‘unico’ TBX ma una serie di varianti, in questa parte verrà fornita una descrizione generale che senza entrare troppo nello specifico evidenzia le caratteristiche di base del formato.
Nella sua forma più semplice, un TBX è un documento XML il cui elemento radice è <martif>, che contiene al suo interno un'intestazione (<martifHeader>) e un elemento <text> il quale rappresenta il corpo del database. Questa parte è costituita dalle varie voci terminologiche, racchiuse a loro volta nell'elemento <body>.
Le informazioni contenute nell'intestazione corrispondono alla parte etichettata come Global Information (GI) nel metamodello TMF tra cui, ad esempio, le informazioni sulla natura del database, sullo strumento che è stato utilizzato per la creazione e/o sul XCS di riferimento.
Ogni voce terminologica, e quindi ogni concetto rappresentato nel database nel secondo livello del modello, corrisponde a un elemento <termEntry>. Trattandosi di una rappresentazione orientata al concetto alcune informazioni ausiliarie possono essere contenute nell'entry level, dove è quindi possibile inserire elementi <descrip> per la definizione o per il dominio, che in una tale ottica si applicano all'intera voce terminologica.
Ogni voce contiene inoltre obbligatoriamente al suo interno uno o più nodi al livello della lingua (LS), i <langSet>, dove la quest'ultima è specificata come nel caso del TMX dall'attributo lang ereditato dallo spazio dei nomi XML ed è rappresentata dalla sigla del locale corrispondente.
Al livello dei termini (TS) si trovano gli elementi <ntig> (o la versione semplificata <tig>). La differenza fra i due è che mentre quest'ultimo si presta a contenere solo i termini (<term>) e le relative note (<termNote>) che corrispondono ai vari campi a livello di termine, il primo introduce un nodo intermedio (<termGrp>) atto a raccogliere i termini, le note eventualmente organizzate in classi ma anche informazioni a livello di unità più piccola del termine, corrispondenti al quinto e ultimo livello del metamodello TMF.
Qualora per una stessa lingua dovessero comparire più termini, questi sono da intendersi come sinonimi laddove non diversamente segnalato. Pertanto concetti rappresentati in questo modo possono essere monolingui, bilingui o multilingui a seconda del numero di elementi presenti nel language level e per ogni lingua possono essere presenti più termini allo stesso tempo.
Come già detto, i campi a livello di termine sono rappresentati attraverso uno o più elementi <termNote>. Assieme all'elemento multilivello <descrip> costituisce uno dei costituenti più importanti per contenere le informazioni che accompagnano, rispettivamente, i termini e i concetti del database.
Tali elementi non corrispondono quindi a vere e proprie categorie di dati ma a ‘meta-categorie’, cioè categorie di categorie, il cui tipo è di volta in volta specificato mediante l'impiego di attributi (es. <type>).
Ad esempio, se il genere grammaticale è una categoria di dati di base, essa sarà contenuta nella meta-categoria <termNote> e può essere resa attraverso una picklist mentre la definizione, che è anch'essa una categoria di base, può essere contenuta nella meta-categoria <descrip>.
Tuttavia, dal momento che tali specifiche dipendono dallo specifico TML utilizzato, entrare ulteriormente nei dettagli non avrebbe molto senso. Per ulteriori approfondimenti sulla struttura del TBX si rimanda alla normativa di riferimento [LISA, 2008].
|
©inTRAlinea & Diego Beraldin (2013).
Una panoramica sugli strumenti di traduzione assistita
disponibili come software libero, inTRAlinea Monographs
This work can be freely reproduced under Creative Commons License.
Permalink: http://www.intralinea.org/monographs/beraldin/