vai alla sezione precedente

Corpus processing

Vai alla sezione successiva

Per sfruttare appieno le possibilità offerte dall'arricchimento di un corpus tramite annotazioni linguistiche sono stati utilizzati appositi programmi solitamente elaborati all'interno di specifici progetti, sia pubblici che privati, che hanno impegnato notevoli risorse umane e tecnologiche. Nei progetti che riguardano corpora parelleli, inoltre, si pone l'ulteriore necessità di disporre di programmi per l'allineamento dei testi, cioè dell'inserimento nei testi di legami espliciti tra originali e traduzioni, ed infine di programmi di concordanze che sfruttino questa esplicitazione producendo concordanze parallele, cioè visualizzando le occorrenze delle traduzioni alternate o a fianco delle corrispondenti occorrenze dei testi originali. Nell'ambito della maggior parte dei progetti sopra menzionati che utilizzano corpora paralleli altamente codificati sono stati sviluppati appositi strumenti che permettono l'automazione di operazioni di codifica e di allineamento a livello di parola. Questi programmi sono generalmente sviluppati ad hoc. La maggior parte dei programmi in commercio per l'utilizzo su personal computer è progettata invece per corpora in formato solo testo, anche se con la crescente diffusione di testi elettronici maggiormente codificati aumenta l'attenzione verso e l'adesione a formati standard di codifica.

Non interessa qui esaminare i procedimenti per la codifica di informazioni linguistiche a livello di parola, pur rilevando che sono reperibili programmi per svolgere alcune di queste operazioni, soprattutto per quanto riguarda la lingua inglese. Qui di seguito si discuteranno invece in maggiore dettaglio le problematiche relative all'allineamento di corpora paralleli.

Esistono due diversi modi di affrontare il problema derivante dal contrapporre dei segmenti di testi originali e le loro traduzioni: il metodo statistico, basato sul calcolo della probabilità che due segmenti hanno di corrispondere all'interno dei due testi e il metodo linguistico, basato sul riferimento a corrispondenze traduttive prestabilite, ad esempio attraverso un lexicon bilingue. Nel primo caso un'operazione preliminare consiste nell'individuare delle unità linguistiche nelle due lingue (frasi, sintagmi, parole o caratteri) e nel contarle (ed eventualmente numerarle), per poi stabilire dei legami di equivalenza tra di esse. Nel secondo caso si tratta invece innanzitutto di verificare l'esistenza di possibili relazioni di equivalenza tra parole nelle due lingue all'interno del corpus. I due approcci non si escludono naturalmente a vicenda, e anzi molto spesso i metodi di allineamento proposti vanno verso una commistione delle due tecniche.

Il metodo statistico è stato sviluppato all'inizio degli anni '90 da alcuni ricercatori (Gale e Church 1991, Church e Gale 1991, Brown, Cocke et al. 1990), che lo hanno sperimentato sul corpus parallelo dell'Hansard canadese, ovvero su oltre 200 milioni di parole degli atti del parlamento in inglese e in francese.

I ricercatori sopra menzionati partono dall'assunto che la lunghezza di un testo e della sua traduzione sono altamente correlati, e in entrambi gli studi viene presentato un algoritmo per l'allineamento in cui la probabilità che due "frasi" corrispondano viene calcolata come funzione della lunghezza relativa delle "frasi" candidate. La differenza tra i due approcci consiste nel fatto che in un caso (Brown, Cocke et al. 1990) la lunghezza viene calcolata in numero di parole, nell'altro (Church e Gale 1991) in numero di caratteri. Un successivo sviluppo è consistito nell'utilizzo di punti di ancoramento creati da "cognates", operativamente definiti come stringhe di almeno quattro caratteri uguali: in due lingue sintatticamente e lessicalmente molto simili come il francese e l'inglese è infatti facile trovare parole che condividano proprietà fonologiche od ortografiche, fattore questo che permette di creare una prima "mappatura" di possibili punti di corrispondenza sulla quale viene successivamente proiettato il calcolo delle lunghezze relative dei segmenti. Lo scopo ultimo di questo tipo di allineamento è l'estrazione di lessico bilingue e il miglioramento dei sistemi di traduzione automatica. Questi e successivi esperimenti nell'allineamento hanno dato buoni risultati, e attraverso una sempre maggiore raffinatezza dei calcoli statistici sono arrivati a produrre risultati molto promettenti anche riguardo all'allineamento a livello di parola (Macklovitch e Hannan 1996). La principale critica mossa al tipo di procedure sopra indicate consiste nell'osservazione che esse funzionerebbero bene solamente per lingue tipologicamente affini e per testi "beneducati" (well-behaved) come nel caso dell'Hansard canadese, mentre per altre coppie di lingue o per testi più "rumorosi" (cioè con un minor numero di corrispondenze 1: 1, come è il caso della maggior parte delle traduzioni) i risultati sono spesso meno consolanti delle percentuali di successo ottenute da esperimenti di allineamento effettuati sull'Hansard canadese, varianti tra il 95% e il 98% di allineamenti riusciti (Somers 1998). Allo stato attuale appare comunque che per ottenere un allineamento accurato nel 100% dei casi è necessario un qualche tipo di intervento umano, come richiesto d'altra parte dai programmi di allineamento attualmente disponibili commercialmente.

L'allineamento statistico non presuppone nessun tipo di conoscenza linguistica, e viene portato a termine esclusivamente a partire dal presupposto che un testo e la sua traduzione siano di estensione simile e possano essere suddivisi in segmenti gerarchicamente corrispondenti, in altre parole, che a un testo in una L1 corrisponda un testo in una L2, ciascuno dei quali contenga al suo interno un numero pressappoco equivalente di paragrafi, ciascuno dei quali a sua volta possa essere suddiviso in segmenti di entità minore corrispondenti più o meno a frasi, al cui interno sia possibile individuare corrispondenze a livello di sintagmi o parole. L'allineamento avviene ciclicamente all'interno di ogni livello di corrispondenza, a partire dal presupposto che il rapporto statisticamente predominante è quello per cui a una unità testuale nella L1 corrisponderà una sola unità testuale nella L2. È questo il caso del primo livello, dato che l'identificazione di un preciso testo e di una precisa traduzione è operazione preliminare all'allineamento. Il riconoscimento di eventuali corrispondenze 1: 1 a livelli di suddivisione testuale intermedi tra testo e paragrafo, ad esempio i capitoli di un libro, contribuisce ad aumentare la percentuale di successo in una procedura automatica di allineamento. All'interno di un corpus parallelo raramente si verifica il caso di un medesimo numero di paragrafi o frasi nelle due componenti: nel 10% dei casi si possono verificare delle corrispondenze di 1 a 2 o di 2 a 1, cioè che a una frase nell'originale corrispondono due frasi nella traduzione o viceversa a due frasi nell'originale ne corrisponda una soltanto nella traduzione. Quest'aspettativa, unitamente a misurazioni che tengono in considerazione la lunghezza delle singole frasi, copre naturalmente una buona parte di quanto rimasto, ma non mancano, anche se sono meno frequenti casi di 3 a 1, di 1 a 3, o anche di 1 a 4 e così via, e infine di 2 a 2, casi cioè in cui una frase nel testo nella lingua A abbia un corrispettivo nella lingua B in due frasi diverse, la seconda delle quali contiene anche del testo che ha un corrispettivo nella frase successiva nel testo A. Tanto maggiore sarà la probabilità di buona riuscita dell'allineamento quanto più saranno "standardizzati" (meno "rumorosi") originali e traduzioni che vanno a formare il corpus allineato.

Simard e Plamondon (1998: 59-60) distinguono tra "allineamento" e "mappe bitestuali" in cui nel primo caso si ha una segmentazione parallela dei testi nelle due lingue, mentre nel secondo si hanno coppie di riferimenti che puntano a segmenti testuali corrispondenti. È questo il modello proposto da CESALIGN, che propone una procedura standard per la codifica di corpora paralleli allineati a livello di frase (o, più precisamente di "s-unit", vedi sezione 5.2.1.) Per poter calcolare le corrispondenze è necessario che a ogni "unità" (parola, frase o paragrafo) venga assegnato un codice di identificazione preciso, come ad esempio un numero; una volta stabiliti dei legami espliciti tra coppie o gruppi di unità (nel caso di rapporti non biunivoci) questi possono venire indicizzati in forma di banca dati per potere essere in seguito interrogati.[1]

Il metodo statistico è quello più comunemente utilizzato: oltre che per il corpus Hansard è utilizzato per l'allineamento dei corpora nei progetti TRIAL e MULTEXT EAST (che hanno adottato lo standard CESALIGN), CRATER, PEDANT e LINGUA.

L'ENPC è allineato utilizzando un misto di tecniche statistiche e di corrispondenze lessicali prestabilite. In altre parole, l'algoritmo di allineamento automatico viene "corretto" stabilendo delle "ancore" linguistiche in corrispondenza di una lista di termini per cui vengono identificati precisi equivalenti bilingui; ulteriori punti di ancoramento vengono forniti utilizzando il metodo dei "cognates" a cui si è accennato precedentemente, individuando cioè parole che nelle due lingue condividono i primi quattro caratteri. Diversamente dal modello CESALIGN, inoltre, nell'ENPC la procedura è quella dell'allineamento vero e proprio piuttosto che della mappatura bilingue: le relazioni tra s-units nei due testi vengono codificate all'interno di ciascuna componente del corpus, attribuendo a ciascuna s-unit in una lingua non solo un codice di identificazione, ma anche un codice che esplicita il legame con una o più s-units nell'altra lingua.

Mentre nel progetto ENPC dei "correttori lessicali" vengono utilizzati per migliorare le prestazioni del programma di allineamento basato su tecniche statistiche, la metodologia utilizzata in un progetto di costituzione di un corpus parallelo di riferimento inglese-italiano in corso al CNR di Pisa parte da opposti presupposti. DBTSyncro, il sistema per l'analisi di concordanze parallele e comparabili sviluppato all'interno del progetto procede all'allineamento partendo da un dizionario bilingue in cui sono depositate delle corrispondenze lessicali (Peters e Picchi 1998). Per fare ciò, parte da un corpus indicizzato (un data-base testuale) analizzando ogni parola nei testi in L1 e ricavandone la forma base attraverso un analizzatore morfologico, una sottocomponente del sistema. Tale forma base viene ricondotta al lemma del dizionario bilingue e seleziona il lemma (o i lemmi) fornito/i come traduzioni. Di tali lemmi vengono quindi ricavate le diverse forme in L2 attraverso una ulteriore sottocomponente del sistema che agisce in senso inverso all'analizzatore morfologico; infine le forme prodotte vengono ricercate nell'elenco delle parole in L2. Il meccanismo riproduce sostanzialmente le fasi di analisi e sintesi alla base dei sistemi di traduzione automatica di tipo "rule based" (Hutchings e Somers 1992) riproponendo alcuni dei medesimi problemi di fondo, ad esempio il fatto che ad alcuni lemmi in una lingua possono corrispondere più sensi e quindi più lemmi nell'altra, e viceversa (ambiguità semantica) e che non per tutte le (forme di) parole in un corpus è possibile trovare una voce nel lexicon. È a questo punto che le procedure statistiche vengono in aiuto, contribuendo a risolvere questi due fondamentali problemi. Attraverso un indice denominato Mutual Information Score è possibile calcolare la probabilità che due diverse parole hanno di occorrere nello stesso contesto con una frequenza superiore alla media[2] e verificare se esistono combinazioni equivalenti tra le parole prodotte nella L2 attraverso le fasi di analisi e sintesi. L'allineamento, o come preferiscono chiamarlo gli autori, la "sincronizzazione" è quindi fondata su corrispondenze tra contesti, tra relazioni tra gruppi di parole piuttosto che su singole parole. In questo modo non è inoltre necessario che tutte a le parole in un corpus corrisponda un lemma nel lexicon bilingue. Nel caso una parola non sia inclusa nel lexicon, il sistema si limita a calcolare l'indice di informazione reciproca delle parole che appaiono nell'immediato contesto e che siano rappresentate nel lexicon.

Questa metodologia, che richiede che il corpus sia convertito in formato DBT (data base testuale), ha lo svantaggio di richiedere l'elaborazione di componenti altamente sofisticate (il lexicon, l'analizzatore e il sintetizzatore morfologico) e specifiche a ciascuna coppia di lingue. Il vantaggio maggiore che offre consiste invece nella possibilità di utilizzare il sistema di sincronizzazione non solamente con corpora paralleli, ma anche con corpora comparabili bilingui. Alla base del procedimento non vi è infatti un presupposto di equivalenza traduttiva, che identifica rapporti univoci tra un testo e la sua traduzione a vari livelli strutturali, ma una misura di similarità tra contesti basata su ipotesi di equivalenze a livello lessicale. In un corpus comparabile bilingue appartenente ad un preciso genere e argomento saranno infatti molte le corrispondenze lessicali rintracciabili dal sistema, e tanto maggiore sarà il numero di questi contesti quanto più saranno comparabili i testi nelle due lingue che compongono il corpus. Su un simile principio si basa Laffling (1992), che descrive un sistema per ricavare dati terminologici da un corpus bilingue comparabile.

I programmi per l'elaborazione e l'analisi dei corpora utilizzati nei diversi progetti sin qui descritti sono il risultato del lavoro di gruppi di ricerca che possono contare su risorse umane e materiali consistenti, e che rendono difficilmente replicabili tali contributi all'interno di progetti in cui tali risorse non siano disponibili. Un approccio diverso è adottato in progetti in cui gli strumenti disponibili siano meno sofisticati, funzionali a un contesto tecnologico meno progredito e quindi più largamente utilizzabili. È questo il caso di progetti come ECC e LINGUA, che prevedono l'uso di corpora scarsamente annotati e di software di analisi relativamente poco complessi come Wordsmith Tools (Scott 1994) e LINGUA Multiconcord (Wools 1996) operanti su personal computer. Altri progetti di minore entità utilizzano prodotti distribuiti commercialmente. Inoltre, nel caso di corpora paralleli sono utilizzati programmi pensati per la creazione di memorie traduttive, un'applicazione del principio dei testi paralleli alla pratica della traduzione. Lo Scania Corpus, composti dei manuali multilingui della ditta svedese è stato allineato all'università di Uppsala per mezzo di Trados WinAlign, un programma per l'allineamento basato su metodi puramente statistici. Gli ultimi tre programmi menzionati verranno esaminati più in dettaglio in allineamento del Corpus Parallelo Rushdie.

 



[1] Il programma di allineamento crea un documento indipendente contenente un indice delle relazioni tra s-unit nei due testi a cui tale documento si riferisce. In questo modo ciascuna componente del corpus mantiene la propria integrità e può essere utilizzata indipendentemente o in congiunzione con altre, ad esempio nel caso di un corpus parallelo multilingue.

[2] L'indice è calcolato in base alla formula I=log2=O/E, "where O and E … represent the observed and expected frequencies of co-occcurrence." (Barnbrook 1996: 99).