Sono molte e in continuo aumento le applicazioni della linguistica dei corpora nel campo dei translation studies. Questo in primo luogo perché l'etichetta translation studies (con i suoi corrispettivi terminologici in altre lingue e come ormai comunemente intesa nella comunità scientifica internazionale) non designa una disciplina dai contorni definiti, ma piuttosto un'"interdisciplina" (Snell-Hornby, Pöchhacker e Kaindl 1994, Baker 1998), un campo di ricerca che riunisce interessi e discipline contingui ma comunemente distinti nel mondo accademico, dalla ricerca sulla traduzione automatica a quella linguistico-descrittiva a quella sulla letteratura post-coloniale (cfr. originali come traduzioni e approcci allo studio della traduzione) In secondo luogo perché la linguistica dei corpora non è in quanto tale una disciplina ma una metodologia, e può quindi essere utilizzata in diversi ambiti di ricerca e a diversi livelli di sofisticazione tecnologica.
Il termine corpus-based translation studies (Bowker, Kenny e Pearson 1998, Laviosa 1998a) si riferisce allo studio della traduzione basato su dati empirici, prima ancora che all'uso di metodologie e tecniche derivate dalla linguistica dei corpora. In questo senso gli studi basati su corpora di testi non dipendono necessariamente dalla disponibilità di testi in formato elettronico. Ricerche in tal senso sono Vanderauwera (1985), che esamina un corpus costituito dai 50 romanzi tradotti dall'olandese all'inglese tra il 1960 e il 1980, Lappihalme (1997) che prende in esame un corpus di sette romanzi inglesi tradotti in finlandese (cfr. idiomaticità linguistica e culturale e strategie locali: la traduzione di allusioni e giochi di parole), Leuven-Zwart (1989-90) che analizza un corpus composto in maggioranza[1] di romanzi spagnoli tradotti in olandese e Manini (1996) che analizza un corpus di testi teatrali e narrativi tradotti dall'inglese in italiano (cfr. i nomi dei personaggi)[2] I vantaggi offerti da corpora in formato elettronico non consistono solo nell'opportunità di ricavare velocemente informazioni da una grande quantità di dati, ma anche nella possibilità di interrogare tali dati in maniera sistematica e attraverso modalità di ricerca diverse da quanto possibile con un corpus carteceo.
Nato principalmente come strumento di ricerca linguistica e lessicografica in area anglofona (cfr. Sinclair 1991; McEnery e Wilson 1996; Biber, Conrad e Reppen 1998), l'uso di ampie quantità di testo in formato elettronico come base empirica per la ricerca ha trovato applicazione a partire dagli anni '90 in un ampio numero di discipline afferenti nell'ambito degli studi di traduttologia (translation studies) coinvolgendo un sempre maggiore numero di lingue (cfr. Laviosa 1998a, Johansson e Oksefjiell 1998). In particolare, l'impatto si è fatto sentire nel campo della traduzione automatica, in cui l'uso di corpora bilingui paralleli allineati ha portato a quella che è stata percepita come una vera e proprio rivoluzione (cfr. Somers 1993); della lessicologia e la terminologia bilingue, soprattutto per quanto riguarda gli aspetti applicativi (cfr. Pearson 1998); della linguistica contrastiva (cfr. Aijmer, Altenberg e Johansson 1996, Johansson 1998, Johansson e Oksefjiell 1998); per la ricerca teorico-descrittiva[3] (cfr. Baker 1993, 1995, 1996, in corso di pubblicazione, Kenny 1997, 1998, Laviosa 1997, 1998a, 1998b); e infine nella didattica della traduzione (cfr. Zanettin 1994, 1998, 1999a, in corso di pubblicazione, Danielsson e Ridings 1996, Aston, Gavioli e Zanettin 1997).
In tipi di corpora per lo studio della traduzione viene proposta una tipologia di corpora nel campo degli studi della traduzione, alla luce di alcuni progetti attualmente in corso che coinvolgono l'uso contrastivo di corpora linguistici (bi- o multilingue tranne che in un caso) e che sembrano di rilevanza per il presente studio. I progetti vengono esaminati alla luce di tre caratteristiche fondamentali: corpus design (i criteri con i quali il corpus o i corpora sono stati creati e le finalità di ciascun progetto), corpus encoding (una descrizione dei criteri di codifica dei testi presenti nei corpora) e corpus processing (una descrizione degli strumenti utilizzati per la creazione e lo studio dei testi elettronici). I principali progetti considerati sono i seguenti:
· LINGUA Project, progetto sponsorizzato dall'unione Europea che comprende facoltà universitarie inglesi (Birmingham), francesi (Nancy II), italiane (Trieste), ecc.
· MULTEXT Project, sponsorizzato dal Centre National de la Recherche Scientifique francese e in associazione con i progetti internazionali MULTEXT EAST e EAGLES
· ENPC Project presso l'università di Oslo (Norvegia)
· PEDANT Project presso l'università di Götemborg (Svezia)
· I progetti TRIAL e TRANSEARCH (corpus Hansard canadese) presso l'università di Montréal (Canada)
· CRATER Project presso le università di Lancaster (UK) e Madrid (Spagna)
· ECC Project, presso lo UMIST di Manchester (UK)
Oltre a questi progetti, in corpus processing verranno inoltre descritti alcuni prodotti per la creazione e l'analisi di corpora elettronici.
[1] Alcuni testi non sono testi narrativi e il corpus comprende anche traduzioni verso l'olandese da lingue come italiano, inglese, ecc.
[2] A questi studi di maggiore respiro si aggiungano diversi case studies a partire da singoli testi tradotti (cfr. ad esempio Toury 1995) fino a raccolte di "testi paralleli", intesi come testi prodotti originalmente nelle due lingue (cfr. ad esempio Snell-Hornby 1988, Nord 1997).
[3] Queste ricerche partono solitamente dall'ipotesi che i testi tradotti rappresentino una varietà linguistica con caratteristiche proprie, indipendenti dalle lingue da cui sono effettuate le traduzioni, per verificare se determinati fenomeni, quali ad esempio processi di semplificazione ed esplicitazione¸ abbiano un valore universale, siano cioè postulabili come "leggi empiriche" della traduzione (cfr. norme e convenzioni traduttive)