4

Una volta identificato l'ambito testuale a cui un corpus fa riferimento (dalla lingua in genere alla lingua dei manuali tecnici, alla lingua di un solo autore letterario), si tratta di selezionare all'interno del "catalogo" virtuale o effettivo del materiale testuale corrispondente a una determinata descrizione (ovvero appartenente a un determinato "genere"), i testi da includere nel corpus. Nel caso in cui la costruzione di un corpus sia finalizzata a un'indagine di tipo traduttivo, la direzionalità del corpus determina una restrizione nella composizione. In altre parole, nel corpus non saranno rappresentati tipi testuali che non abbiano una relazione del tipo descritto nella figura corpora per lo studio della traduzione con un'altra componente del corpus, ovvero tipi testuali non tradotti, testi cioè che non entrino in una relazione di comparabilità o di equivalenza traduttiva. La componente del corpus costituita da testi tradotti (o da testi appartenenti alla tipologia testuale oggetto di traduzione) determinerà la composizione dell'altra, o delle altre, componenti. Laviosa (1998b) parla a questo proposito di "translation-driven corpus".

Non vi è un accordo unanime sulla tipologia e sui criteri di composizione dei corpora, e in questa sede vengono presi in considerazione solamente quei criteri che sembrano maggiormente rilevanti per corpora utilizzati in progetti traduttivi e/o multilingui (cfr. Summers 1991; Atkins, Clear e Ostler 1992; Biber 1993 per ulteriori approfondimenti).

Un primo importante criterio riguarda la distinzione tra corpus sincronico e corpus diacronico. Un corpus diacronico potrebbe ad esempio essere utile per vedere come sono cambiate le strategie o le norme traduttive nel corso del tempo. Tutti i progetti sopra menzionati sono però di tipo sincronico, e limitano la selezione di testi a un arco di dieci/quindici anni per evitare le interferenze derivanti da sbalzi temporali.

Un secondo criterio riguarda l'individuazione di categorie testuali. Una prima distinzione a questo proposito è rappresentata, come si è detto, dalla dicotomia scritto - parlato; tutti i progetti elencati, ad eccezione del progetto MULTEXT-EAST, si limitano a considerare la lingua scritta.[1] Biber (1988) propone di differenziare tra generi e tipi testuali: a determinare i primi sarebbero considerazioni di tipo extratestuale, ovvero convenzionali distinzioni rinvenibili, ad esempio, nelle catalogazioni bibliografiche, mentre i tipi testuali non sono determinabili a priori ma sono ricavati da un'analisi delle caratteristiche linguistiche dei testi facenti parte di un corpus. Il concetto di genere meriterebbe un approfondimento a parte, ma per la presente discussione si userà questo termine per indicare categorie testuali determinate da chi progetta il corpus, e all'interno delle quali vengono selezionati i testi da includere nel corpus.

Un terzo criterio riguarda il campionamento dei testi, cioè la dimensione del corpus in rapporto al genere o ai generi testuali che si vogliono rappresentare e la composizione interna del corpus: ciascun testo può infatti essere incluso nel corpus nella sua interezza, oppure si può scegliere di includere solamente una porzione (numero di parole) prestabilita di ciascun testo in modo da aumentare il numero dei testi selezionati e quindi, presumibilmente, la rappresentatività del corpus. In generale, e in previsione di possibili riutilizzazioni di un corpus sembra consigliabile utilizzare dati testuali provenienti da testi completi e identificabili, "in order to master perfectly all parameters (gender, structure) which might be used in later studies. Indeed, text must be seen as a countable noun, not a mass one" (Romary, Bonhomme et al. 1999: 33). Sinclair suggerisce che "[t]he use of samples of a constant size gains only a spurious air of scientific method" (1995: 28) e in effetti l'uso di corpora costituiti da frammenti di testo sembra spesso dettato da considerazioni pratiche più che da convinzioni teoriche, ovvero dalla necessità di conciliare diversità e ampiezza del corpus (il rapporto tra il numero dei "testi" compresi nel corpus e il numero di parole complessivo).

Alcuni tra i progetti presi in considerazione si propongono come oggetto di indagine della lingua nel suo complesso, con l'unica restrizione del riferimento allo studio di fenomeni traduttivi. Altri progetti, in genere rivolti ad applicazioni terminologiche o alla traduzione automatica, hanno come campo di applicazione specifici sottosettori della produzione testuale scritta.

Nel primo gruppo si collocano l'ECC Project e l'ENPC Project. L'English Comparable Corpus è stato costruito creando un corpus di testi tradotti verso l'inglese da diverse lingue (componente TEC - Translational English Corpus) e affiancandogli una selezione comparabile di testi originali inglesi già disponibili in versione elettronica (componente NON-TEC, cfr. Laviosa 1998a). La composizione dell'English Norwegian Parallel Corpus riproduce invece quella rappresentata dallo schema nella figura corpora per lo studio della traduzione. Nel secondo gruppo si collocano tutti gli altri progetti.

Il progetto EEC ha nella sua fase iniziale individuato una serie di generi testuali tradotti (biografia, fiction, testi giornalistici, ecc.) e all'interno di questi generi un elenco di testi che sono stati successivamente acquisiti per formare la componente traduttiva del corpus.[2] La componente TEC dell'ECC è composta da testi di narrativa (romanzi e racconti), biografie e testi giornalistici (articoli da The Guardian e The European). La componente NON-TEC è stata creata selezionando testi comparabili per quantità, arco temporale e "genere" testuale da CD-ROM di The Guardian e The Independent e dalla componente di testi "immaginativi" del BNC. Il corpus ECC, composto inizialmente da circa 2 milioni di parole per ciascuna delle due componenti, è in fase di accrescimento, sia per quanto riguarda il numero di testi in ogni genere, sia per quanto riguarda il numero di generi rappresentati. Una dimensione di non comparibilità è data dal fatto che la componente TEC è costituita da testi interi, mentre la componente NON-TEC da un misto di testi interi e porzioni (samples).

Il progetto ENPC ha identificato un certo numero di testi tradotti in inglese e in norvegese (e i rispettivi testi originali) all'interno di due generi: testi narrativi (romanzi) che costituiscono i 3/5 del corpus e testi non narrativi (scienze naturali, medicina ecc.) che costituiscono i rimanenti 2/5. Johansson e Hofland (1996) sottolineano come, accanto ai consueti problemi di reperibilità dei testi e dei diritti per i testi esistenti, la composizione del corpus sia stata fortemente influenzata dalla sua natura "translation-driven", ad esempio dal fatto che i testi non narrativi tradotti dal norvegese in inglese sono pochi, dato che spesso gli autori norvegesi preferiscono scrivere direttamente in inglese anche per il mercato norvegese. L'ENPC è un corpus parallelo bidirezionale inglese-norvegese, suddiviso in quattro componenti (un corpus di originali e uno di traduzioni per ciascuna delle due lingue) di circa 6-700.000 parole ciascuno per un totale di circa 2.600.000 parole. Il corpus è costituito da cento porzioni di testo, ciascuna di 10.000 / 15.000 parole. Il progetto prevedeva inizialmente di aggiungere anche testi che non avessero una traduzione nell'altra lingua, purché rientrassero nei generi rappresentati. Fino a questo momento sono stati però privilegiati gli aspetti attinenti la codifica dei testi già inclusi nel corpus iniziale, il quale è stato ampliato tramite la creazione di corpora paralleli in altre lingue piuttosto che di corpora di riferimento nelle due lingue inizialmente prese in esame (Johansson e Oksefjeli 1998).

I due progetti sopra presentati sono finalizzati all'analisi descrittiva e molta attenzione è stata in essi prestata all'individuazione di criteri di rappresentatività in termini di lingua generale, anche se allo stadio attuale nessuno dei due progetti avanza pretese in tal senso. Nella maggior parte dei casi, i progetti che coinvolgono corpora bi- o multilingui sono finalizzati all'elaborazione di criteri metodologici generali o ad applicazioni pratiche nel campo della traduzione automatica, della terminologia e della didattica. I corpora sono di dimensioni spesso molto ridotte e/o ristretti a un particolare gruppo di testi. Si parla in questo caso di corpus specialistico (special corpus, Sinclair 1995).

Il MULTEXT (Multilingual Text Tools and Corpora) Project è finalizzato principalmente alla creazione di standard di codifica e strumenti per la manipolazione e l'analisi dei testi elettronici, e verrà quindi discusso più ampiamente nella sezione successiva. Una fase del progetto prevede la creazione del corpus MULTEXT EAST, formato da testi in sei diverse lingue dell'Europa centrale e orientale (bulgaro, ceco, rumeno, ungherese, estone e sloveno), organizzati in tre componenti principali: un corpus comparabile multilingue (per ciascuna lingua circa 200.000 parole, suddivise equamente tra testi narrativi e testi giornalistici); un corpus parallelo multilingue (le traduzioni del romanzo di Orwell 1984 nelle sei lingue, ciascuna allineata con il testo originale inglese); un corpus multilingue di trascrizioni di brevi testi letti da diversi parlanti nelle diverse lingue (cfr. Ide e Véronis 1994). La componente principale del corpus, costituita dai testi paralleli, è quella utilizzata in prima istanza come banco di prova per gli strumenti e la metodologia sviluppati nel MULTEXT Project.

Il progetto PEDANT prevede la creazione di corpora paralleli multilingui, con lo svedese come lingua di riferimento. I testi sono di natura tecnica o fattuale e il corpus è utilizzato in applicazioni terminologiche e didattiche (cfr. Danielsson e Ridings 1996). Particolare attenzione è stata prestata alla codifica dei testi e allo sviluppo di applicazioni per l'analisi del corpus.

Il Progetto CRATER (Corpus Resources and Terminology Extraction) ha portato alla creazione di un corpus trilingue allineato (inglese, francese e spagnolo), finalizzato all'estrazione di terminologia multilingue. Il corpus, consistente in 5,5 milioni di parole, consta interamente di testi tecnici della multinazione delle telecomunicazioni International Telecommunications Union.

Il Progetto TRIAL presso l'Università di Montreal prevede anch'esso la creazione di un corpus allineato trilingue (inglese, francese e arabo) costituito nella sua fase iniziale da articoli tratti dal Corrier de l'Unesco e dal Vangelo di San Giovanni (Simard 1999).

Il progetto LINGUA, che ha prodotto Multiconcord (un programma per l'analisi di concordanze multilingui che viene esaminato in allineamento), è finalizzato alla creazione di strumenti per la didattica delle lingue e della traduzione e non ha prodotto corpora costruiti secondo precisi criteri, anche se vengono messi a disposizione alcuni testi narrativi e una raccolta di documenti ufficiali dell'Unione Europea in versione multilingue e nel formato utilizzato da Multiconcord. La creazione di corpora è demandata agli utenti in funzione degli specifici utilizzi previsti, con alcune specificazioni minime riguardanti la codifica.

Altri progetti di minore entità sono stati intrapresi per diverse lingue, con corpora di diverse dimensioni e caratteristiche.[3]

[1] Il corpus MULTEXT-EAST contiene trascrizioni di letture di alcuni brani scritti.

[2] Le fonti bibliografiche e di altro tipo utilizzate per ottenere l'elenco iniziale sono descritte in Laviosa 1998a.

[3] Per un elenco di alcuni di questi progetti, cfr. il sito Internet curato da Michael Barlow: Parallel Corpora all'indirizzo http://www.ruf.rice.edu/ ~barlow/ para.html.