5

Con il termine analisi quantitative ci si riferisce a ricerche basate sul calcolo e l'elaborazione statistica dei dati quantitativi relativi a determinate caratteristiche di un corpus. Per l'elaborazione dei dati quantitativi del CPR si è utilizzato il programma Wordlist, parte del pacchetto software Wordsmith Tools. Wordsmith Tools, che nasce primariamente come software per l'analisi testuale monolingue, è un insieme di programmi con diverse funzionalità: oltre a Wordlist, che permette l'elaborazione di liste di parole e misure statistiche, e ai già citati Concord e Text Viewer and Aligner, il pacchetto software contiene il programma Keywords, che permette di identificare le "parole chiave" di uno o più testi, ovvero parole la cui frequenza è particolarmente alta rispetto a una norma (ricavata da una lista di riferimento di più ampie dimensioni), e alcune "utilità" per la manipolazione e la visualizzazione dei file. Wordlist può analizzare uno o più files di testo fornendo per ciascuno una lista delle parole presenti (in ordine alfabetico o di frequenza) e alcune statistiche riassuntive, come ad esempio il numero totale delle parole presenti in ciascuno di essi e complessivamente nell'intero corpus analizzato. Si tratta di un tipo di analisi non effettuabile, se non a prezzo di un notevole investimento di risorse, in un corpus di testi stampati e che fornisce importanti informazioni utili a definire la natura dei testi tradotti.

La caratteristiche linguistiche oggetto di analisi possono riguardare diverse unità e categorie linguistiche, richiedendo la semplice elaborazione di sequenze di caratteri (parole e "frasi") in corpora con un minimo livello di codifica oppure elaborazioni molto complesse rese possibili da un alto livello di codifica del corpus. In un corpus come il CPR sono ad esempio possibili elaborazioni relative al numero e alla frequenza delle parole, e al numero e alla lunghezza delle frasi. In un corpus in cui siano stati inseriti marcatori relativi a caratteristiche linguistiche dei testi, ad esempio in cui sia stata annotata la struttura sintattica delle frasi o la classe grammaticale delle parole, è possibile servirsi delle categorie utilizzate per la codifica per individuare ulteriori classi di analisi. Ad esempio, Sovali (1998), analizza le caratteristiche grammaticali delle traduzioni finlandesi si alcuni testi svedesi elaborando degli indici statistici (transix) a partire da caratteristiche strutturali dei testi codificate precedentemente nel corpus. Gli elementi strutturali esaminati sono il numero di frasi principali, il numero di periodi per frase, la percentuale di periodi subordinati, la relazione tra frasi principali e frasi subordinate e il numero di sintagmi verbali indefiniti. Ciascun indice è il risultato della rapporto tra le quantità di elementi appartenenti a queste categorie negli originali suddivise per le quantità degli stessi elementi nelle traduzioni.

L'analisi dei dati quantitativi permette di verificare in modo empirico alcune ipotesi riguardanti la natura delle traduzioni. Una di queste è la cosiddetta "ipotesi di esplicitazione" (Blum-Kulka 1986, Toury 1995), secondo cui le traduzioni sarebbero caratterizzate da fenomeni come espansione testuale, semplificazione sintattica e lessicale ed esplicitazione della coerenza di un testo attraverso elementi coesivi. In espansione testuale e semplificazione lessicale viene presa in esame la validità di queste ipotesi in base ai dati del CPR relativamente appunto a questi fenomeni.