Il termine corpus, tradizionalmente utilizzato per indicare una raccolta "ordinata e completa delle opere di uno o più autori" (Dizionario della lingua italiana Devoto-Oli) è correntemente utilizzato in ambito linguistico per designare una "raccolta di dati linguistici che possono costituire la base empirica per l'analisi della lingua naturale" (Beccaria, 1996: 183). Con il termine corpus si intende cioè una collezione omogenea di testi, elaborata con criteri coerenti con le finalità di un progetto, distinguendo in questo modo un corpus da un archivio o biblioteca elettronica che contiene invece testi che, anche se catalogati, non rispondono necessariamente a criteri di omogeneità interna (per una tipologia generale dei corpora cfr. Sinclair 1995).
Si può pensare a un corpus come all'intertesto in relazione al quale un determinato fenomeno linguistico viene interpretato, come alla base di conoscenze sullo sfondo delle quali un determinato testo acquista un suo significato. Il significato di una parola (o di un sintagma) è la funzione di quella parola (o di quel sintagma) in un determinato contesto, il risultato delle relazioni che quella parola (o quel sintagma) intrattiene con la lingua così come rappresentata nei testi compresi in un corpus.
Le dimensioni di un corpus possono variare dalle diverse centinaia di milioni di parole (come è il caso ad esempio della Bank of English[1] o del corpus di lingua tedesca conservato presso l'Institut für Deutsche Sprache a Mannheim in Germania)[2] a poche migliaia di parole (cfr. Ma 1993, Aston 1997) a seconda degli scopi e delle applicazioni. Un corpus può essere utilizzato per analizzare fenomeni generalizzabili ad una lingua nel suo complesso, a una sua varietà o tipo testuale, oppure per analizzare la produzione di un determinato autore o per ricavare la terminologia contenuta in un preciso numero di testi. "The appropriate design for a corpus … depends on what it is meant to represent" (Biber, Conrad e Reppen 1998: 246). I primi progetti che hanno portato alla costituzione di corpora inglesi monolingui (Brown Corpus, LOB Corpus),[3] così come molti recenti progetti basati su corpora di ampie dimensioni (ad esempio il British National Corpus),[4] mirano a rappresentare quanto più possibile la lingua nel suo complesso, e si pongono in questo modo come "corpora di riferimento generale". Un primo criterio per determinare la composizione di un corpus consiste nello stabilire la natura delle diverse componenti che lo costituiranno. L'identificazione di categorie di testi omogenei dipende naturalmente dalla tipologia testuale adottata (Sinclair 1995), la quale a sua volta determinerà i risultati della ricerca. Un secondo criterio che solitamente contribuisce a definire la composizione di un corpus è dettato da motivazioni di carattere pratico, ovvero dalla disponibilità effettiva di testi in formato elettronico. Ad esempio, nei grandi corpora linguistici di riferimento a cui si è accennato vi è una riconosciuta sproporzione tra testi scritti e (trascrizioni di) testi orali, la prima suddivisione tipologica solitamente attuata nei confronti di una lingua.
Un corpus può contenere testi appartenenti a due categorie: testi digitali "nativi" (testi HTML per Internet, enciclopedie su CD-ROM ecc.) o versioni digitali di testi apparsi in altri media (testi a stampa, trascrizioni di testi parlati ecc.); non sempre tuttavia è facile delimitare un preciso confine tra i due tipi, dato che i testi a stampa attraversano ormai nella quasi totalità una fase di elaborazione elettronica. La "traduzione" nel formato elettronico, ovvero la trasposizione di segni sulla carta in impulsi digitali, comporta, come tutte le "traduzioni", una trasformazione dell'oggetto tradotto. Nel caso di testi "tradotti" in versione digitale, si pone la questione di quale rapporto si viene a creare tra il "testo di partenza" e "il testo di arrivo", così come per tutte le istanze di "traduzione" tra media diversi. La questione è particolarmente rilevante per i testi orali, in cui è evidente il peso esercitato dai criteri di trascrizione nel passaggio dal parlato allo scritto prima ancora che ad una versione digitale del testo scritto. Anche nel passaggio dal supporto cartaceo a quello digitale vi è sempre però un fattore di interpretazione esercitato da chi crea il testo elettronico. Un testo elettronico è un prodotto diverso dal "testo originale" cartaceo; ai fini della ricerca di tipo linguistico, le differenze possono essere viste in due prospettive. Continuando ad utilizzare una terminologia "traduttiva", si può distinguere tra "perdite" e "guadagni": il testo elettronico può perdere informazioni sul contesto di fruizione originario del testo a stampa, come ad esempio informazioni date dalla giustapposizione di due pagine o, in generale, da informazioni di tipo grafico; d'altra parte, il testo elettronico può venire arricchito con l'aggiunta di informazioni non presenti nel testo a stampa e che rendono esplicita una determinata interpretazione da parte di chi crea la versione elettronica, come ad esempio informazioni relative all'analisi sintattica, lessicale o semantica dei testi (cfr. McEnery e Wilson 1996), oppure all'analisi dei meccanismi che ne assicurano la coesione (cfr. Biber, Conrad e Reppen 1998). La codifica di un testo elettronico, effettuata in modo più o meno automatico, è però sempre il prodotto di interpretazioni dei testi che possono differire notevolmente a seconda degli scopi dell’analisi.
L'utilità di un corpus in formato elettronico consiste nella possibilità di esaminare grandi quantità di dati in maniera sistematica. A questo scopo il ricercatore ha a disposizione due strumenti principali: l'analisi dei dati statistici (misure di densità lessicale, distribuzione statistica di determinati fenomeni linguistici, ecc.) e l'analisi manuale delle concordanze (la possibilità di esaminare le occorrenze di determinate parole o sintagmi e manipolarle in base all'immediato contesto linguistico). Il tipo e la profondità dell'analisi che si può effettuare su un corpus dipenderanno, oltre che dalla composizione del corpus stesso, dal tipo di codifica effettuata e dai programmi utilizzati.
[3] Questi primi corpora, la cui ideazione risale agli anni '60, contengono ciascuno un milione di parole circa. Cfr. Biber, Conrad e Reppen 1998.
[4] Il British National Corpus (BNC) contiene circa cento milioni di parole. Cfr. Aston e Burnard 1998.