vai alla sezione precedente

Il corpus inglese

Vai alla sezione successiva

Il corpus di riferimento per l'inglese è stato ricavato selezionando alcuni testi dal British National Corpus fino a raggiungere un numero di parole complessivo comparabile a quello del corpus di riferimento italiano, ovvero circa 840.000 parole. I testi inglesi sono stati scelti selezionando in un primo momento venticinque testi scelti in modo casuale all'interno della componente del BNC denominata "imaginative". I testi ottenuti sono stati poi manualmente controllati per ottenere infine un gruppo di venti, composti esclusivamente da opere narrative pubblicate. Tra questi, sei sono testi interi, mentre gli altri 14 sono estratti parziali (samples). Mediamente ciascun testo elettronico contiene 40.000 parole. Tutti i testi sono stati pubblicati tra il 1986 e il 1993. La tabella che segue riassume la composizione del corpus inglese.

Le differenze tra i due corpora riguardano innanzitutto la qualità dei testi elettronici: i testi contenuti nel BNC sono di qualità alta e uniforme, mentre il testi italiani sono di qualità non sempre buona (testi non "ripuliti" dopo il riconoscimento ottico, diversi formati). Il corpus di riferimento inglese è più vario ma meno "completo" di quello italiano, contenendo un maggiore numero di testi ma non tutti completi come invece quelli contenuti nel corpus di riferimento italiano. I venti testi inglesi sono maggiormente uniformi come dimensioni e genere testuale, e sono stati prodotti in un arco di tempo più limitato di quelli italiani. Date tali limitazioni, le verifiche sulla lingua di arrivo (l'italiano) hanno solamente un valore indicativo, di ipotesi che necessitano di essere verificate con strumenti più solidi. Più attendibile è forse il riferimento all'inglese, anche per la comparabilità con dati derivati da altri studi (norvegesi, mancuniani).

 

Il corpus di riferimento inglese

 

 

Titolo

Autore

Anno

Nome file

N. parole

caratteristiche

1    

A dangerous diagnosis

 Jean Evans

 1993

 JXW

 49.000

 full text

2    

A Song Twice Over

 Brenda Jagger

 1986

 H7P

 31.000

 sample

3    

Birdsong

 S. Faulks

 1993

 FNV

 41.000

 sample

4    

City of Dreams

 Gill Anton

 1993

 H84

 41.000

 sample

5    

Diggers

 Terry Pratchett

 1992

 HTH

 33.000

 sample

6    

Freelance death

 Andrew Taylor

 1993

 GUU

 40.000

 sample

7    

Gemini girl

 Liza Goodman

 1992

 H8J

 48.000

 full text

8    

Gridlock

 B. Elton

 1992

 FPS

 39.000

 sample

9    

Guilty Knowledge

 Leslie Grant-Adamson

 1988

 GV2

 43.000

 sample

10                 

Ransacked heart

 Jane Bowling

 1993

 H9L

 53.000

 full text

11                 

Ratking

 Michael Dibdin

 1989

 HTT

 42.000

 full text

12                 

Rebel Angel

 B. Wood

 1993

 G1L

 44.000

 sample

13                 

Red Bride

 C. Fowler

 1993

 G1K

 41.000

 sample

14                 

Ring of red roses

 Eddy Shah

 1992

 CML

 35.000

 sample

15                 

Thank you for having me

 Maureen Lipman

 1990

 H9Y

 46.000

 sample

16                 

The lost prince

 B. Wood

 1992

 G10

 34.000

 sample

17                 

The Lucky Ghost

 Eddy Shah

 1993

 GOL

 40.000

 sample

18                 

The spice of life

 Caroline Anderson

 1993

 JYB

 47.000

 full text

19                 

Topaz

 Pamela Bennetts

 1988

 EVC

 36.000

 sample

20                 

Wilder's wilderness

 Miriam Macgregor

 1993

 HHB

 58.000

 full text

Totale

Ca. 843.000 parole

Vai alla sezione successiva