Il programma utilizzato per il riconoscimento ottico (Caere Omnipage 8.0) è considerato uno dei più avanzati al momento della sua immissione sul mercato e vanta percentuali di accuratezza superiori al 98%. Questo significa che se una pagina contiene mediamente circa 2000 caratteri[1] e in ogni pagina ci saranno circa 40 caratteri errati, risultanti in parole "sbagliate" o caratteri di paragrafo introdotti erroneamente. A questo si devono aggiungere problemi relativi alla mancata acquisizione di intere righe o lettere in termine di riga nelle pagine centrali di volumi particolarmente spessi e "refrattari" alle superfici piane dello scanner. La qualità, e quindi il tempo necessario alla ripulitura e la percentuale di accuratezza finale, dipende in primo luogo della qualità della stampa e dello stato di conservazione del volume. Ad esempio, la copia di Midnight's Children utilizzata ha posto alcuni problemi in quanto un po' consunta dal tempo e stampata a caratteri molto piccoli. Anche la copia de I figli della mezzanotte, pur fresca di stampa, ha richiesto tempi di "ripulitura" superiori alla media, per la dimensione dei caratteri e la qualità della carta (si tratta di un'edizione economica) oltre che per la normale minore accuratezza riscontrata nell'acquisizione di testi in lingua italiana. Infatti, nonostante il programma sia predisposto per la lavorazione di testi in lingue diverse, la traduzione in formato elettronico dei caratteri accentati, presenti in percentuali molto superiori nei testi italiani, si è rivelata in alcuni casi problematica.
Ogni testo è stato quindi sottoposto a lettura cursoria sullo schermo del computer, utilizzando lo strumento di correzione ortografica presente nel programma di videoscrittura Microsoft Word 97, sia per i testi inglesi che per quelli italiani. Lo strumento di correzione ortografica confronta automaticamente tutte le parole di un testo con una lista di parole inclusa nel programma, evidenziando con una sottolineatura rossa ciascun caso di mancata coincidenza. In questo modo ad esempio, in una normale pagina di un romanzo di Rushdie acquisita con lo scanner sono evidenziati tutti (o quasi) i nomi propri, neologismi o parole a frequenza molto bassa e parole che contengono caratteri non acquisiti correttamente, a condizione che non si tratti di omografi o lettere singole. Ad esempio, viene evidenziata la parola "fannly" (family) in cui i caratteri "mi" sono stati riconosciuti erroneamente come "nn", ma non la parole "want" se nell'originale c'era "went". La possibilità di creare delle liste di parole a discrezione dell'utente ("dizionari personalizzati") ha consentito di eliminare progressivamente l'evidenziazione dei nomi propri ricorrenti, oltre a produrre una lista delle parole presenti in ciascun testo e non appartenenti alla lista generale presente dal programma di videoscrittura.[2]
Il testo a schermo è stato scorso unitamente e contemporaneamente al testo stampato, per un maggior controllo e per rilevare differenze tipografiche dovute a introduzione di caratteri di paragrafo e mancanze di corrispondenza macroscopiche (ad esempio pagine o righe mancanti). Altri errori particolarmente ricorrenti e difficilmente rinvenibili ad una lettura cursoria sono stati corretti in maniera sistematica, cercando ad esempio nel testo tutte le occorrenze della lettera "P" isolata in inizio di frase, nei testi italiani spesso venuta a sostituire il carattere "È", oppure mancate corrispondenze nei segni di punteggiatura. Un controllo finale è stata inoltre effettuato durante la fase di allineamento dei testi bilingui paralleli, intervenendo sui testi già sottoposti a codifica. È difficile calcolare esattamente la percentuale di accuratezza ottenuta alla fine del processo, ma un dato è desumibile dal controllo effettuato sulle prime dieci pagine del testo inglese di Grimus, in cui sono stati riscontrati otto errori, corrispondenti a una percentuale di accuratezza del 99, 8 per cento sul numero totale di parole.
Durante la fase di ripulitura sono stati inoltre inseriti manualmente alcuni codici di cui non sarebbe stato possibile (o sarebbe risultato estremamente laborioso) l'inserimento automatico, quali i numeri di pagina, le divisioni interne del testo superiori al paragrafo e le note. Una volta ripuliti i testi sono stati codificati e validati secondo gli standard TEI Lite (cfr. la codifica e l'allineamento del corpus parallelo)
Per quanto riguarda invece il tempo impiegato nella fase di ripulitura è stato calcolato (tenendo conto anche della battitura di alcune pagine incidentalmente omesse durante la scansione dei testi cartacei, e di tutte le operazioni secondarie come la gestione dei files) una media di circa un minuto e mezzo / due minuti a pagina, per un totale di circa 110 ore. La tabella ripulitura dei testi elettronici riassume i tempi necessari per la ripulitura delle versioni elettroniche.
Ripulitura dei testi elettronici
Ripulitura dei testi scannerizzati |
|
Pagine |
4412 |
Ripulitura ciascuna pagina |
1 minuto 30 secondi |
Tempo totale |
circa 110 ore |
In totale quindi il tempo impiegato per arrivare dal testo stampato al testo elettronico (in formato solo testo) è stato di circa 200 ore, che diviso per il numero delle pagine significa una media di circa 2 minuti e mezzo per pagina.
[1] A questa cifra si arriva dividendo 1.583.300, il numero totale delle parole, per 4412, il numero delle pagine. Si ottiene così una media di circa 360 parole a pagina, corrispondenti a circa duemila caratteri.
[2] Quest'operazione è stata portata a termine anche in previsione di utilizzare tali liste in una fase successiva di analisi del corpus.