Perché i corpora sono fondamentali per un’appropriata preparazione di un sistema di traduzione automatica.

I processi di traduzione come quello utilizzato da Skype Translator sono stati semplificati grazie all’utilizzo in epoca moderna di una grande quantità di corpora elettronici che risultano fondamentali nei processi di training delle macchine (Palmer, 2010:238). I corpora vengono utilizzati per allenare i sistemi di Machine Translation (MT) ad una migliore comprensione dei testi di partenza e ad una conseguente migliore resa del messaggio nella lingua d’arrivo, oltre ad aumentare il database di termini riconoscibili e traducibili.

I corpora, in quanto grandi database di fonti in una data lingua, non possono rappresentarla totalmente, soprattutto se si tratta di lingua parlata. Ad esempio, gli sviluppatori di Skype Translator sono sempre alla ricerca di nuovi feedback degli utenti per migliorare i propri corpora, che risultano fondamentali nei processi di training. Ladha afferma che le fonti utilizzate per il training del programma derivano da pagine internet, video sottotitolati, social media, conversazioni tradotte e conversazioni via Skype sia acquisite durante il periodo in cui il programma era in preview, sia da conversazioni precedenti (2014). Il punto a favore di questi dati è che essi rispecchiano un tipo di linguaggio molto più colloquiale e rispetto a dei corpora predefiniti che basano le proprie fonti su testi scritti. La loro importanza è data non tanto dalla loro grandezza, ma dal numero di token presenti all’interno di essi.

È necessario introdurre alcuni concetti fondamentali: nel linguaggio informatico per lessemi si intendono le classi astratte delle parole e tutte le loro forme flesse. Ogni lessema, che nella forma di citazione all’interno di un dizionario è detto lemma, può ricorrere più volte all’interno di un testo, e tali occorrenze sono dette word token. Le forme delle parole diverse sono indicate come word types, ossia tipi di parole (Chiari, 2007).

La maggior parte dei corpora utilizzati nei processi di MT sono definiti dinamici, in quanto prevedono una periodica raccolta e analisi di nuovo materiale che si aggiunge ai corpora già acquisiti dalla macchina. Essendo una lingua, in quanto tale, in continua evoluzione, ha bisogno di aggiornamenti costanti per tenere in considerazione probabili nuove varianti lessicali e sintattiche. Nel caso dei corpora di parlato è necessario digitalizzare il materiale audio e stabilire uno standard di trascrizione delle registrazioni, o rifarsi agli standard predisposti per progetti già avviati (Chiari, 2007). I corpora elettronici sono sequenze di caratteri codificati, quindi è essenziale stabilire delle regole per il trattamento dei suddetti caratteri. Ogni regola deve tendere a non creare ambiguità, quindi è necessario creare degli insiemi che istruiscano la macchina su qualsiasi tipo di carattere presente all’interno di un dato corpus (Chiari, 2007).

Una grammatica di partenza imposta delle regole precise sul processo di traduzione e, nel caso di Skype Translator, tali processi di riconoscimento possono essere intesi più come corpus-driven che corpus-based. Questa ipotesi si fonda sul presupposto che i sistemi di machine learning presenti in Skype Translator siano semi-automatici, se non del tutto automatici. Non è esclusa la presenza di errori all’interno dei corpora o nel processo di machine learning: essi, soprattutto nei casi di corpora dinamici, verranno eliminati sempre in modo manuale o semi-automatico.

Gli errori principali di traduzione sono da individuare tra i seguenti: ambiguità sintattica, ambiguità di senso, omonimie, ambiguità anaforica, input incompleto. Dati questi errori come i più ricorrenti all’interno dei processi di MT, è ovvio che corpora più grandi, con un maggior numero di token, diano la possibilità alla macchina di avere maggiori informazioni riguardanti ogni singola occorrenza e quindi riescano a contestualizzarla all’interno di enunciati più complessi, riducendo il margine d’errore. Si tenga in considerazione che, in quanto si tratta di traduzioni e non solo processi di riconoscimento di una data lingua, il processo di apprendimento e formulazione di enunciati da parte della macchina gode anche della presenza di un corpus parallelo, allineato e già tradotto nella lingua d’arrivo.

La presenza di un corpus parallelo e il training mediante corpora della macchina garantisce alla MT di apprendere dall’esperienza le modalità di traduzione degli enunciati (Chiari, 2007). In conclusione, un software di traduzione, attingendo costantemente da nuove fonti sotto forma di corpora, nonostante possa contenere degli errori, può essere costantemente migliorato e corretto, quindi la qualità del suo sistema tende a migliorare con il passare del tempo (Niremburg, 1992).

Il caso specifico di Skype Translator dimostra come l’uso dei corpora sia fondamentale per risolvere alcuni aspetti specifici dell’interpretazione, come ad esempio i problemi relativi alle disambiguazioni e l’identificazione di legami tra diversi lessemi e il riconoscimento dei ruoli semantici (Fox, 2010); inoltre la maggior parte delle tecniche che implicano l’utilizzo di corpora presuppongono che almeno alcuni degli aspetti relativi al significato di un dato lemma sono implicitamente racchiusi nella posizione del suddetto all’interno di un enunciato (Fox, 2010).


References:

Chiari, I. (2007). Introduzione alla linguistica computazionale. Bari: Gius. Laterza & Figli Spa.

Fox, C. (2010). “Computational Semantics”. Clark, A. & Fox C. & Lappin S. a cura di. The Handbook of Computational Linguistics and Natural Language Processing. West Sussex: Wiley- Blackwell, 394-428.

Lahda, M. & Wendt, C. (15/12/2014). “Skype Translator – How it Works”, Skype Blogs.

Nirenburg, S. & Carbonell, J. & Tomita, M. & Goodman, K. (1992). Machine Translation: a knowledge-based approach. San Mateo: Morgan Kaufman Publishers.

Palmer, M. & Nianwen X. (2010). “Linguistic Annotation”. Clark, A. & Fox C. & Lappin S. a cura di. The Handbook of Computational Linguistics and Natural Language Processing. West Sussex: Wiley- Blackwell, 238-270.