Teknologia albisteak
2

Google Translate zerbitzuak ez daki euskaraz

Erabiltzailearen aurpegia
Kepa Sarasola. Ixa taldea
2009-09-25 : 10:09

Gaur egun 51 hizkuntza darabil Google Tranlate arrakastatsuak itzulpenak egiteko, baina horien artean ez dago euskara. Baliabide gutxiagoko hizkuntza batzuk sartuta daude lista horretan; uda honetan bertan gehitu dituzte galegoa, galesera, gaelikoa eta islandiera (320.000 hiztun); aurreko urtean gehitu zuten katalana. Orduan, zergatik ez dute sartzen euskara? Arrazoiak bi izan daitezke: hizkuntza oso diferentea delako eta testu elebidun gutxi dutelako.

Lehen autogintzan GT laburdura "auto handiak" aipatzeko zen, orain baina, itzulpengintza automatikoan oso indartsu azaldu den Google Translate aipatzeko ere erabiltzen da. Itzulpengintza automatikoaren aro berri bat zabaldu du GT zerbitzuak. Zerbitzua arrakastatsua izan da, munduko hainbat pertsonarentzat erabilgarri suertatzen ari da, askorentzat GT izan da modu praktikoan gustura erabili duten lehen itzultzaile automatikoa. Emaitza ez da perfektua baina bai balekoa erabilpen batzuetarako, hizkuntza arrotz bateko testu bat gutxi-gorabehera ulertu ahal izateko, edo itzulpen-zirriborro moduan hartzeko.

Hala ere, zenbait hizkuntzatarako emaitzak ez dira hain onak. Eta, bestalde, zenbait aditurengan kezka bat sortu da: GT zerbitzuak lortuko balu Google bilatzaileak lortu duen nagusitasuna, ea orduan pribatua den ekinbide honek ezabatuko lituzkeen orain arteko itzulpengintzako ekinbide publikoak eta ikerketa akademikoak. Beste tresna batzuk hobeak dira orain, baina desagertu litezke Google markaren tiradaren ondorioz. Halaxe azaltzen du bere kezka Hegoafrikako Friedel Wolff -ek:

  • "It doesn't matter all that much how good or bad this is. Because it caries the Google name, and will be integrated with other Google services, it will probably become the machine translation system that people will use."

Baina, zergatik ez dute sartzen euskara?

Googlerentzat zerbitzu hori sortzea posible izan da bere konputazio-ahalmen handiari esker, itzulpenerako metodo estatistiko berrien gaineko "fitxajeei" esker (F. Och ), eta Googlek testu elebidun andana lortzeko duen kokapen pribilegiatuari esker. Baina kontuan hartu behar da emaitza txukunak lortzeko oso bolumen handiko corpus elebidunak behar direla. EuroParl corpusak, Europako Legebiltzarraren itzulpen-bildumak, 30 bat milioi hitz du hizkuntza bakoitzeko. Corpus publikoa da, baina hizkuntza ofizialetarako bakarrik, euskara bezalakorik ez da hor azaltzen. Dirudienez Google-k ez du tamaina horretako corpusik lortu euskararako.

Eta zer tamainako corpusa beharko litzateke euskara-espainiera edo euskara-ingelesa itzulpenean emaitza txukunak lortzeko?

Aipatu izan da noizbait 30 bat milioitik gorako bolumena (~EuroParl -ena) behar dela sistema sendo bat eraikitzeko garantia moduan, beti ere egitura antzekoak duten hizkuntza bikoteetan. Euskaraz aritzen garenok, partaide askoren laguntzarekin ere, nekez eskura dezakegu 20 bat milioi hitzeko corpus elebiduna. Gainera, euskara flexio handiko hizkuntza eta hurrenkera askekoa denez, zailtasunak handitu egiten dira hitz itzulien maiztasuna dezente jaisten delako. Horren ondorioz, antzeko kalitateko emaitzak lortzeko testu-bilduma handiagoak erabili beharko dira gurean , hamar aldiz gehiago agian. Beraz, ingelesetik frantzeserako itzulpenean 30 miloi hitzekin lortzen den kalitate bera lortzeko, espainiera-euskara bikoterako 300 miloi-hitz beharko zirela estimatzen da, ... eta nekez eskura dezakegu 20 bat milioi!

Beraz, hor dago kexka. Corpus elebiduna biltzea oso inportantea da, eta corpus hori publikoa izatea (eta ez bakarrik Google-rena) erabaki estrategikoa izan daiteke alor honetan. Erakunde publikoek bultzatu beharko lukete corpus elebidun publiko horren bilketa, ez da?

Erantzunak

Inaki Irazabalbeitia, Eleka
2009-09-25 : 11:29

Erabat ados zurekin Kepa euskararen eta beste hizkuntzen arteko corpus paralelo elebidun handiak behar behar ditugula itzulpen automatikoan aurrera egiteko eta are adosago horiek publikoak behar dutela izan, bereziki erakunde publikoetan badute jatorria. Edonork baliatzeko modukoak izan beharko lirateke. Itzulpengintza automatikoan beste batzuk aspaldi dihardugu eta motor estatistikoekin ere lanean ari gara.



Zentzuzkoa ez litzatekeena izango, blog honetan proposatu izan den moduan, corpus elebidun horiek Googlei soilik helaraztea eta, iradokitzen zenez, doan.

Benito
2009-09-25 : 11:31

Jakin ez, baina ezagutu bai. Euskarazko testu bat sartzen baduzu eta jatorrizko hizkuntzaren menuan "detect language" aukeratzen baduzu, honelako mezu bat irtengo zaizu itzultzeko botoiari sakatu ostean: "We are not yet able to translate from Basque into English."

Erantzun

Sartu