Teknologia albisteak
1

Elekak aplikazio bat sortu du euskal testuak eskaneatzeko

Erabiltzailearen aurpegia
Dick Turpin
2003-04-24 : 18:04

Elekak gehigarri bat landu du euskarazko zuzenketak egiteko OmniPage programan, OCR aplikazioetan gehien erabiltzen den programan, alegia.

Gregorio Hernandezek aurkeztu zuen, Eleka enpresaren izenean, Informatikari Euskaldunen IV. Bilkuran.

OCR

OCR edo Karaktere Errekonozimendu Optikoa teknologia bat da, aukera ematen diona idazteko programari irakurtzeko testu bat lehendik paperean inprimaturik dagoena, norberak hitzik idatzi gabe. Hori egiteko, OCRk behar ditu eskanerra eta programa bat. Eta hauen artean OmniPage da erabiliena.

Beste OCR programak bezala, OmniPage ere prestatuta dago hizkuntza nagusiekin lan egiteko. Enpresaren esanetan, software horrek 114 hizkuntza antzematen ditu (tartean euskara), baina Gregorio Hernandezek dio ez daudela prestaturik hitzak euskaraz egiaztatzeko eta zuzentzeko, irudiak letra bihurtu behar direnean.

Euskararen kasuan hutsune hau are nabarmenagoa da, besteak beste euskaraz egiten diren hitz elkarketak (ts, tz, tx edo marrak erabiltzerakoan) ez direlako hain arruntak Europako beste hizkuntzetan. OCR sistemek ez dute erabiltzen euskarazko hiztegirik konparazioak egiteko garaian, eta are gutxiago lematizazio edo zuzenketa algoritmo egokiturik ere.

Horregatik, orain arte erdal hizkuntza bateko hiztegia erabili behar izan da euskarazko testuak eskaneatzerakoan, hitzak onartu ala ez onartzeko. Hala ere, egokiagoa zen erdal hiztegirik ez baliatzea, erabiltzailea ez nahasteko. Adibidez, euskarazko testu bat eskaneatzerakoan erabiltzen ari bagara ingelesezko informazioa, seguruenik “sei” hitza agertzen den guztietan OCRk ordezkatuko du “set” hitzarekin.

OCR euskaraz

Egoera aldrebes hori konpontzeko, Elekak plug-in edo gehigarri bat garatu du, euskarazko zuzenketak egiteko OmniPage programan. Elekak euskararen informazio morfologikoa gehitu dio programari, euskarazko testuak ahalik eta hobekien digitalizatzeko.

“Dena dela”, esan zuen Gregorio Hernandezek, “ulertzen dugu euskal merkatuko erabiltzaile gehienek ez dutela zertan erabili software hori, eta horregatik garatu dugu bigarren aukera bat, lehenengo honen osagarri moduan”.

Bigarren aukera hori izango da zuzentzaile bat, Worden eta OpenOfficen txertatuko dena. Horrela, euskaraz eskaneatutako testuak edozein softwarearekin eskaneatuko dira, Worden edo OpenOfficen.

Proiektu honek laguntza izan du Eusko Jaurlaritzaren Hizkuntza Politikaren Sailburuordetzarena, eta laster izango da kalean.

Hiztegien bilatzailea

Elekak garatu du beste proiektu bat, IEBen aurkeztu zena: hiztegien bilatzailea. Hau tresna bat da, aldi berean kontsultatzeko Euskadi.net webgunean dauden sei hiztegiak.

Jeneralean erabiltzaileak banan-bana egin behar ditu kontsultak hiztegi hauek kontsultatzeko orduan. Bilatzaile honen bidez, ordea, hiztegi guztiak aldi berean kontsultatu ahal dira, lematizazio eta guzti.

Eleka

Eleka enpresa proiektu bat da, IXA Taldeak eta Elhuyar Fundazioak sortua hizkuntza ingeniaritza egiteko: I+G+B irtenbide eleanitzak eskaintzen die jakintza kudeatu eta informazioaren teknologiak aplikatzen dituzten enpresa eta erakundeei.

Hizkuntza teknologietan espezializatu da eta irtenbideak bilatzen ditu dokumentuak kudeatzeko, hizkuntza analisiak egiteko, lematizatzeko, desanbiguatzeko, etab.

Erantzunak

Josu Waliño (ELEKA ingeniaritza linguistikoa)
2003-04-24 : 18:43

Goian aipaturikoa osatze aldera...

Euskal Herrian web guneen elebitasuna nagusi delarik, edozein hizkuntzatan nabigatzea erosoagoa izaten lagunduko duen tresna garatu du Eleka ingeniaritza linguistikoak: web-eko testuen itzulpena ematen duen tresna.

Tresna honek ez ditu web gunetako testuak osoki itzultzen, baina erabiltzaileei irakurketa errazten die. Sistema honek Euskara-Gaztelania Elhuyar hiztegia integratzen du edozein web gunetan, eta horren bidez, nahikoa da hitz bat hautatzea honen itzulpena jasotzeko.

Kontuan izanda Euskal Herrian web gune gehienak euskaraz eta gaztelaniaz daudela, hizkuntza batean zein bestean nabigatzen lagunduko digu. Horrela, euskarazko atalean gaudela hitz baten gainean kokatu eta hiztegia aktibatzen badugu, hitz honen gaztelaniazko ordainak jasoko ditugu. Eta gaztelaniazko atalean egonez gero, berdin, euskarazko ordainak jasoko ditugu.

Sistema hau dagoenekoz erabilgarri dago BBKren web gunean. Honela, BBKren web gunean nabigatzen ari den erabiltzailea edozein hitzen gainean kokatu eta F12 tekla sakatuz honen itzulpena jasoko du. Hiztegiaren kontsulta zuzena izan dadin, lematizazioa erabiltzen du hitzen erroa jaso eta bilaketa egin ahal izateko, bai euskaraz zein gaztelaniaz.

Hiztegien kontsulta hau laster egongo da Begira.com atarian ere erabilgarri.


Erantzun

Sartu