Teknologia albisteak
4

Twitter/Umap-en oinarritutako analitika: euskaldunen Interneteko informazio iturrien garrantzia

Erabiltzailearen aurpegia
2013-06-20 : 10:27

Euskarazko Twitterreko jardunaren behatzaile bat da Umap, CodeSyntax-en garatu duguna. Denbora errealean euskarazko jarioa monitorizatuz, eguneroko joerak edo trending topic-ak ateratzen ditugu. Era berean, tuiterlari euskaldunen ranking bat egiten uzten digu, eta ezagutza soziolinguistikoa ere atera daitekeela iruditzen zaigu. Gaur, datuetan antzeman dugun ranking posible baten berri eman nahi dizuegu, iturrien rankinga bihur daitekeenaren lehen begirada bat. Euskaraz txiokatzen dugunean, zein iturri informatibo ari gara erabiltzen eta partekatzen? Euskarazko Interneteko informazio zirkulazioaren analitika egin daiteke honela, CodeSyntax-en uste dugunez.

Maiatzeko datuak dira bildu ditugunak, publiko egin dugun kalkulu orri honetan. 275.000 txio detektatu genituen euskaraz, ia 5,000 laguneko euskaldunen komunitate aktibo baten txio guztiak zenbatuz. Lau datu nagusi neurtu ditugu:

  • Zenbat URL desberdin ageri diren domeinu batekoak
  • Domeinu horretako URLen inguruan zenbat txio izan diren
  • Zenbat jende desberdinek txiokatu duten domeinu bat
  • Txioak nolakoak izan diren: aipu zuzenak (RTak barne) edo URL baten ondotik etorri diren erantzunak


Eta datu horiek erkaketatik, zenbait proportzio atera ditugu, zeinetan interesgarrienak (gure iritziz) hauek diren:

  • Txio / url proportzioa (interes ratioa deitu diogu honi)
  • Erantzun / url proportzioa (eztabaida ratioa)


Daturik biribilena, txio kopuru absolutua iruditzen zaigu. Horren arabera, Youtube da gehien partekatzen duguna, eta ondoren datoz Berria, Argia, Eitb eta Naiz.info. (Youtuberen gainetik, taula originalean, beste domeinu bat dago: Twitter bera, baina hori ekuazioetatik kanpo utzi behar dela uste dugu, gehienbat irudiak txioetara itsastean sortzen diren URLak dira; agian beste azterketa baterako eman lezake horrek, txio grafikoen analisia...).

Hona taula batean, goiko posizioetako zenbait webgune nola geratzen diren.



Taula honetan, lehen zutabearen araberakoa da ordena nagusia: zenbat txio jaso diren. Baina 2. eta 3. zutabean ere bada datu esanguratsurik: zenbat URL desberdin banatu diren, eta proportzioa lehen datuarekiko.

Hau da, Argiak 438 URL desberdinekin 3.600 aiputik gora lortu ditu, eta EITBk, aldiz, eduki gehiagorekin (1.354 URL desberdin), aipu gutxiago lortu ditu. Bataren eta bestearen arteko proportzioari interes ratioa dei dakiokeela uste dugu. Argiak zabaltzen duen URL bakoitzeko 8.45 txio lortzen ditu, eta EITBk 2.55 bakarrik.

Datu guztiak batuta, 3.19koa da interes ratio ertaina, URL tipikoak lor dezakeen txio kopurua. Sailkapenean goian dauden tokien artean, Argiak eta Topatu.info-k dute interes ratio handiena; txikiena, berriz, Instagramek: zuk uste duzu Instagramekin egiten dituzun argazkiak txuloak direla, baina ez dirudi zure jarraitzaileak iritzi berekoak direnik.

Taulan beherago begiratuta, interes ratio nabarmen altuak diren domeinu gehiago agertzen zaizkigu (txio gutxirekin, desorekak ohikoagoak lirateke estatistikoki). Baina horietako batzuk, Eraldalab.net, Jakintzalibre.org eta Larrabetzu.org esate baterako, 20 puntu inguruko interes ratioekin daude, eta horrek zera iradokitzen digu: gertaera zehatzekin (jardunaldi bat, adibidez) erlazio zuzena adieraz dezaketela hauek. Ikusiko dugu hurrengo hilabeteetan joera errepikatzen den.

Beste proportzio interesgarri bati, eztabaida ratioa deitu diogu. Gure sistemaren txio zenbaketa bikoitza da, neurtzen dugu

  • URL bat zenbaten agertu den aipatua zuzenean (bertxioak barne)
  • URL bat aipatu ondoren, atzetik datozen erantzunak

Aipatu den URL bakoitzak zenbat erantzun izan dituen neurtuta, beste datu esanguratsu bat irteten dela iruditzen zaigu, horri deitu diogu eztabaida ratioa. Proportzio honetan ere, berriro, Argiak ratio nabarmen altua dauka: 0.90koa. Aldiz, interes ratio nabarmena duen beste webguneak, Topatu.info-k, ez: 0.22. Jendeak askok zabaltzen du Topatuko informazioa, baina ez da haren inguruan eztabaidarik edo iruzkin gehigarri askorik sortzen; bai ordea Argiako edukiarekin (are gehiago, izatez, Youtubekoarekin!).  Agian elkarrizketa ratioa ere dei genieziokeen honi, edo elkarrizketa pizteko gaitasuna.

Bi ratio hauen erkaketa eginez, eta taula osoaren lehen postuetatik ingelesezkoak kenduta, nabarmentzen diren domeinuak honela geratzen zaizkigu grafikoan (tamainak txio kopurua adierazten du):



Eduki interesgarriena Argiak ematen du, eta erantzun kate gehien sortzen duena da. Topaturen puntua, aldiz, behean geratzen da, eztabaidarik edo elkarrizketarik ez duelako neurri berean eragiten. Berria, eskala bietan "apalago" egon arren, oso ondo kokatzen da gainerako webguneen posizioarekin alderatuz gero, eta "pilota" potoloena ere berak duela begibistakoa da: Interneten partekatzen den euskarazko edukian preeminentzia garbia du Berri.info-k; hedabide honek 10. urteurrena bete behar duen honetan, nabarmentzeko modukoa iruditzen zaigu. Sustatu eta Zuzeu, kopuruz eta kokapenez, antzekoak dira, baina interesgarriagoa dirudi Zuzeuk.

Ezkerretan, goian, erdarazko bi hedabide ageri dira, Diario Vasco (ia taulatik kanpo) eta El Pais, ez dira txio askotan agertzen, eta ondorioz, "ez dute interesik", baina komatxo artean jarri behar dugu hori, esan nahi duena baita euskaraz idatzita dauden txioetan ez dela toki horietako URL asko partekatzen. Aldiz, bi medio horiek erantzun kopuru majoak sor ditzakete euskaraz; gaztelaniazko edukiaren gainean gauzak komentatzeko ohitura badugula erakusten du datuak, gure iritziz.

Gure irakurketa hauek tentatiboak dira. Apirilean egin genuen lehen datu erauzketa bat (eskematikoa, hemen zabaldu ez duguna). Hura ikusita, maiatzean datu gehiago ateratzea erabaki genuen: horiekin egin dugu gaurko analitika ariketa. Gure helburua da sistematizatzea datu erauzketa hurrengo hilabeteetan, lehen zantzu hauetan esanguratsuak iruditu zaizkigun gauzak baieztatzen diren ala ez ikusteko. Domeinuen eboluzioa ere jakingarria izango da. Era berean, automatizatuz gero, Umap-eko erabiltzaile-rankinga daukagun bezala, informazio iturrien ranking bat ere eratu daitekeela uste dugu.

Hortxe duzue taula osorik, beste irakurketa eta grafiko batzuk egin nahi badituzue.

OHARRA (1): Kalkulu-orriari erreparatzen badiozue, ikusiko duzue goiko koadro laburtuan ez ditugula sartu han goi-goian daude domeinu batzuk, hala-nola wordpress.com. Izatez, domeinuen eta azpidomeinuen araberako sailkapen bikoitzak egin daitezke, baina lehen datu-bilketa honetarako, domeinu nagusietan fijatu gara. Zergatik? izatez, Berriako edukiak bi domeinutan banatzen dira sarean paperekoa.berria.info eta berria.info (lehenbizikotik gehiago, gainera), eta Naiz.info bezala, gara.naiz.info ere askotan agertzen da. Eduki iturri horiek batzeko, azpidomeinuak alde batera utzi ditugu. Kontrako efektua da, wordpress.com-eko blog guztiak pilatuta agertzen direla, eta com.es lerroan agertzen direnak ere, nagusiki Blogspot-eko blogak direla, denak batuta. Datu esanguratsu eta konpletoak lortzeko, bi sailkapenak posible izatea onena, eta estatistika hauek sistematizatzeko ditugun asmoetan, bi datuak ikustaraztea da gure helburua datozen hilabeteetarako.

OHARRA (2): Artikulu honetako 1. eta 3. grafikoetan, ardatz horizontalak eskala logaritmikoan daude marraztuta.

Erantzunak

2013-06-20 : 12:01

Lehen irakurketa baten.... Txioak eta txiolariak ikus-irakurrita twit-ero asko baino erakunde komunikatzaile twiterlari asko dagoela ematen du ezta? Eta azaltzen (saiatuko) naiz.

IKUSPEGI KOMUNIKATIBOA?
Nire ikuspegi pertsonaletik begiratuta, euskal twiterlarien rankina gainbegiratuz (http://umap.eus/ranking), lehen hamarrak "erakunde komunikatzaileak" dira Maddalen Iriarte kenduta (kazetari bikaina egia esan, erakunde komunikatzaile batean lanean dagoela) .

Lehenengo hogei "twit-eroak" ikusita, berriro erakunde edo "talde komunikatzaileak" dira, edo berauetan lanean dauden kazetariak, unibertsitateko irakasle bat eta esperientzi handiko idazle bat salbu.

Berriro diot, neure ikuspegitik, eta lehen begirada/irakurketa arin baten, pertsonen tresna izan daitezkeen web20ko lanabesak, erabiltzaile xumeen eskuetan jartzen diren tresna komunikatiboak, lehendabizi "erakunde komunikatzaileek" erabiltzen dituzte: erabili diot, zentrurik onenean: informazioa gizartearekin partekatzeko, komunean jarzeko.

Eta normala denez, helburu hori lortzeko jendea daukate: komunikatzeko, edozein delarik bidea; nola ez, biderik efektiboena jendearengana iristeko: txioak ;-)

Beste komunikalariok, pertsona komunikatzaile arruntok, txiokatu egiten dugu, bai; eta komunikazioaren baso horretan, gure txioak ere egongo dira, askotan lehen txiolari hauen oihartzuna izanik.

LANA BALORATUZ
Egiten duzuen ikerketa-lana-ahalegina interesgarria iruditzen zait, panorama osoaren ikuspegia izateko. Eta komunikazioaren ikuspuntutik nor den nor, edo hobeto esanda nor den txiolaria eta zein oihartzun duen jakiteko.
Mila esker ;.-)

2013-06-20 : 14:25

Datu base horretan publikoak egin diren maiatzeko datuei begiratuz, eta zerrendako dominio garrantzitsuenak hartuta, ematen diren bi ratio berriekin - interes ratioa eta eztabaida ratioa - sor daitezkeen rankin bietan ia dominio berdinak ageri direla ikus daiteke. Eta ia posizio berdina dute dominio edo medio horiek.

Ikus Top10-a rankin bietan:

Baina, dominioen zerrenda apur bat zabalduz gero, denak hartu gabe, adibidez gutxienez 100 txio inguru izan dutenei zabalduta, behintzat maiatzeko datu hauekin, zerrenda bietako dominioak aldatu egiten dira.

Azpiko taulan ikus daitekeenez, ohiz kanpoko zenbait dominio/medio izen berri sartzen dira Top10-ean.

Itxuraz behintzat, bigarren rankin hauetako posizioak egonkortasun gutxiago izan dezaketela aurreikus daiteke. Gehiago une bateko, kasu honetan hilebete horretako, indarra eta Interneteko sare sozialetako - twitterreko -, gaurkotasuna adierazten dutela pentsa daiteke.

Hurrengo hilebetetako bilakaera jarraitu beharko da. Agian hilebetero aldatzen joango dira "interes ratio" eta "eztabaida ratio" hauekin osatutako rankinak edo igoal ez.

Buff, tesi edo tesina egiteko adina materiala argitaratu dena :-)

2013-06-20 : 14:44

Galdera bi:

Goiko posizioetan agertzen diren 18 webguneetatik (edo Josi Sierrak dioen bezala, "erakunde komunikatzaileetatik”), euskara hutsez 7 ari dira: argia, berria, topatu, zuzeu, goiena, sustatu, ukberri; erdia pasata beraz. Hein baten normala euskarazko txioez ari garela kontuan izanik. Beste 4k gaztelerazko bertsioa ere badute (eitb, ehbildu euskadinet, donostiakultura) eta batek elebitan egiten du interfaze berean (info7). Galdera: elebitan ari diren webguneen kasuan, euskarazko URL-ak txiokatzen dira, ala hor ere aldea dago?

URLen kasuan, txikitzaileren batekin moztu badira ere zenbatzen dira?

Eskerrik asko. Eta, bai Eneko, tesia egiteko datuak, edo marketing onlinean ari direnak kontuan izan beharrekoak:)

2013-06-20 : 14:53

Josi: baliteke, "iturrien ranking" bat finkatzen badugu Umap-en, orain dugun erabiltzaileen ranking-a beste modu batean kalkulatzea komeni izatea, pertsonen eragina gehiago balioztatuz algoritmoan, eta gutxituz "erakundeena".

Marijo, zure bi galderez.
1) ez dugu hori neurtu, zer eduki dagoen txiokatutako domeinu eta URLen atzean. Ez dakigu hortaz, Youtubeko bideoetan zer dagoen, euskara, ingelesa ala musika instrumentala. Ezta ere Donostiakulturako euskarazko edo erdarazko orriak diren.
2) "Txikitzaile" edo laburtzaileek ez dute eragiten URL detekzioan, salbu eta Ow.ly-koak direnean. Zerbitzu horrek ez du ondo desbideratzen URL-etara. Azterketa honetarako traba da Ow.ly erabiltzea.

Erantzun

Sartu