Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Er íslenskan að verða gestur í eigin landi? Petra María Ingvaldsdóttir Skoðun Eru áfengiskaup verndandi þáttur? Dagbjört Harðardóttir Skoðun Veist þú hvað „foid“ er? Þorsteinn Siglaugsson Skoðun Hvernig Ráðhúsið var gert að hagsmunaskrifstofu á kostnað almennings Sigurður Sigurðsson Skoðun Hvenær ætlar ríkisstjórnin að hætta að ljúga að sjálfri sér – og okkur? Kristinn Karl Brynjarsson Skoðun Skilgreiningarvald mennskunnar Erna Mist Skoðun Barátta við náttúru og yfirvald Jón Steinar Sæmundsson Skoðun Já, ég styð aðildarviðræður Ólafur Margeirsson Skoðun Fiskurinn, valdið og tilfinningin fyrir fullveldi Karen María Jónsdóttir Skoðun STEM ævintýrið á Íslandi: Lausn við PISA-vandanum eða táknræn stefnumótun? Maren Davíðsdóttir Skoðun Skoðun Skoðun Í upphafi skal endinn skoða Íris Eva Gísladóttir,Ársæll Guðmundsson,Jóhanna Stella Oddsdóttir,Simon Cramer Larsen,Helga Þórðardóttir skrifar Skoðun Skilgreiningarvald mennskunnar Erna Mist skrifar Skoðun Dýrasta land heims í nafni sjálfstæðisins Inga Valgerður Henrikssen skrifar Skoðun Hugleiðingar um meðferð á beiðni um DNA rannsókn á mannabeinum í grafreit Lára Magnúsardóttir skrifar Skoðun Hvenær ætlar ríkisstjórnin að hætta að ljúga að sjálfri sér – og okkur? Kristinn Karl Brynjarsson skrifar Skoðun Ef þetta væri barnið þitt Arnar Kjartansson skrifar Skoðun Eru áfengiskaup verndandi þáttur? Dagbjört Harðardóttir skrifar Skoðun Hvenær er maður þjófur og hvenær er maður ekki þjófur? Einar Helgason skrifar Skoðun Gerðu það sem ég segi, ekki það sem ég geri! Guðni Freyr Öfjörð skrifar Skoðun Frá fullveldi til Brussel Erna Bjarnadóttir skrifar Skoðun Fögnum Heimsdegi hafsins 8. júní Þorgerður Katrín Gunnarsdóttir skrifar Skoðun Er íslenskan að verða gestur í eigin landi? Petra María Ingvaldsdóttir skrifar Skoðun Barátta við náttúru og yfirvald Jón Steinar Sæmundsson skrifar Skoðun STEM ævintýrið á Íslandi: Lausn við PISA-vandanum eða táknræn stefnumótun? Maren Davíðsdóttir skrifar Skoðun „Mamma, sjáðu, útlendingur!“ – Hvenær hættir maður að vera útlendingur? Valerio Gargiulo skrifar Skoðun Já, ég styð aðildarviðræður Ólafur Margeirsson skrifar Skoðun Veist þú hvað „foid“ er? Þorsteinn Siglaugsson skrifar Skoðun ETS, ESB og EES – Að fá sæti við borðið Dóra Sif Tynes skrifar Skoðun Hvernig Ráðhúsið var gert að hagsmunaskrifstofu á kostnað almennings Sigurður Sigurðsson skrifar Skoðun Fiskurinn, valdið og tilfinningin fyrir fullveldi Karen María Jónsdóttir skrifar Skoðun Afskipti Rússlands og ESB: tvöfalt siðferði í nafni lýðræðis Júlíus Valsson skrifar Skoðun Gervigreind nýtist best með mannlegri þekkingu og reynslu Ásgeir Þorgeirsson skrifar Skoðun Skipti engu nema við göngum í ESB Hjörtur J. Guðmundsson skrifar Skoðun Svartkimi samfélagsins: Þegar tveir heimar mætast í yfirheyrsluherberginu Davíð Bergmann skrifar Skoðun Þegar sorg verður valdatæki Inga Valgerður Henriksen Bergdal skrifar Skoðun Hvalir éta frá okkur fiskinn? Valgerður Árnadóttir skrifar Skoðun Stígum ölduna saman Víglundur Laxdal skrifar Skoðun Þegar líf er í húfi Jón Gunnar Jónsson skrifar Skoðun Hver á að veita þjónustuna? Sandra B. Franks skrifar Skoðun Getum við lært af Bjarti í Sumarhúsum? Berglind Guðmundsdóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Hvenær ætlar ríkisstjórnin að hætta að ljúga að sjálfri sér – og okkur? Kristinn Karl Brynjarsson Skoðun
STEM ævintýrið á Íslandi: Lausn við PISA-vandanum eða táknræn stefnumótun? Maren Davíðsdóttir Skoðun
Skoðun Í upphafi skal endinn skoða Íris Eva Gísladóttir,Ársæll Guðmundsson,Jóhanna Stella Oddsdóttir,Simon Cramer Larsen,Helga Þórðardóttir skrifar
Skoðun Hugleiðingar um meðferð á beiðni um DNA rannsókn á mannabeinum í grafreit Lára Magnúsardóttir skrifar
Skoðun Hvenær ætlar ríkisstjórnin að hætta að ljúga að sjálfri sér – og okkur? Kristinn Karl Brynjarsson skrifar
Skoðun STEM ævintýrið á Íslandi: Lausn við PISA-vandanum eða táknræn stefnumótun? Maren Davíðsdóttir skrifar
Skoðun „Mamma, sjáðu, útlendingur!“ – Hvenær hættir maður að vera útlendingur? Valerio Gargiulo skrifar
Skoðun Hvernig Ráðhúsið var gert að hagsmunaskrifstofu á kostnað almennings Sigurður Sigurðsson skrifar
Skoðun Svartkimi samfélagsins: Þegar tveir heimar mætast í yfirheyrsluherberginu Davíð Bergmann skrifar
Hvenær ætlar ríkisstjórnin að hætta að ljúga að sjálfri sér – og okkur? Kristinn Karl Brynjarsson Skoðun
STEM ævintýrið á Íslandi: Lausn við PISA-vandanum eða táknræn stefnumótun? Maren Davíðsdóttir Skoðun