Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Hver vill eldast ? Ebba Margrét Magnúsdóttir Skoðun Stafrænt ofbeldi: Ógn sem fylgir þolendum hvert sem þeir fara Jenný Kristín Valberg Skoðun Að búa til eitthvað úr engu Sigurjón Njarðarson Skoðun „Ég veit alltaf hvar þú ert druslan þín!“ Linda Dröfn Gunnarsdóttir Skoðun 3.860 börn í Reykjavík nýttu ekki frístundastyrkinn Sara Björg Sigurðardóttir Skoðun Ég á þetta ég má þetta Arnar Atlason Skoðun Karlar gegn kynbundnu ofbeldi Þorgerður J. Einarsdóttir,Ingólfur Á. Jóhannesson Skoðun Aldrei gefast upp Árni Sigurðsson Skoðun Sakborningurinn og ég Sigurður Árni Reynisson Skoðun Grunnskóli fyrir suma, biðlisti fyrir aðra, en „skref í rétta átt“ Sigurbjörg Erla Egilsdóttir,Theodóra S. Þorsteinsdóttir Skoðun Skoðun Skoðun Karlar gegn kynbundnu ofbeldi Þorgerður J. Einarsdóttir,Ingólfur Á. Jóhannesson skrifar Skoðun 3.860 börn í Reykjavík nýttu ekki frístundastyrkinn Sara Björg Sigurðardóttir skrifar Skoðun Aldrei gefast upp Árni Sigurðsson skrifar Skoðun Að búa til eitthvað úr engu Sigurjón Njarðarson skrifar Skoðun Stafrænt ofbeldi: Ógn sem fylgir þolendum hvert sem þeir fara Jenný Kristín Valberg skrifar Skoðun Mikilvægt að taka upp keflið og byrja að baka Guðrún Elísa Friðbjargardóttir Sævarsdóttir skrifar Skoðun Sakborningurinn og ég Sigurður Árni Reynisson skrifar Skoðun Vinnum hratt og vinnum saman Jóhanna Hlín Auðunsdóttir skrifar Skoðun Er líf karlmanns 75% af virði lífi konu? Jón Pétur Zimsen skrifar Skoðun Stafrænt kynferðisofbeldi – jafn alvarlegt og í raunheimum en viðbrögðin minni Drífa Snædal skrifar Skoðun Hröð húsnæðisuppbygging er forgangsatriði nýs meirihluta í borginni Einar Sveinbjörn Guðmundsson skrifar Skoðun Fregnir af dauða gervigreindarinnar eru stórlega ýktar Björgmundur Örn Guðmundsson skrifar Skoðun Hyggst skipta sér af þjóðaratkvæðinu Hjörtur J. Guðmundsson skrifar Skoðun Fjölmiðlar í hættu - aðgerða er þörf Sigríður Dögg Auðunsdóttir skrifar Skoðun „Ertu heimsk, svínka?“ Valgerður Árnadóttir skrifar Skoðun Ég trúi á orkuskiptin! Hverju trúir þú? Tinna Jóhannsdóttir skrifar Skoðun Fundur á Akureyri um hættulega úrelta stjórnarskrá Íslands Hjörtur Hjartarson,,Katrín Oddsdóttir skrifar Skoðun Vissir þú þetta? Rakel Linda Kristjánsdóttir,Sigurlaug Kristjánsdóttir skrifar Skoðun Íslensk samvinna fyrir loftslag og náttúru. Skógræktarfélag Íslands, Votlendissjóður og Carbfix Brynjólfur Jónsson,Ólafur Elínarson,Þórunn Inga Ingjaldsdóttir skrifar Skoðun Fatlað fólk ber ekki ábyrgð á lífsgæðum borgarbúa Anna Lára Steindal skrifar Skoðun Á Kópavogur að vera fallegur bær? Hákon Gunnarsson skrifar Skoðun Börn og stuðningur við þau í íþrótta- og tómstundastarfi Eygló Ósk Gústafsdóttir,Kristín Skjaldardóttir,Þóra Sigfríður Einarsdóttir skrifar Skoðun Aðdragandi 7. oktober 2023 í Palestínu Þorvaldur Örn Árnason skrifar Skoðun Útlendingamálin á réttri leið Sigurjón Þórðarson skrifar Skoðun Eyjar í draumi eða dáleiðslu, þögnin í bæjarmálum er orðin hættuleg Jóhann Ingi Óskarsson skrifar Skoðun Kvíðir þú jólunum? Sóley Dröfn Davíðsdóttir skrifar Skoðun Í dag er ég líka reiður! Davíð Bergmann skrifar Skoðun NPA breytir lífum – það gleymist í umræðunni Rúnar Björn Herrera Þorkelsson skrifar Skoðun D, 3 eða rautt? Arnar Steinn Þórarinsson skrifar Skoðun Tími til að tala leikskólana upp Bjarnveig Birta Bjarnadóttir skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Grunnskóli fyrir suma, biðlisti fyrir aðra, en „skref í rétta átt“ Sigurbjörg Erla Egilsdóttir,Theodóra S. Þorsteinsdóttir Skoðun
Skoðun Stafrænt ofbeldi: Ógn sem fylgir þolendum hvert sem þeir fara Jenný Kristín Valberg skrifar
Skoðun Mikilvægt að taka upp keflið og byrja að baka Guðrún Elísa Friðbjargardóttir Sævarsdóttir skrifar
Skoðun Stafrænt kynferðisofbeldi – jafn alvarlegt og í raunheimum en viðbrögðin minni Drífa Snædal skrifar
Skoðun Hröð húsnæðisuppbygging er forgangsatriði nýs meirihluta í borginni Einar Sveinbjörn Guðmundsson skrifar
Skoðun Fundur á Akureyri um hættulega úrelta stjórnarskrá Íslands Hjörtur Hjartarson,,Katrín Oddsdóttir skrifar
Skoðun Íslensk samvinna fyrir loftslag og náttúru. Skógræktarfélag Íslands, Votlendissjóður og Carbfix Brynjólfur Jónsson,Ólafur Elínarson,Þórunn Inga Ingjaldsdóttir skrifar
Skoðun Börn og stuðningur við þau í íþrótta- og tómstundastarfi Eygló Ósk Gústafsdóttir,Kristín Skjaldardóttir,Þóra Sigfríður Einarsdóttir skrifar
Skoðun Eyjar í draumi eða dáleiðslu, þögnin í bæjarmálum er orðin hættuleg Jóhann Ingi Óskarsson skrifar
Grunnskóli fyrir suma, biðlisti fyrir aðra, en „skref í rétta átt“ Sigurbjörg Erla Egilsdóttir,Theodóra S. Þorsteinsdóttir Skoðun