Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Gerið Ásthildi Lóu aftur að ráðherra Einar Steingrímsson Skoðun „Steraleikarnir“ Birgir Sverrisson Skoðun Hver borgar fyrir heimsendinguna? Karen Ósk Nielsen Björnsdóttir Skoðun Fólkið sem hverfur... Kristján Fr. Friðbertsson Skoðun Fínpússuð mannvonska Armando Garcia Skoðun Mótmæli bænda í Brussel eru ekki sjónarspil – þau eru viðvörun Erna Bjarnadóttir Skoðun Þetta varð í alvöru að lögum! Snorri Másson Skoðun Innviðir og öryggi í hættu í höndum ráðherra Magnús Guðmundsson Skoðun Þegar gigtin stjórnar jólunum Hrönn Stefánsdóttir Skoðun Fullveldi í framkvæmd Eggert Sigurbergsson Skoðun Skoðun Skoðun Hver borgar fyrir heimsendinguna? Karen Ósk Nielsen Björnsdóttir skrifar Skoðun Innviðir og öryggi í hættu í höndum ráðherra Magnús Guðmundsson skrifar Skoðun „Steraleikarnir“ Birgir Sverrisson skrifar Skoðun Fínpússuð mannvonska Armando Garcia skrifar Skoðun Fólkið sem hverfur... Kristján Fr. Friðbertsson skrifar Skoðun Gengið til friðar Ingibjörg Haraldsdóttir,Elín Oddný Sigurðardóttir skrifar Skoðun Gerið Ásthildi Lóu aftur að ráðherra Einar Steingrímsson skrifar Skoðun Mótmæli bænda í Brussel eru ekki sjónarspil – þau eru viðvörun Erna Bjarnadóttir skrifar Skoðun Þegar gigtin stjórnar jólunum Hrönn Stefánsdóttir skrifar Skoðun Fullveldi í framkvæmd Eggert Sigurbergsson skrifar Skoðun Verður Flokkur fólksins að Flótta fólksins? Júlíus Valsson skrifar Skoðun „Rússland hefur ráðist inn í 19 ríki“ - og samt engin ógn? Daði Freyr Ólafsson skrifar Skoðun Fæðuöryggi sem innviðamál í breyttu alþjóðakerfi Erna Bjarnadóttir skrifar Skoðun Svona gerum við… fjármagn til áfengis- og vímuefnameðferðar aukið um 850 milljónir Alma Möller skrifar Skoðun Gluggagægir fyrir innan gluggann. Gervigreindin lifnar við Björgmundur Örn Guðmundsson skrifar Skoðun Samstíga ríkisstjórn í sigri og þraut Kristrún Frostadóttir skrifar Skoðun Vextir á verðtryggðum lánum - ögurstund Hjalti Þórisson skrifar Skoðun Rokk í boði Ríkisins - möguleg tímaskekkja Stefán Ernir Valmundarson skrifar Skoðun Orkuskiptin sem engu máli skiptu Jean-Rémi Chareyre skrifar Skoðun Samtöl við þá sem hurfu of fljótt Sigurður Árni Reynisson skrifar Skoðun Flugvöllurinn í Reykjavík - fyrir landið allt Einar Sveinbjörn Guðmundsson skrifar Skoðun Gamla fólkið okkar býr við óöryggi – kerfið okkar er að bregðast Valný Óttarsdóttir skrifar Skoðun Siðferðileg reiði er ekki staðreynd Hilmar Kristinsson skrifar Skoðun Fiktið byrjar ekki sem sjúkdómur Gunnar Salvarsson skrifar Skoðun Jólagjöf ríkisstjórnarinnar Guðrún Hafsteinsdóttir skrifar Skoðun Einfaldlega íslenskt, líka um jólin Hafliði Halldórsson skrifar Skoðun Hvers vegna heyra yfirvöld á Íslandi ekki grátbeiðni Sameinuðu þjóðanna og yfir 200 hjálparsamtaka um aðgerðir gegn Ísrael? Björn B. Björnsson skrifar Skoðun Réttaröryggi nemenda og framkvæmd inntöku í framhaldsskóla Karen María Jónsdóttir skrifar Skoðun Vönduð lagasetning á undanhaldi Diljá Matthíasardóttir skrifar Skoðun Borgar það sig að panta mat á netinu? Jóhann Már Helgason skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Svona gerum við… fjármagn til áfengis- og vímuefnameðferðar aukið um 850 milljónir Alma Möller skrifar
Skoðun Gluggagægir fyrir innan gluggann. Gervigreindin lifnar við Björgmundur Örn Guðmundsson skrifar
Skoðun Hvers vegna heyra yfirvöld á Íslandi ekki grátbeiðni Sameinuðu þjóðanna og yfir 200 hjálparsamtaka um aðgerðir gegn Ísrael? Björn B. Björnsson skrifar
Skoðun Réttaröryggi nemenda og framkvæmd inntöku í framhaldsskóla Karen María Jónsdóttir skrifar