Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Almannafé dælt til tæknirisanna í gegnum stjórnlaust bruðl í borginni Guðröður Atli Jónsson Skoðun Skiptir máli hvort Jens Garðar sé á þingi? Svanborg Sigmarsdóttir Skoðun Reykjavíkurborg skilar auðu Unnar Þór Sæmundsson Skoðun Frístundastyrkur fyrir 67 ára og eldri! Magnea Gná Jóhannsdóttir Skoðun Herferð Heimildarinnar gegn Miðflokknum Breki Atlason Skoðun Húsfélagið Jens Garðar Helgason Skoðun Er ekki kominn tími til að afskrímslavæða báknið í Brussel? Þórhildur Davíðsdóttir Söebech Skoðun Í minningu Jürgen Habermas, eins mesta hugsuðar samtímans Maximilian Conrad Skoðun Leiðandi afl í nýrri atvinnustefnu Íslands Einar Bárðarson Skoðun Sterkari saman á óvissutímum Þorgerður Katrín Gunnarsdóttir Skoðun Skoðun Skoðun 2000 íbúðir í hönnun og byggingu á Ártúnshöfða Tinna Stefánsdóttir skrifar Skoðun Getur mataræði og lífsstíll valdið stoðkerfisverkjum? Anna Lind Fells skrifar Skoðun Herferð Heimildarinnar gegn Miðflokknum Breki Atlason skrifar Skoðun Er ekki kominn tími til að afskrímslavæða báknið í Brussel? Þórhildur Davíðsdóttir Söebech skrifar Skoðun Raforkureikningurinn: Hver hagnast – hver borgar? Íris Róbertsdóttir,Kristinn Jónasson,Björn Ingimarsson,Björg Ágústsdóttir,Gerður Björk Sveinsdóttir skrifar Skoðun Nánari skýringar á ólögmæti verðtryggingarinnar Örn Karlsson skrifar Skoðun STEM námsvistkerfi: Lykill að öflugri STEM menntun Huld Hafliðadóttir skrifar Skoðun Skiptir máli hvort Jens Garðar sé á þingi? Svanborg Sigmarsdóttir skrifar Skoðun Leiðandi afl í nýrri atvinnustefnu Íslands Einar Bárðarson skrifar Skoðun Almannafé dælt til tæknirisanna í gegnum stjórnlaust bruðl í borginni Guðröður Atli Jónsson skrifar Skoðun Reykjavíkurborg skilar auðu Unnar Þór Sæmundsson skrifar Skoðun Saman byggjum við von Steinunn Bergmann skrifar Skoðun Í minningu Jürgen Habermas, eins mesta hugsuðar samtímans Maximilian Conrad skrifar Skoðun Húsfélagið Jens Garðar Helgason skrifar Skoðun Sterkari saman á óvissutímum Þorgerður Katrín Gunnarsdóttir skrifar Skoðun Ábyrgð á brunavörnum í atvinnuhúsnæði Hrefna Sigurjónsdóttir skrifar Skoðun Þörf á tafarlausum framkvæmdum í samgöngumálum Hafnfirðinga Árni Rúnar Þorvaldsson skrifar Skoðun Að vita meira í dag en í gær Kolbrún Áslaugar Baldursdóttir skrifar Skoðun Mannúðlegt, skynsamlegt og betri meðferð á fjármunum ríkisins skrifar Skoðun Hvað með heilaheilsu? Kolfinna Þórisdóttir skrifar Skoðun Frístundastyrkur fyrir 67 ára og eldri! Magnea Gná Jóhannsdóttir skrifar Skoðun Ísland í skjóli grænnar orku Jón Gunnarsson skrifar Skoðun Tilfinningar sem okkar hærri leiðbeinendur Matthildur Björnsdóttir skrifar Skoðun Bítlakynslóðin úti í kuldanum á efri árum Gunnar Salvarsson skrifar Skoðun Ákall til ráðherra menningarmála og borgarstjóra Reykjavíkur Frédéric Boyer skrifar Skoðun Þegar refsing einstaklings, verður refsing fyrir alla fjölskylduna Guðrún Snæbjört Þóroddsdóttir,Harpa Halldórsdóttir,Jenný Magnúsdóttir skrifar Skoðun Tannheilsa má ekki gleymast Fríða Bogadóttir skrifar Skoðun Fyrningarreglur námslána og lagaskil nýrra laga Sveinn Ævar Sveinsson skrifar Skoðun Loksins fá sjónarmið Afstöðu hljómgrunn Guðmundur Ingi Þóroddsson skrifar Skoðun Ungt fólk kemst ekki inn á húsnæðismarkaðinn Böðvar Ingi Guðbjartsson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Skoðun Er ekki kominn tími til að afskrímslavæða báknið í Brussel? Þórhildur Davíðsdóttir Söebech skrifar
Skoðun Raforkureikningurinn: Hver hagnast – hver borgar? Íris Róbertsdóttir,Kristinn Jónasson,Björn Ingimarsson,Björg Ágústsdóttir,Gerður Björk Sveinsdóttir skrifar
Skoðun Almannafé dælt til tæknirisanna í gegnum stjórnlaust bruðl í borginni Guðröður Atli Jónsson skrifar
Skoðun Þörf á tafarlausum framkvæmdum í samgöngumálum Hafnfirðinga Árni Rúnar Þorvaldsson skrifar
Skoðun Þegar refsing einstaklings, verður refsing fyrir alla fjölskylduna Guðrún Snæbjört Þóroddsdóttir,Harpa Halldórsdóttir,Jenný Magnúsdóttir skrifar