Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Sendu okkur póst. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Hvert var samkomulagið? Geir Finnsson Skoðun Hættið að rukka vangreiðslugjald! Breki Karlsson,Runólfur Ólafsson Skoðun Forgangsröðunarskuld Brynjar Karl Sigurðsson Skoðun Auglýst eftir heimili á Facebook Steinunn Gyðu- og Guðjónsdóttir Skoðun Bessastaðaboðskortin Sigríður Svanborgardóttir Skoðun Hvað önnur lönd gera í húsnæðiskreppu – og hvað Ísland gerir ekki Yngvi Ómar Sigrúnarson Skoðun Er atvinnulífið að misnota heilbrigðiskerfið? Gunnar Ármannsson Skoðun Hækkum endurgreiðslu virðisaukaskatts af vinnu iðnaðarmanna Jón Sigurðsson,Pétur H. Halldórsson Skoðun Félagsleg hjálp sem sviptir fátækasta fólkið sjálfsbjörg Vilhelm Jónsson Skoðun Menntastefna á finnskum krossgötum Álfhildur Leifsdóttir Skoðun Skoðun Skoðun Þegar almenningsálit er lesið sem umboð Erna Bjarnadóttir skrifar Skoðun Hættið að rukka vangreiðslugjald! Breki Karlsson,Runólfur Ólafsson skrifar Skoðun Heimsmynd byggð á öðrum fætinum Gunnar Salvarsson skrifar Skoðun Hækkum endurgreiðslu virðisaukaskatts af vinnu iðnaðarmanna Jón Sigurðsson,Pétur H. Halldórsson skrifar Skoðun Forgangsröðunarskuld Brynjar Karl Sigurðsson skrifar Skoðun Hvað gerist þegar gervigreind mætir raunveruleikanum? Björn Thor Stefánsson,Kristján Sölvi Örnólfsson,Oliver Sanchez,Viktor Már Guðmundsson skrifar Skoðun Erum við í djúpum skít? Jón Pétur Wilke Gunnarsson skrifar Skoðun Auglýst eftir heimili á Facebook Steinunn Gyðu- og Guðjónsdóttir skrifar Skoðun Félagsleg hjálp sem sviptir fátækasta fólkið sjálfsbjörg Vilhelm Jónsson skrifar Skoðun Er atvinnulífið að misnota heilbrigðiskerfið? Gunnar Ármannsson skrifar Skoðun Traust verður að endurspeglast í framkvæmd Sandra B. Franks skrifar Skoðun Það er leikur að læra fyrir suma Aðalheiður M. Steindórsdóttir skrifar Skoðun Hvað önnur lönd gera í húsnæðiskreppu – og hvað Ísland gerir ekki Yngvi Ómar Sigrúnarson skrifar Skoðun Ég vil breytingar Kristín Soffía Jónsdóttir skrifar Skoðun Hvert var samkomulagið? Geir Finnsson skrifar Skoðun Ísland á krossgötum Jón Pétur Zimsen skrifar Skoðun Íslenska velsældarhagkerfið: Stefnumörkun, áskoranir og tækifæri Soffía S. Sigurgeirsdóttir,Soffia S. Sigurgeirsdóttir,Dóra Guðrún Guðmundsdóttir,Elva Rakel Jónsdóttir skrifar Skoðun Eyðilegging Vélfags Sigurður G. Guðjónsson skrifar Skoðun Menntastefna á finnskum krossgötum Álfhildur Leifsdóttir skrifar Skoðun Viðreisn vill evrópskt sambandsríki Hjörtur J. Guðmundsson skrifar Skoðun Fyrirsjáanleiki í frístundastarfi Róbert Ragnarsson skrifar Skoðun Bessastaðaboðskortin Sigríður Svanborgardóttir skrifar Skoðun Niðurrif er fljótlegra en uppbygging Gunnþóra Halldórsdóttir skrifar Skoðun Þegar fagleg auðmýkt víkur fyrir ofurhetjublæti Lára S. Benjnouh skrifar Skoðun Hugleiðing um hernað Ámundi Loftsson skrifar Skoðun Börnin eiga að fá aðstoð strax og sínu umhverfi, ekki seinna og ekki annars staðar Valný Óttarsdóttir skrifar Skoðun Golfvöllur er heilsuauðlind Steinn Baugur Gunnarsson skrifar Skoðun Farsæld barna kemur ekki af sjálfu sér Birgir Örn Guðjónsson skrifar Skoðun Íþróttasukk Grímur Atlason skrifar Skoðun Skipulagt svelti í framhaldsskólum Guðjón Hreinn Hauksson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Hækkum endurgreiðslu virðisaukaskatts af vinnu iðnaðarmanna Jón Sigurðsson,Pétur H. Halldórsson Skoðun
Skoðun Hækkum endurgreiðslu virðisaukaskatts af vinnu iðnaðarmanna Jón Sigurðsson,Pétur H. Halldórsson skrifar
Skoðun Hvað gerist þegar gervigreind mætir raunveruleikanum? Björn Thor Stefánsson,Kristján Sölvi Örnólfsson,Oliver Sanchez,Viktor Már Guðmundsson skrifar
Skoðun Hvað önnur lönd gera í húsnæðiskreppu – og hvað Ísland gerir ekki Yngvi Ómar Sigrúnarson skrifar
Skoðun Íslenska velsældarhagkerfið: Stefnumörkun, áskoranir og tækifæri Soffía S. Sigurgeirsdóttir,Soffia S. Sigurgeirsdóttir,Dóra Guðrún Guðmundsdóttir,Elva Rakel Jónsdóttir skrifar
Skoðun Börnin eiga að fá aðstoð strax og sínu umhverfi, ekki seinna og ekki annars staðar Valný Óttarsdóttir skrifar
Hækkum endurgreiðslu virðisaukaskatts af vinnu iðnaðarmanna Jón Sigurðsson,Pétur H. Halldórsson Skoðun