Málgögn og gervigreind Steinþór Steingrímsson, Einar Freyr Sigurðsson og Helga Hilmisdóttir skrifa 7. október 2025 11:30 Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum. Viltu birta grein á Vísi? Kynntu þér reglur ritstjórnar um skoðanagreinar. Senda grein Gervigreind Máltækni Íslensk tunga Mest lesið Ísland verðleggur sig út af markaði Diljá Matthíasardóttir Skoðun Uppskrift að stéttskiptu samfélagi og vonleysi Davíð Bergmann Skoðun 27 milljónir á mann (14.500 milljarðar) Tryggvi Hjaltason Skoðun Opið bréf til formanns utanríkismálanefndar Haukur Arnþórsson Skoðun Hvað ég fór smám saman að skilja um Sjálfstæðisflokkinn Valerio Gargiulo Skoðun Gervigreindin bíður ekki eftir Alþingi - opnum aithingi.is Áslaug Arna Sigurbjörnsdóttir,Rafn Steingrímsson Skoðun Ör í borgarmyndinni: Hvers konar borg vill Reykjavík vera? Ásta Olga Magnúsdóttir,Egill Sæbjörnsson,Páll Jakob Líndal,Rafael Campos de Pinho Skoðun Gervigreind í skólum: Svindl er ekki stóra spurningin Helgi S. Karlsson Skoðun Langhundur Kristins Hrafnssonar ritrýndur Páll Steingrímsson Skoðun Framþróun í tónlistarnámi á háskólastigi á Íslandi Pétur Jónasson Skoðun Skoðun Skoðun Staðan í viðræðum Bandaríkjanna og Grænlands Arnór Sigurjónsson skrifar Skoðun Nú er tækifærið - vinnum saman að betri grunnskóla Hólmfríður Arna Þórisdóttir skrifar Skoðun Gervigreindin bíður ekki eftir Alþingi - opnum aithingi.is Áslaug Arna Sigurbjörnsdóttir,Rafn Steingrímsson skrifar Skoðun 27 milljónir á mann (14.500 milljarðar) Tryggvi Hjaltason skrifar Skoðun Opið bréf til formanns utanríkismálanefndar Haukur Arnþórsson skrifar Skoðun Spurningunni breytt – en ekki forsendunum Erna Bjarnadóttir skrifar Skoðun Uppskrift að stéttskiptu samfélagi og vonleysi Davíð Bergmann skrifar Skoðun Eyjar í óvissu á meðan ráðherra bíður eftir haustinu Jóhann Ingi óskarsson skrifar Skoðun Ísland verðleggur sig út af markaði Diljá Matthíasardóttir skrifar Skoðun Framþróun í tónlistarnámi á háskólastigi á Íslandi Pétur Jónasson skrifar Skoðun Höfum við kjark til að gefa fólki tækifæri? Jónas Ingi Jónasson skrifar Skoðun Gervigreind í skólum: Svindl er ekki stóra spurningin Helgi S. Karlsson skrifar Skoðun Samræmd próf: Fyrir hvern? Grétar Birgisson skrifar Skoðun Frábær fjöl eða fúin? Svava Pétursdóttir skrifar Skoðun Höfrungahlaup Seðlabanka Íslands Örn Karlsson skrifar Skoðun Jafnréttislög í 50 ár Martha Lilja Olsen skrifar Skoðun Ísland 2.0 Magnús Árni Skjöld Magnússon skrifar Skoðun Fjölbreytt skólastarf í litlum skóla Guðmundur FInnbogason skrifar Skoðun Ör í borgarmyndinni: Hvers konar borg vill Reykjavík vera? Ásta Olga Magnúsdóttir,Egill Sæbjörnsson,Páll Jakob Líndal,Rafael Campos de Pinho skrifar Skoðun Gaslýsingar ráðherra Ingibjörg Einarsdóttir skrifar Skoðun Langhundur Kristins Hrafnssonar ritrýndur Páll Steingrímsson skrifar Skoðun Hvað ég fór smám saman að skilja um Sjálfstæðisflokkinn Valerio Gargiulo skrifar Skoðun Mikil og ör fjölgun í hópi ökukennara ár eftir ár. Hver er ávinningurinn? Þuríður B. Ægisdóttir skrifar Skoðun Atvinnuvegaráðherra taki fram fyrir hendur Hafró Finnbogi Vikar Guðmundsson skrifar Skoðun Alþjóðasamstarf er Íslendingum lífsnauðsynlegt Haraldur Ólafsson skrifar Skoðun Hvernig samfélag má bjóða þér? Ingileif Friðriksdóttir skrifar Skoðun Nú er ábyrgðin þín kæri sveitarstjórnarmaður Jóhannes Þór Skúlason skrifar Skoðun Í ljósi sögunnar - Hugleiðing eftir kosningar Ámundi Loftsson skrifar Skoðun Um sveitarstjórnarkosningar, siðferðilega dofnun og brothætt eðli réttinda Inga Henriksen skrifar Skoðun Samfélagið eftir kosningar Sigurður Árni Reynisson skrifar Sjá meira
Texti og önnur gögn sem geyma upplýsingar um tungumálið eru lykillinn að þróun gervigreindarforrita á borð við ChatGPT, Claude og Gemini. Forritin byggja á mállíkönum sem eru mótuð með greiningu á textagögnum með það markmið að geta líkt eftir tungumálinu og myndað þannig læsilegan texta á öllum þeim málum sem það hefur „séð“ nógu mikið af. Langstærstur hluti þeirra texta sem líkönunum eru sýndir er á ensku. Flest stærstu mállíkönin eru þó fjöltyngd að því leyti að þau geta myndað texta á mörgum tungumálum. Bestu niðurstöðurnar sem fást úr líkönunum eru á málum sem mjög margir tala en tungumál sem færri tala standa ekki eins vel að vígi. Á alþjóðlegum fundi stjórnmálaleiðtoga, fræðimanna og fulltrúa tæknifyrirtækja um gervigreind í febrúar fyrr á þessu ári kom það fram að bæta þyrfti samkeppnisstöðu Evrópu. Meðal annars var rætt um mikilvægi þess að hlúa að þeim fjölmörgu tungumálum sem töluð eru í álfunni. Lykilatriði er að afla nægilegra gagna og vinna úr þeim svo að þau geti nýst til að búa til gervigreindarlíkön sem geta unnið með öll þessi tungumál. Liður í því er verkefnið European Language Data Space sem framkvæmdastjórn Evrópusambandsins hefur sett á laggirnar. Þar geta eigendur gagna og rétthafar samið um notkun við þá sem vilja nýta þau. Árnastofnun hefur verið leiðandi í því að búa til og safna málgögnum á íslensku með það að markmiði að tryggja stöðu íslensku í tækniheiminum. Fimmtudaginn 9. október stendur Árnastofnun fyrir málþingi í samvinnu við framkvæmdastjórn Evrópusambandsins um European Language Data Space-verkefnið. Á málþinginu, Hagnýting málgagna með Language Data Space, tala íslenskir og erlendir sérfræðingar um markmiðið með verkefninu, markað fyrir málgögn og mikilvægi þeirra. Þá verða pallborðsumræður um málgögn, máltækni og gervigreind fyrir íslensku, og hvort og þá hvernig hægt sé að ná sátt um nýtingu textagagna við þróun gervigreindarlíkana. Málþingið er opið öllum áhugasömum og upplýsingar um skráningu má finna á vef Árnastofnunar, arnastofnun.is. Höfundar eru fræðimenn við Stofnun Árna Magnússonar í íslenskum fræðum.
Gervigreindin bíður ekki eftir Alþingi - opnum aithingi.is Áslaug Arna Sigurbjörnsdóttir,Rafn Steingrímsson Skoðun
Ör í borgarmyndinni: Hvers konar borg vill Reykjavík vera? Ásta Olga Magnúsdóttir,Egill Sæbjörnsson,Páll Jakob Líndal,Rafael Campos de Pinho Skoðun
Skoðun Gervigreindin bíður ekki eftir Alþingi - opnum aithingi.is Áslaug Arna Sigurbjörnsdóttir,Rafn Steingrímsson skrifar
Skoðun Ör í borgarmyndinni: Hvers konar borg vill Reykjavík vera? Ásta Olga Magnúsdóttir,Egill Sæbjörnsson,Páll Jakob Líndal,Rafael Campos de Pinho skrifar
Skoðun Mikil og ör fjölgun í hópi ökukennara ár eftir ár. Hver er ávinningurinn? Þuríður B. Ægisdóttir skrifar
Skoðun Um sveitarstjórnarkosningar, siðferðilega dofnun og brothætt eðli réttinda Inga Henriksen skrifar
Gervigreindin bíður ekki eftir Alþingi - opnum aithingi.is Áslaug Arna Sigurbjörnsdóttir,Rafn Steingrímsson Skoðun
Ör í borgarmyndinni: Hvers konar borg vill Reykjavík vera? Ásta Olga Magnúsdóttir,Egill Sæbjörnsson,Páll Jakob Líndal,Rafael Campos de Pinho Skoðun