Skaitmeninio savarankiškumo link: atverti gausūs lietuvių kalbos ištekliai DI technologijų plėtrai

Ekonomikos ir inovacijų ministerijos iniciatyva buvo plėtoti ir sukaupti įvairūs, kokybiški ir gausūs lietuvių kalbos ištekliai, būtini lietuviškų dirbtinio intelekto (DI) technologijų pažangai.

Valstybės skaitmeninių sprendimų agentūra (VSSA) įgyvendino 11-a kalbinių išteklių projektų, kurių rezultatai – mokymo duomenų rinkiniai ir DI modeliai – jau prieinami atvirojoje prieigoje.

Skaitmeninio savarankiškumo formulė: DI ištekliai, DI modeliai ir nacionalinė DI infrastruktūra 

Kokybiški, validuoti, duomenų apsaugos standartus atitinkantys lietuvių kalbos duomenys yra strateginė nacionalinės DI infrastruktūros dalis. Kartu su skaičiavimo pajėgumais, į kuriuos Lietuva aktyviai investuoja, kalbiniai duomenys sudaro pagrindą efektyviam DI taikymui viešajame ir privačiajame sektoriuose, stiprinant inovacijas, užtikrinant viešųjų paslaugų prieinamumą ir efektyvumą.

„Lietuvių kalbos duomenys yra ne tik technologinis išteklius – tai vienas iš Lietuvos skaitmeninio suvereniteto ramsčių“, – sako VSSA direktoriaus pavaduotojas Arminas Rakauskas.

Lietuvių kalbos ištekliai DI poreikiams

VSSA DI technologijų eksperto Dariaus Amilevičiaus teigimu, „nacionaliniai kalbos ištekliai tampa pamatu tam, kad dirbtinis intelektas kalbėtų lietuviškai ir būtų kuriamas pagal Lietuvos poreikius“. Šiam tikslui skirti VSSA įgyvendintų kalbinių išteklių projektų rezultatai apima įvairios paskirties tekstynus (tekstų rinkinius), garsynus (garso įrašų rinkinius), DI modelius ir ontologiją.

  Lietuviškiems DI modeliams kurti ir papildyti daugiakalbius DI modelius lietuvių kalbos duomenimis skirtas didžiausias lig šiol sukauptas, daugiau nei 3,9 mlrd. žodžių Bendrasis lietuvių kalbos tekstynas (BLKT). Naujų galimybių pažangiems semantinės paieškos, generuojančio DI ir kitiems sprendimams plėtoti suteikia BLKT duomenimis iš anksto apmokyti (angl. pre-trained) vieni pirmųjų lietuviškų DI modelių: Mažasis lietuvių kalbos vektorizuotas modelis (LT-MLKM-modernBERT) ir Didysis lietuvių kalbos pamatinis (angl. foundation) modelis (LT-AI-DLKVM).

Dezinformacijos internetinėje žiniasklaidoje problemą sprendžiantiems, DI technologijomis grįstiems sprendimams kurti ir plėtoti sukauptas Melagingos informacijos automatinio identifikavimo tekstynas. Gausus Klausimų-atsakymų porų tekstynas yra tinkamas kurti lietuviškiems pokalbių robotams, ypač konsultuojantiems viešųjų paslaugų, e. valdžios ir kitomis temomis.

Taip pat sukaupti plačios tematinės aprėpties tekstynai, skirti mašininio vertimo sistemoms ir kitoms mašininiu vertimu bei DI technologijomis paremtoms paslaugoms vystyti. Daugiakalbiai ir vienakalbiai tekstynaiMedicinos vienkalbis ir lygiagretieji tekstynaiGynybos ir saugumo vienkalbiai ir lygiagretieji tekstynai bei kiti sukurti panašaus pobūdžio ištekliai tenkina vis didėjantį papildomų mokymo duomenų poreikį ne tik bendrojoje, bet ir specializuotose mašininio vertimo srityse.

Šnekos atpažinimo sprendimams kurti ir plėtoti sukauptas Lietuvių kalbos medicinos garsynas, pravartus papildant didesnės apimties ir bendresnės tematikos garsynus medicinos srities duomenimis bei vystant medikų darbą efektyvinančius sprendimus, pvz., laisvų rankų principu veikiančias diktavimo sistemas ir kt.

Šnekamosios ir emocinės kalbos sintezės technologijų poreikiams skirti du garsynai: Lietuvių šnekamosios kalbos sintezės garsynas ir pirmasis Lietuvoje sukurtas Emocinės lietuvių kalbos garsynas.

Specializuotas kalbinis išteklius – Žmogaus fenotipo ontologija lietuvių kalba, pravers kuriant genetikos sričiai skirtus DI sprendimus, praplės tarptautinio bendravimo genetikos srityje galimybes, pagerins žmogaus fenotipo ontologijos integravimą į medicininę praktiką.  

Visi Projektų metu sukurti lietuvių kalbos ištekliai yra pasiekiami atvirojoje prieigoje: 

  • DI modelių validavimo programiniai kodai saugomi GovGit saugykloje. 

Projektai įgyvendinti Ekonomikos gaivinimo ir atsparumo didinimo priemonės (RRF) lėšomis.

Projektais prisidėta prie 2021–2030 metų Lietuvos Respublikos Ekonomikos ir inovacijų ministerijos valstybės skaitmeninimo plėtros programos pažangos priemonės Nr. 05-002-01-07-08 „Kurti technologinius sprendimus ir įrankius, leidžiančius saugiai ir patogiai naudotis paslaugomis“ veiklos „Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra“ įgyvendinimo.