Dirbtinio intelekto (DI), biometrinių technologijų bei natūralios kalbos apdorojimo sprendimų vystytoja „Neurotechnology“ pristatė pirmąjį atviro kodo didįjį kalbos modelį lietuvių kalbai. Kūrėjai tikisi, kad šis modelis atvers naujas lietuvių kalbos taikymo galimybes ir paskatins pažangių technologijų vystymąsi.
„Džiaugiamės galėdami savo sukurtu kalbos modeliu prisidėti prie atvirojo kodo bendruomenės Lietuvoje ir užsienyje. Suteikdami šiam modeliui laisvą prieigą, siekiame užtikrinti, kad lietuvių kalba būtų lygiaverčiai atstovaujama dirbtinio intelekto pasaulyje. Tikimės, kad šis modelis įkvėps inovatyvios programinės įrangos kūrimą bei paskatins mokslinę plėtrą natūralios kalbos apdorojimo srityje“, – sako Artūras Nakvosas, „Neurotechnology“ natūralios kalbos apdorojimo (NKA) skyriaus techninis vadovas.
„Neurotechnology“ didysis kalbos modelis buvo sukurtas remiantis LlamaV2 7 ir 13 milijardų parametrų transformerių architektūra. Šiam modeliui apmokyti jo kūrėjai pasitelkė tekstyną, kurį sudarė daugiau nei 14 mlrd. teksto vienetų lietuvių kalba.
Siekdama paspartinti mokymo procesą, „Neurotechnology“ pasitelkė NVIDIA H100 grafinius procesorius, laikomus vienais galingiausių pasaulyje. Bendrovės atlikti lyginamosios analizės rezultatai parodė, kad kompanijos sukurtas modelis daugelyje sričių lenkia „Llama V2“ ir gali būti naudojamas kaip pagrindas kurti įvairius dirbtinio intelekto sprendimus lietuvių kalba.
„Pristatytas lietuvių kalbos modelis buvo vertinamas keliais lyginamaisiais testais. Be to, šis modelis yra visiškai atviras, todėl jį galima efektyviai naudoti tiek komercinėms, tiek akademinėms reikmėms“, – pažymi „Neurotechnology“ mašininio mokymosi mokslininkas dr. Povilas Daniušis.
„Neurotechnology“ komandos atliktas tyrimas yra laisvai prieinamas arXiv archyve, o atvirojo kodo modeliai bei duomenų rinkiniai yra pasiekiami Hugging Face platformoje. Dalindamasi šiuo įrankiu bendrovė nori paskatinti kitus kūrėjus tęsti tyrimus su didžiaisiais kalbos modeliais Baltijos, Skandinavijos ir Rytų Europos regionuose. Ateityje įmonė planuoja toliau tobulinti lietuvių kalbos modelius ir siekti didesnio palaikymo kitoms šių regionų kalboms.
„Neurotechnology“ sukurti NKA sprendimai apima virtualius pokalbių robotus, darbo rinkos analizės įrankį „NetGeist HR“ , finansų rinkos stebėjimo platformą „StockGeist“ bei mobiliųjų programėlių atsiliepimų įrankį „NetGeist App“.