УКИМ ја лансираше новата дигитална платформа базирана на вештачка интелигенција – „Буки“
Скопје, октомври 2024 – Универзитетот „Св.Кирил и Методиј“ во Скопје (УКИМ) деxнеска официјално ја пушти во употреба новата дигитална платформа базирана на вештачка интелигенција за транскрипција на говор на македонски јазик – „Буки“, која овозможува унапредено користење на официјалниот јазик при креирање на текстови во дигитална форма.
Овој модел, што е креиран од страна на Дејан Порјазовски, експерт за технологии на вештачка интелигенција за препознавање говор од Универзитетот „Аалто“ во Финска и проф. д-р Никола Стиков, професор по биомедицински инженеринг на Политехничката школа при Универзитетот во Монтреал, во соработка со проф. д-р Ордан Чукалиев, раководител на Центарот за напредни интердисциплинарни истражувања (ЦеНИИс), овозможува пренос на усно изговорена мисла на македонски јазик во пишан текст кој содржи интерпункција, мали и големи букви.
Ректорката на УКИМ, проф. д-р Биљана Ангелова, на денешната презентација, го оквалификува создавањето на платформата како „патриотски придонес“ на Универзитетот и на Центарот за напредни интердисциплинарни истражувања (ЦеНИИс).
„Овој модел може да им биде од корист на сите кои работат со транскрипција на текст (интервјуа, предавања, теренски белешки, потсетници), но и на лица со хендикеп, а се надеваме дека овој модел ќе најде примена и во многу дигитални алатки кои го прават нашиот живот полесен. Секако, во моментов ја презентираме првата верзија на дигиталниот модел за македонски литературен јазик, но тимот кој го изработи моделот е детерминиран да се изработи и втора верзија, за транскрипција на дијалектите на македонскиот јазик, која ќе придонесе за научноистражувачката работа на УКИМ, но и ќе ги зачува дијалектите за наредните генерации“ – наведе ректорката Ангелова.
Таа додаде дека се планира и изработка на подобрен кориснички интерфејс и решавање на одржливоста на платформата за транскрипција на македонскиот говор.
„Нашите модели Буки-w2v2 и Буки-Whisper се базирани на Енкодер – Декодер архитектура. Задачата на Енкодерот е да го трансформира аудиото во формат погоден за декодирање. Декодерот, од друга страна, го користи трансформираното аудио за да генерира транскрипт. Буки-w2v2 и Буки-Whisper се адаптирани верзии на веќе постоечките Wav2vec2 и Whispe,r со тоа што ги трениравме со наши ресури на македонски јазик“ – посочи Порјазовски на презентацијата.
Експеротот образложи дека со цел проверка на работата на нивните модели, во споредба со јавно достапните Whisper од OpenAI компанијата и MMS од Meta, ги тестирале на разни видови аудио (читан текст, дијалекти итн.).
„Како мерна единица користевме Word Error Rate, односно процент на грешни зборови во транскриптот (помал процент=подобар модел). Нашите Буки-w2v2 и Буки-Whisper постигнаа резултат од 9,0, односно 8,1, далеку подобри од Whisper на OpenAI, кој постигна 24.5 и MMS од Metal, кој постигна 20.1“ – истакна Порјазовски.
Професорот Стиков посочи дека создавањето на овој модел е од исклучителна важност за него, првично од лични побуди, а потоа и поради важноста за зачувување на македонскиот јазик и наследство.
„Илјадници часови на снимени материјали се распаѓаат во влажните ќошиња на македонските институции чекајќи да бидат пребарливи и индексирани. Моделот „Буки“ е првиот чекор кон зачувувањето на ова богатство. Трениран е со само 60 додатни часа говор, но веќе е далеку подобар од конкуренцијата“ – потенцираше Стиков.
Проф. д-р Илина Јакимовска, раководителка на Институтот за етнологија и антропологија при Природно-математички факултет – УКИМ, на презентацијата наведе дека Дигиталниот архив на етнолошки и антрополошки ресурси на Институтот за етнологија и антропологија при ПМФ содржи над 1250 часа аудиоматеријал, рачно транскрибиран во ворд-фајлови (главно, теренски интервјуа и усни сведоштва), голем број визуелни материјали, музичка збирка и дигитализирани ракописи од наши поранешни професори и донатори.
„Чест ни е што дел од аудио снимките и нивните преписи учествуваат во моделот „Буки“ и тоа со 40 проценти од неговиот тренинг. При нивниот избор се внимаваше тие да се од различни делови на Македонија, односно да се на повеќе дијалекти, со говорници од различни пол и возраст. Со тоа во „Буки“ се индиректно вградени и архаизми и гласови на луѓе кои веќе не се меѓу нас. Така, преку овој производ се среќава технологијата на иднината со културното наследство на минатото. За тренинг на моделот се користени и 17 целосни броеви од меѓународното списание на Институтот, „ЕтноАнтропоЗум“, снимени во аудиоверзија на литературен македонски, достапни на сајтот на списанието“ – образложи Јакимовска.
Министерот за дигитална трансформација, м-р Стефан Андоновски, упати пофални зборови до организациската структура на проектот за целокупниот труд што е вложен за да се создаде платформата, посочувајќи дека во свет на брзи технолошки промени промоцијата и заштитата на македонскиот јазик е вистински императив, поентирајќи со следниов заклучок: „Ова што го правите вие е вистински патриотски чин“.
„Сега е важно политиката да го препознае ова што го правите вие како наука и да најдеме начин како да ја примениме вештачката интелигенција во дигиталната трансформација на општеството, но исто така и да креираме политики коишто ќе значат вистинска примена на вештачката интелигенција во општеството, но на правилен начин, односно да не го изгубиме патот или визијата за тоа како треба да се развиваме и од етички аспект и од правен аспект“ – истакна министерот Андоновски.
Тој нагласи дека заштитата и промоцијата на македонскиот јазик со дигиталните алатки е предизвик, но и можност бидејќи има потенцијал да се развива во повеќе сфери.
„Секој кој сака да придонесе, ќе може да го донира својот глас – да прочита текст на македонски и да го прикачи на платформата Мозила, за што на промоцијата ќе бидат споделени подетални информации. За таа цел, УКИМ ќе започне кампања „Донирај глас“, информираа од УКИМ.
Името „Буки“ произлегува од името на втората буква во глаголицата Ⰱ („буки“) – со значење буква или писмо. На англиски јазик, тоа ќе биде транскрибирано со Bookie.
Имено, од денеска дигиталниот модел е отворен за тестирање. Линк до платформата: https://huggingface.co/Macedonian-ASR
Универзитет „Св. Кирил и Методиј“ во Скопје