Створення національної LLM: виклики, переваги та шлях до мовної незалежності

20 Червня, 2025

7 хв. читання

Україна з ініціативи Міністерства цифрової трансформації взялась створити власну національну LLM. Зібрали команду зі сторони держави і знайшли партнера, який допоможе втілити перші кроки у життя і профінансує все.

Амбіції — значні. Наскільки складно їх досягнути? Команда EPAM підготувала великий матеріал на цю тему, описавши всі труднощі запуску такого проєкту. Редакція Scroll.media публікує цей матеріал з дозволу компанії.

Україна прагне увійти до трійки світових лідерів із впровадження штучного інтелекту, насамперед через розробку власної великої мовної моделі (LLM). Цей амбітний проєкт, запуск якого запланований на листопад-грудень 2025 року, стане важливим кроком до технологічної незалежності нашої держави.

LLM — це потужний інструмент, який розуміє національний контекст, діалекти та специфічні терміни української мови. Зокрема, ця мовна модель забезпечить обробку даних всередині країни, що критично важливо для оборони, державних установ, медицини та фінансового сектору. Крім того, впровадження національної LLM відкриє широкі можливості для інтеграції з платформою «Дія», військовими системами та дасть змогу бізнесу швидко розробляти локалізовані AI-продукти, включно з автоматизованими чат-ботами та голосовими асистентами.

У цій статті ми розглянемо архітектурні особливості, технічні виклики та практичні аспекти створення української LLM, що буде особливо корисно для архітекторів рішень, які працюють над впровадженням AI-технологій.

Архітектурні компоненти національної LLM: що таке мовна модель та як вона працює

Великі мовні моделі (LLM) — це передові системи штучного інтелекту, призначені для розуміння та генерації тексту, подібного до людського. Вони навчаються на величезних масивах даних, що дасть змогу їм вловлювати нюанси мови, граматику, контекст і навіть певні аспекти загальних знань.

Базова архітектура трансформерів для LLM

В основі сучасних LLM лежить архітектура трансформера, запропонована у 2017 році в статті «Attention Is All You Need». На відміну від попередніх підходів, трансформери не використовують рекурентні вузли, що значно скорочує час навчання. Головною перевагою цієї архітектури є механізм multi-head self-attention, який дозволяє моделі одночасно аналізувати всі частини тексту, визначаючи найбільш важливі взаємозв’язки.

Основні компоненти трансформера включають:

токенізатори, що перетворюють текст на послідовність токенів;
embedding layer, який трансформує токени у векторні представлення;
трансформувальні шари, що виділяють мовознавчу інформацію через механізми feedforward.

Кодувально-декодувальна структура дозволяє моделі ефективно обробляти вхідну інформацію та генерувати релевантні відповіді, що робить її ідеальною для різноманітних мовних завдань.

Обчислювальна інфраструктура: вимоги до апаратного забезпечення

Навчання LLM потребує значних обчислювальних потужностей, яких часто бракує на локальній інфраструктурі. Ключовим елементом є використання графічних процесорів (GPU), які завдяки паралельній обробці даних ідеально підходять для роботи з великими мовними моделями.

Для ефективного навчання та роботи LLM необхідні:

високоефективні процесори (наприклад, Intel Xeon Gold 6354 із частотою 3,0 GHz);
потужні графічні прискорювачі NVIDIA A40 або L40s;
диски з продуктивністю до 20 тисяч IOPS;
значний обсяг оперативної пам’яті.

Масштабування моделі: від прототипу до промислового рішення

Шлях від прототипу до промислового рішення передбачає поступове збільшення розміру моделі та обсягу даних для навчання. Сучасні LLM доступні в різних розмірах — від 7 до 65 мільярдів параметрів. Так, модель LLaMA з 13 мільярдами параметрів була навчена на 1 трильйоні токенів, що забезпечило її універсальність для різних застосувань.

Для ефективного масштабування особливо важливою є хмарна інфраструктура, що дасть змогу швидко розширювати ресурси без капітальних інвестицій у власні сервери. Зокрема, для віртуалізації графічних ядер (vGPU) використовується технологія NVIDIA GRID, а для процесорів і оперативної пам’яті — стек технологій VMware.

Окрім того, процес створення національної LLM вимагає регулярного коригування параметрів та постійної оптимізації, для чого необхідна гнучка інфраструктура з можливістю оперативного масштабування.

Технічні виклики збору та підготовки українських даних

Створення якісної LLM потребує насамперед великих масивів даних для навчання. Для української мови цей процес має свою специфіку та виклики, які потрібно розуміти під час планування архітектури рішення.

Джерела якісних українськомовних текстових корпусів

Основою для навчання української LLM є наявні корпуси текстів. Найбільшим ресурсом вважається «Корпус української мови» на порталі MOVA.info, що містить понад 100 мільйонів слововживань. Цей ресурс розроблений у лабораторії комп’ютерної лінгвістики Київського національного університету імені Тараса Шевченка. Фактично, з 2010 року в Україні існує щонайменше п’ять різних корпусів української мови, проте більшість із них залишаються маловідомими для дослідників.

Серед найповніших корпусів також виділяють:

«Ukrainian Language Corpus» на вебпорталі mova.info;
«GRAK» (General Regionally Annotated Corpus of Ukrainian);
колекції корпусів університету Лідса та Лейпцизького університету;

Однак для промислового рівня LLM цих джерел недостатньо, тому майбутня українська модель найімовірніше базуватиметься на вже наявному open-source рішенні з подальшим донавчанням на локальних даних.

Очищення та нормалізація даних для навчання

Засмічення даних (data contamination) є критичною проблемою, що може негативно вплинути на продуктивність моделі.

Перед використанням для навчання тексти мають пройти ретельну обробку, що включає: видалення зайвих символів, пунктуації та спеціальних символів; усунення неінформативних фрагментів (реклама, навігація); приведення літер до нижнього регістру для уніфікації; видалення рідкісних слів, залишаючи лише інформативні частини.

Крім того, важливо відстежувати так званий data drift — явище, коли тренувальні й тестові дані не відповідають тим, з якими модель працюватиме в реальних умовах.

Особливості токенізації української мови

Токенізація є фундаментальним кроком обробки тексту, особливо для флективних мов, до яких належить українська. Цей процес розділяє текст на менші одиниці — токени (слова, символи або підслова), які модель може обробляти.

Для української мови характерна багата морфологія, тому застосування традиційних методів токенізації потребує адаптації. Наприклад, використання лематизації (приведення слів до словникових форм) більш ефективне, ніж просто стемінг (обрізання закінчень), оскільки враховує граматичні правила мови.

Важливо також розв’язати проблему слів поза словниковим запасом (OOV), які часто трапляються в українських текстах через багатство словотворення. Тут ефективними є методи токенізації підслів, зокрема, кодування пар байтів (Byte Pair Encoding), що широко використовується в трансформерних моделях.

Процес навчання та оптимізації національної LLM

Навчання національної LLM вимагає збалансованого підходу до різних етапів тренування та оптимізації. Розглянемо ключові процеси, які забезпечують ефективну роботу мовної моделі з урахуванням особливостей української мови.

Стратегії попереднього навчання моделі

Попереднє навчання є фундаментом створення будь-якої LLM. Цей процес передбачає навчання моделі на масивних корпусах неанотованих текстів для формування загального розуміння мови. Для української LLM оптимальним підходом є використання вже наявних моделей як бази з подальшим донавчанням на національних даних.

Навчання проводиться ітеративно — модель поступово коригує параметри, намагаючись передбачити наступний токен у послідовності тексту. Важливо використовувати стратегію «learning rate reward strategy», яка дає змогу моделі краще адаптуватися до нових даних без втрати вже набутих знань.

Техніки точного налаштування для специфічних завдань

Після базового навчання LLM потребує точного налаштування для конкретних завдань.

Ефективними стратегіями є:

навчання на основі відгуків людини (RLHF) — метод, що використовується для популярних моделей, зокрема ChatGPT;
інструктивне налаштування — навчання на прикладах завдань, сформульованих як інструкції природною мовою та відповідні відповіді;
адаптивне донавчання — пристосування моделі до специфічної галузі.

Однак цей підхід може бути повільним і дорогим, тому для національної моделі важливо знайти баланс між якістю та вартістю.

Методи оцінки якості та продуктивності моделі

Для об’єктивної оцінки продуктивності LLM використовують різні метрики:

перплексія — показник того, наскільки добре модель передбачає зразок;
точність (Accuracy) — частка правильних відповідей моделі на тестовому наборі даних;
F1-оцінка (F1 Score) — усереднена оцінка точності та повноти.

Людське оцінювання залишається «золотим стандартом» для суворої оцінки якості LLM. Експерти аналізують фактичну точність, логіку міркувань, граматичність і плавність тексту.

Оптимізація обчислювальних ресурсів під час навчання

Навчання LLM потребує значних обчислювальних ресурсів, тому оптимізація є критичною.

Ефективними стратегіями для навчання української LLM є:

квантизація — зменшення кількості бітів для представлення параметрів моделі без значної втрати якості;
використання хмарних обчислювальних ресурсів, що дозволяє масштабувати процес навчання за потреби;
застосування методів розподілених обчислень для паралельного навчання на декількох GPU.

Для українського контексту, де обчислювальні ресурси можуть бути обмеженими, особливо важливо поєднувати такі техніки з ефективним управлінням процесом навчання.

Інтеграційні сценарії використання української LLM

Практичне впровадження національної LLM потребує чітких механізмів інтеграції та сценаріїв використання. Відповідно до стратегії цифрового розвитку України до 2030 року, технологія штучного інтелекту має інтегруватися в освіту, науку, енергетику та інші галузі.

API-інтерфейси для взаємодії з моделлю

Публічний API може слугувати єдиною точкою входу для всіх запитів до української LLM, забезпечуючи централізоване управління автентифікацією, контроль трафіку та маршрутизацією. Для архітекторів рішень важливо, що такий підхід спрощує інтеграцію, підвищує безпеку та надає цінну аналітику щодо продуктивності API. Модульна архітектура дозволить незалежно розробляти та розгортати функції обробки мови, підвищуючи гнучкість усієї системи.

Інтеграція з державними сервісами та платформою «Дія»

Мінцифра вже розпочала роботу над пілотними AI-продуктами на базі мовних моделей. Наприклад, чатбот Наталка консультує партнерів, що інтегрують Дію, і за три місяці роботи опрацював понад 1500 запитів, зменшивши навантаження на менеджерів на 30 %. Технічно важливим є використання підходу retrieval-augmented generation (RAG), що використовується в Міністерстві молоді та спорту — пошук релевантної інформації з внутрішньої бази знань і формування відповідей з урахуванням знайденого контенту.

Розгортання в оборонному секторі: технічні аспекти

Українськомовна LLM може стати фундаментом для рішень в оборонному секторі, що допоможе військовим ефективно аналізувати дані та підвищити ефективність на полі бою. Критично важливо, що всі обчислення здійснюються на українській інфраструктурі — дані не полишають кордонів України та не передаються стороннім сервісам. Ця особливість гарантує захист персональних даних і національної безпеки при інтеграції AI в чутливі сфери.

Створення екосистеми для бізнес-застосунків

Для бізнесу доступ до національної LLM через API відкриває перспективи розробки кастомізованих рішень та значного зниження вартості використання AI-технологій.

Очікується, що використання національної моделі коштуватиме значно дешевше, якщо порівняти з англомовними аналогами. Підприємці зможуть створювати чатботи й AI-асистентів у різних галузях — від маркетингу до фінансів. За даними «MarketsandMarkets», глобальний ринок LLM оцінювався у $6,4 мільярда у 2024 році й зросте до $36,1 мільярда до 2030 року, що додатково стимулюватиме розвиток національної екосистеми AI-рішень.

Висновок

Національна LLM стане потужним технологічним проривом для України, відкриваючи широкі можливості для розробки AI-рішень. Архітектори рішень отримають надійний фундамент для створення масштабованих систем штучного інтелекту з урахуванням специфіки української мови.

Безперечно, проєкт потребує значних ресурсів та експертизи, особливо щодо:

розгортання обчислювальної інфраструктури з потужними GPU-кластерами;
збору та підготовки якісних українськомовних датасетів;
оптимізації процесів навчання та точного налаштування моделі;
створення безпечних API-інтерфейсів для інтеграції.

Технічні виклики збалансовано компенсуються перевагами власної LLM: обробка даних всередині країни, нижча вартість використання порівнюючи з іноземними аналогами, глибоке розуміння національного контексту.

Успішна реалізація проєкту залежить від злагодженої роботи технічних команд та чіткого розуміння архітектурних особливостей. Саме тому архітекторам рішень важливо вже зараз планувати майбутні інтеграції та готувати відповідну інфраструктуру для впровадження української LLM у власні проєкти.

AI EPAM Systems

Помітили помилку? Виділіть його мишею та натисніть Shift+Enter.

Сервісні компанії