Мінцифри та «Київстар» починають розробку національної LLM. Інвестиції — до $2 млн
WINWIN AI Center of Excellence при Мінцифри та «Київстар», найбільший оператор електронних комунікацій України, починають розробку національної великої мовної моделі (LLM). Сторони підписали відповідний меморандум і готуються до старту роботи. Редакція Scroll.media розповідає, що відомо про проєкт.
Українська LLM
Мінцифри з самого початку, коли почала говорити про національну LLM, прямо говорила, що шукає партнерів, які допоможуть реалізувати задумане. Відгукнулась компанія «Київстар» — найбільший телеком-оператор країни.

Сторони поділять між собою обовʼязки, при цьому готове рішення обіцяють зробити Open Source, попри те, що ресурси для створення LLM дасть «Київстар». Розподіл ролей відбудеться наступним чином:
- Мінцифра координуватиме процес розробки моделі та формуватиме технологічну й етичну візію створення LLM. Зокрема створить усі ключові структури для якісної розробки моделі — координаційний комітет й етичний та технічний борди.
- Координаційний комітет відповідатиме за візію і стратегію розробки, до нього ввійдуть представники Мінцифри, зокрема WINWIN AI Center of Excellence, інших профільних державних інституцій, Київстар, технічного та етичного бордів. Етичний борд відстежуватиме відповідність законодавству та етичність моделі, а технічний борд відповідатиме за архітектуру, тренування моделі на даних тощо.
- «Київстар» виступає операційним виконавцем процесу і формуватиме проєктний офіс для розробки моделі: підбиратиме команду, забезпечить обчислювальні потужності для попереднього навчання (pre-train) української моделі тощо.
У Мінцифри стверджують, що залучення «Київстара» та експертиза компанії дозволить швидко розпочати проєкт. Очікується, що від старту до отримання перших результатів пройде до 9 місяців.
Команда, яку збиратимуть для роботи — це 10-15 людей, додатково розглядають можливість залучення лінгвістів. Людей готові наймати не лише в Україні, подавати кандидатуру можна відправивши CV сюди — [email protected].
Після запуску LLM буде на етапі бета-тестування. Очікується, що під час цього періоду державні, громадські, наукові, освітні та інші організації зможуть завантажити модель і першими спробувати її роботу. Після тестового періоду модель буде передана державі та буде доступна open source.
Представники Мінцифри також повідомили, що на початку це буде текстова версія, згодом почнуть роботу над голосовою. Цілком можливо, що у фіналі ми також побачимо чатбот.
Фінансування
За словами представників «Київстар», реалізація проєкту може вартувати від $1,5 млн до $2 млн. Якщо вартість виросте — компанія готова до додаткових інвестицій.

Кошти підуть на оренду необхідної інфраструктури, а також фонд оплаті праці. Будувати власну інфраструктуру на цей момент не планують, оскільки це і дорого, і довго по часу. А стартувати хочуть якомога швидше.
Всі видатки на себе бере «Київстар», держава проєкт не фінансує.
Для чого це компанії? Як пояснили представники «Київстар», вони також за потреби зможуть користуватись надбання opensource-розробки, окрім того — це можливість здобути експертизу для розвитку AI-рішень у середині компаній.
Навіщо це державі?
Запит держави — зрозумілий: на базі мовної моделі держава має на меті створення AI-сервісів для громадян та інструментів для оптимізації внутрішніх процесів. У планах Мінцифри та WINWIN AI Center of Excellence — запуск AI-асистента у Дії, AI-інструментів для аналізу нормативно-правових актів та роботи з європейським законодавством, AI-інструментів у «Мрії» для створення індивідуальних освітніх траєкторій для школярів тощо. Усього це понад 10 продуктів на базі ШІ.
Україномовна LLM надаватиме більш релевантні та точні відповіді для користувачів, ніж глобальні моделі, оскільки буде додатково натренована (pre-trained) на українських даних. Завдяки глибшому розумінню мовної специфіки (діалектів, термінології та контексту) вона краще орієнтуватиметься в багатьох темах, зокрема пов’язаних з українською історією, культурою і суспільним досвідом. Це забезпечить не лише лінгвістичну, а й змістовну точність відповідей.
Національна LLM дає змогу зберігати та обробляти дані всередині країни, що стратегічно важливо для використання ШІ в обороні, урядових організаціях, медицині й фінансовому секторі. Так, LLM забезпечить захист персональних даних і національної безпеки України під час інтеграції AI в різні сектори.

Ще одна перевага — фінансова. Очікується, що використання українськомовної моделі коштуватиме дешевше для українських користувачів порівняно з англомовними аналогами.
Дані та приватність
За доступ до даних буде відповідати Мінцифра, міністерство також буде забезпечувати збір даних для навчання моделі, для чого залучатиме державні та приватні інституції, як-от університети, профільні спільноти тощо.
Модель буде натренована на даних з відкритих джерел українською мовою, зібраних у датасетах. Потенційно розглядають «Малюк» (113 гігабайтів вичищеного тексту), NER-UK, UA-GEC тощо.
Також міністерство залучатиме університети, наукові структури, національні бібліотеки та інтелектуальні фонди до збору даних для тренування моделі.
Стосовно доступу приватної компанії до даних.
- Етичний та технічний борди сформують організаційні, технічні та юридичні умови для надання даних. Жодна компанія чи організація не зможе використовувати їх у власних цілях.
- Набори корпусів не міститимуть персональних та сенситивних даних, оскільки дані будуть превентивно деперсоналізуватися. Усі потенційно чутливі дані проходитимуть обов’язкову автоматичну анонімізацію з використанням сучасних інструментів.
- Контроль за цим процесом буде здійснюватися на трьох рівнях: юридично — через спеціальні угоди; технічно — через захищений pipeline очищення даних; етично — через незалежну етичну раду, що перевірятиме відповідність дій стандартам етики й законодавства.
Важливо, що серед цих даних будуть відсутні персональні дані, дані з реєстрів та будь-яка інша сенситивна інформація. Також редактору Scroll.media додатково уточнили, що вся секретна/закрита інформація для навчання використовуватись не буде, у цьому просто немає сенсу. У майбутньому вже готову модель можна буде використати локально.
Мінцифри та «Київстар» починають розробку національної LLM. Інвестиції — до $2 млн
WINWIN AI Center of Excellence при Мінцифри та «Київстар», найбільший оператор електронних комунікацій України, починають розробку національної великої мовної моделі (LLM). Сторони підписали відповідний меморандум і готуються до старту роботи. Редакція Scroll.media розповідає, що відомо про проєкт.
Українська LLM
Мінцифри з самого початку, коли почала говорити про національну LLM, прямо говорила, що шукає партнерів, які допоможуть реалізувати задумане. Відгукнулась компанія «Київстар» — найбільший телеком-оператор країни.

Сторони поділять між собою обовʼязки, при цьому готове рішення обіцяють зробити Open Source, попри те, що ресурси для створення LLM дасть «Київстар». Розподіл ролей відбудеться наступним чином:
- Мінцифра координуватиме процес розробки моделі та формуватиме технологічну й етичну візію створення LLM. Зокрема створить усі ключові структури для якісної розробки моделі — координаційний комітет й етичний та технічний борди.
- Координаційний комітет відповідатиме за візію і стратегію розробки, до нього ввійдуть представники Мінцифри, зокрема WINWIN AI Center of Excellence, інших профільних державних інституцій, Київстар, технічного та етичного бордів. Етичний борд відстежуватиме відповідність законодавству та етичність моделі, а технічний борд відповідатиме за архітектуру, тренування моделі на даних тощо.
- «Київстар» виступає операційним виконавцем процесу і формуватиме проєктний офіс для розробки моделі: підбиратиме команду, забезпечить обчислювальні потужності для попереднього навчання (pre-train) української моделі тощо.
У Мінцифри стверджують, що залучення «Київстара» та експертиза компанії дозволить швидко розпочати проєкт. Очікується, що від старту до отримання перших результатів пройде до 9 місяців.
Команда, яку збиратимуть для роботи — це 10-15 людей, додатково розглядають можливість залучення лінгвістів. Людей готові наймати не лише в Україні, подавати кандидатуру можна відправивши CV сюди — [email protected].
Після запуску LLM буде на етапі бета-тестування. Очікується, що під час цього періоду державні, громадські, наукові, освітні та інші організації зможуть завантажити модель і першими спробувати її роботу. Після тестового періоду модель буде передана державі та буде доступна open source.
Представники Мінцифри також повідомили, що на початку це буде текстова версія, згодом почнуть роботу над голосовою. Цілком можливо, що у фіналі ми також побачимо чатбот.
Фінансування
За словами представників «Київстар», реалізація проєкту може вартувати від $1,5 млн до $2 млн. Якщо вартість виросте — компанія готова до додаткових інвестицій.

Кошти підуть на оренду необхідної інфраструктури, а також фонд оплаті праці. Будувати власну інфраструктуру на цей момент не планують, оскільки це і дорого, і довго по часу. А стартувати хочуть якомога швидше.
Всі видатки на себе бере «Київстар», держава проєкт не фінансує.
Для чого це компанії? Як пояснили представники «Київстар», вони також за потреби зможуть користуватись надбання opensource-розробки, окрім того — це можливість здобути експертизу для розвитку AI-рішень у середині компаній.
Навіщо це державі?
Запит держави — зрозумілий: на базі мовної моделі держава має на меті створення AI-сервісів для громадян та інструментів для оптимізації внутрішніх процесів. У планах Мінцифри та WINWIN AI Center of Excellence — запуск AI-асистента у Дії, AI-інструментів для аналізу нормативно-правових актів та роботи з європейським законодавством, AI-інструментів у «Мрії» для створення індивідуальних освітніх траєкторій для школярів тощо. Усього це понад 10 продуктів на базі ШІ.
Україномовна LLM надаватиме більш релевантні та точні відповіді для користувачів, ніж глобальні моделі, оскільки буде додатково натренована (pre-trained) на українських даних. Завдяки глибшому розумінню мовної специфіки (діалектів, термінології та контексту) вона краще орієнтуватиметься в багатьох темах, зокрема пов’язаних з українською історією, культурою і суспільним досвідом. Це забезпечить не лише лінгвістичну, а й змістовну точність відповідей.
Національна LLM дає змогу зберігати та обробляти дані всередині країни, що стратегічно важливо для використання ШІ в обороні, урядових організаціях, медицині й фінансовому секторі. Так, LLM забезпечить захист персональних даних і національної безпеки України під час інтеграції AI в різні сектори.

Ще одна перевага — фінансова. Очікується, що використання українськомовної моделі коштуватиме дешевше для українських користувачів порівняно з англомовними аналогами.
Дані та приватність
За доступ до даних буде відповідати Мінцифра, міністерство також буде забезпечувати збір даних для навчання моделі, для чого залучатиме державні та приватні інституції, як-от університети, профільні спільноти тощо.
Модель буде натренована на даних з відкритих джерел українською мовою, зібраних у датасетах. Потенційно розглядають «Малюк» (113 гігабайтів вичищеного тексту), NER-UK, UA-GEC тощо.
Також міністерство залучатиме університети, наукові структури, національні бібліотеки та інтелектуальні фонди до збору даних для тренування моделі.
Стосовно доступу приватної компанії до даних.
- Етичний та технічний борди сформують організаційні, технічні та юридичні умови для надання даних. Жодна компанія чи організація не зможе використовувати їх у власних цілях.
- Набори корпусів не міститимуть персональних та сенситивних даних, оскільки дані будуть превентивно деперсоналізуватися. Усі потенційно чутливі дані проходитимуть обов’язкову автоматичну анонімізацію з використанням сучасних інструментів.
- Контроль за цим процесом буде здійснюватися на трьох рівнях: юридично — через спеціальні угоди; технічно — через захищений pipeline очищення даних; етично — через незалежну етичну раду, що перевірятиме відповідність дій стандартам етики й законодавства.
Важливо, що серед цих даних будуть відсутні персональні дані, дані з реєстрів та будь-яка інша сенситивна інформація. Також редактору Scroll.media додатково уточнили, що вся секретна/закрита інформація для навчання використовуватись не буде, у цьому просто немає сенсу. У майбутньому вже готову модель можна буде використати локально.