Мінцифра збирає контент для національної LLM. Які дані потрібні і що обіцяють бізнесу?

Мінцифра та «Київстар» продовжують працювати над розробкою національної мовної моделі і оголосили про збір даних для її тренування.

Щоб LLM знала все про український контекст — її потрібно навчити на якісних текстах. Тож бізнеси, медіа, заклади освіти та усі, хто має український контент закликали ділитися ними. Для цього потрібно зареєструватися тут.

Розповідаємо, який саме контент потрібен та що буде з інтелектуальною власністю на нього.

Які дані підходять

  • Медіа: новини, інтерв’ю, блоги, публіцистика.
  • Наука та освіта: контент курсів, підручники, наукові роботи, дисертації.
  • Література: художні твори, критика, рецензії.
    Історія: оцифровані архівні матеріали.
  • Бізнес-дані: технічна документація, описи товарів, відкриті відгуки, матеріали корпоративних блогів.

«Медіа та видавництва зададуть еталон мовної грамотності та стилю для нейромережі. Університети та науковці сформують інтелектуальну базу моделі, на якій вчитиметься вся країна. Бізнес — допоможе моделі краще розуміти специфіку ринку та індустрій завдяки технічній документації та аналітиці», – відзначають у Мінцифри.

Що з захистом ІВ?

У відомстві підкреслили, що інтелектуальну власність партнерів при цьому буде захищено. Для цього підготували юридичні умови, щоб всі матеріали працювали винятково на посилення українського ШІ.

Усіх партнерів, які зроблять внесок у розвиток технології, офіційно відзначать в підсумковому звіті про розробку національної моделі.

Нагадаємо

В червні Мінцифри та «Київстар» оголосили про початок розробки національної LLM з інвестиціями до $2 млн.

У вересні Мінцифри почали шукати охочих долучитися до розробки української великої мовної моделі. Зокрема, фахівців та експертів у різних сферах. Тоді ж стали збирати й контент від організацій та медіа, щоб тренувати LLM розуміти український контекст.

Помітили помилку? Виділіть його мишею та натисніть Shift+Enter.

Мінцифра збирає контент для національної LLM. Які дані потрібні і що обіцяють бізнесу?

Мінцифра та «Київстар» продовжують працювати над розробкою національної мовної моделі і оголосили про збір даних для її тренування.

Щоб LLM знала все про український контекст — її потрібно навчити на якісних текстах. Тож бізнеси, медіа, заклади освіти та усі, хто має український контент закликали ділитися ними. Для цього потрібно зареєструватися тут.

Розповідаємо, який саме контент потрібен та що буде з інтелектуальною власністю на нього.

Які дані підходять

  • Медіа: новини, інтерв’ю, блоги, публіцистика.
  • Наука та освіта: контент курсів, підручники, наукові роботи, дисертації.
  • Література: художні твори, критика, рецензії.
    Історія: оцифровані архівні матеріали.
  • Бізнес-дані: технічна документація, описи товарів, відкриті відгуки, матеріали корпоративних блогів.

«Медіа та видавництва зададуть еталон мовної грамотності та стилю для нейромережі. Університети та науковці сформують інтелектуальну базу моделі, на якій вчитиметься вся країна. Бізнес — допоможе моделі краще розуміти специфіку ринку та індустрій завдяки технічній документації та аналітиці», – відзначають у Мінцифри.

Що з захистом ІВ?

У відомстві підкреслили, що інтелектуальну власність партнерів при цьому буде захищено. Для цього підготували юридичні умови, щоб всі матеріали працювали винятково на посилення українського ШІ.

Усіх партнерів, які зроблять внесок у розвиток технології, офіційно відзначать в підсумковому звіті про розробку національної моделі.

Нагадаємо

В червні Мінцифри та «Київстар» оголосили про початок розробки національної LLM з інвестиціями до $2 млн.

У вересні Мінцифри почали шукати охочих долучитися до розробки української великої мовної моделі. Зокрема, фахівців та експертів у різних сферах. Тоді ж стали збирати й контент від організацій та медіа, щоб тренувати LLM розуміти український контекст.

Помітили помилку? Виділіть його мишею та натисніть Shift+Enter.
Читати на тему