Розповідаємо про DeepSeek – китайський ШІ-стартап, який похитнув позиції ChatGPT. І обвалив фондовий ринок
20 січня китайська лабораторія штучного інтелекту DeepSeek, заснована керівником фонду Quant Лян Венфеном, випустила опенсорс-модель R1. Відтоді розмови про неї не вщухають, адже, за деякими оцінками, R1 працює навіть краще за лідера ринку o1 від OpenAI (принаймні, у певних тестах). При цьому, заявлена вартість R1 в сотні разів менша, ніж її американських конкурентів.
Як результат, ШІ-асистент DeepSeek вже випередив ChatGPT в App Store, а Марк Андріссен назвав R1 «дивовижним проривом», після чого світові фондові ринки відреагували падінням акцій провідних технологічних компаній, оскільки їх домінування фактично під загрозою китайського «новачка».
Розповідаємо, що відомо про DeepSeek та R1.
Про R1 та що в ній особливого
Як модель міркування (reasoning model), R1 перевіряє сама себе, що допомагає уникнути деяких пасток, через які зазвичай спотикаються інші моделі. За даними DeepSeek, R1 перевершує о1 у тестах AIME, MATH-500 і SWE-bench Verified.
R1 містить 671 млрд параметрів, повідомляється у технічному звіті компанії. Моделі з більшою кількістю параметрів, як правило, працюють краще, ніж моделі з меншою кількістю параметрів, а 671 мільярд — це багато.
При цьому, DeepSeek також випустив «дистильовані» версії R1 розміром від 1,5 до 70 мільярдів параметрів. Найменша може працювати на ноутбуці.
Що стосується повної версії R1, для неї потрібне потужніше обладнання. Але, як повідомляє TechCrunch, вона доступна через API DeepSeek за ціною на 90% нижчою, ніж OpenAI o1.
Проте не варто забувати, що R1 – китайська, і це накладає певні обмеження. Наприклад, R1 не відповість на запитання про події на площі Тяньаньмень чи автономію Тайваню.
Результати R1 порівнюють з о1 від OpenAI (а за деякими оцінками, китайську модель навіть вважають кращою). Венчурний капіталіст Марк Андріссен, наприклад, написав, що DeepSeek є «одним із найдивовижніших проривів, які я коли-небудь бачив».
R1 – не єдиний продукт компанії. Флагманська модель DeepSeek V3 запущена в грудні 2024, безкоштовна, але компанія стягує плату з користувачів, які підключають власні програми до обчислювальної інфраструктури DeepSeek.
Дешевий аналог ChatGPT струснув ринок
В DeepSeek стверджують, що навчання однієї з її найновіших моделей коштує лише $5,6 млн порівняно з сотнями мільйонів доларів, які платять провідні американські компанії за навчання своїх. Наприклад, минулого року виконавчий директор Anthropic Даріо Амодеї заявив, що створення моделі обійшлося $100 млн до $1 млрд.
Ба більше, R1 представили через кілька днів після того, як адміністрація Байдена запропонувала жорсткіші правила експорту та обмеження технологій ШІ для китайських підприємств. Зокрема, заборонила купувати передові чіпи. Що, схоже, не завадило DeepSeek побудувати свою модель на менш досконалих чіпах – дешевше, але не гірше. У DeepSeek заявили, що для навчання своєї моделі V3 використовували кластер із понад 2000 чіпів Nvidia, у порівнянні з десятками тисяч чіпів для навчання моделей подібного розміру.
Як результат, у понеділок, 27 січня, світові фондові біржі зреагували падінням технологічних активів на фоні сумнівів щодо домінування США на ринку ШІ розробок. Ф’ючерси на Nasdaq 100 впали на 3,2%, а контракти на S&P 500 на 1,9% станом на 3:23 ранку в Нью-Йорку, повідомляє Bloomberg. В Європі акції виробника мікросхем ASML Holding NV впали більш ніж на 8%. Акції NVIDIA впали на 10%.
Китайські акції, пов’язані зі штучним інтелектом, відреагували позитивно, а Merit Interactive Co., що зареєстрована на материковій біржі, підскочила через щоденні ліміти. Merit має найпомітніші зв’язки з DeepSeek після того, як заявила, що включила ШІ-модель китайського стартапу в маркетинг. У Гонконзі технологічний індекс Hang Seng Tech Index піднявся на 2%.
«DeepSeek показує, що можна розробляти потужні моделі штучного інтелекту, які коштують дешевше, — сказав Вей-Серн Лінг, керівний директор Union Bancaire Privee. – Це потенційно може зірвати інвестиційне обґрунтування для всього ланцюжка постачання ШІ, який обумовлений високими витратами невеликої кількості гіперскейлерів».
Чому китайцям вдалося?
Зак Касс, колишній керівник OpenAI, сказав, що успіхи DeepSeek, попри американські обмеження, свідчать про те, що «обмеження у ресурсах часто підживлює креативність».
Своєю чергою, Chief AI Scientist Meta Ян ЛеКун вважає, що справа тут в тому, що «моделі з відкритим кодом перевершують пропрієтарні».
«DeepSeek отримав вигоду від відкритих досліджень і відкритого коду (зауважимо, що Llama від Meta є опенсорсною)», — написав ЛеКун на LinkedIn цього тижня. – Вони придумали нові ідеї та втілили їх на основі роботи інших людей. Оскільки їхні роботи опубліковані та є відкритими, кожен може отримати від них вигоду».
Є і критики. Генеральний директор Curai Ніл Хосла вважає, що DeepSeek просто «симулює низьку вартість, щоб виправдати низьку ціну, і сподівається, що всі перейдуть на неї [щоб] завдати шкоди конкурентоспроможності ШІ в США». До публікації прикріплено повідомлення, в якому вказується, що Хосла не надає доказів цього, а його батько Вінод є інвестором OpenAI.
Менше з тим, станом на неділю, ШІ-помічник DeepSeek є найпопулярнішою безкоштовною програмою в Apple App Store, випереджаючи ChatGPT в США.
Розповідаємо про DeepSeek – китайський ШІ-стартап, який похитнув позиції ChatGPT. І обвалив фондовий ринок
20 січня китайська лабораторія штучного інтелекту DeepSeek, заснована керівником фонду Quant Лян Венфеном, випустила опенсорс-модель R1. Відтоді розмови про неї не вщухають, адже, за деякими оцінками, R1 працює навіть краще за лідера ринку o1 від OpenAI (принаймні, у певних тестах). При цьому, заявлена вартість R1 в сотні разів менша, ніж її американських конкурентів.
Як результат, ШІ-асистент DeepSeek вже випередив ChatGPT в App Store, а Марк Андріссен назвав R1 «дивовижним проривом», після чого світові фондові ринки відреагували падінням акцій провідних технологічних компаній, оскільки їх домінування фактично під загрозою китайського «новачка».
Розповідаємо, що відомо про DeepSeek та R1.
Про R1 та що в ній особливого
Як модель міркування (reasoning model), R1 перевіряє сама себе, що допомагає уникнути деяких пасток, через які зазвичай спотикаються інші моделі. За даними DeepSeek, R1 перевершує о1 у тестах AIME, MATH-500 і SWE-bench Verified.
R1 містить 671 млрд параметрів, повідомляється у технічному звіті компанії. Моделі з більшою кількістю параметрів, як правило, працюють краще, ніж моделі з меншою кількістю параметрів, а 671 мільярд — це багато.
При цьому, DeepSeek також випустив «дистильовані» версії R1 розміром від 1,5 до 70 мільярдів параметрів. Найменша може працювати на ноутбуці.
Що стосується повної версії R1, для неї потрібне потужніше обладнання. Але, як повідомляє TechCrunch, вона доступна через API DeepSeek за ціною на 90% нижчою, ніж OpenAI o1.
Проте не варто забувати, що R1 – китайська, і це накладає певні обмеження. Наприклад, R1 не відповість на запитання про події на площі Тяньаньмень чи автономію Тайваню.
Результати R1 порівнюють з о1 від OpenAI (а за деякими оцінками, китайську модель навіть вважають кращою). Венчурний капіталіст Марк Андріссен, наприклад, написав, що DeepSeek є «одним із найдивовижніших проривів, які я коли-небудь бачив».
R1 – не єдиний продукт компанії. Флагманська модель DeepSeek V3 запущена в грудні 2024, безкоштовна, але компанія стягує плату з користувачів, які підключають власні програми до обчислювальної інфраструктури DeepSeek.
Дешевий аналог ChatGPT струснув ринок
В DeepSeek стверджують, що навчання однієї з її найновіших моделей коштує лише $5,6 млн порівняно з сотнями мільйонів доларів, які платять провідні американські компанії за навчання своїх. Наприклад, минулого року виконавчий директор Anthropic Даріо Амодеї заявив, що створення моделі обійшлося $100 млн до $1 млрд.
Ба більше, R1 представили через кілька днів після того, як адміністрація Байдена запропонувала жорсткіші правила експорту та обмеження технологій ШІ для китайських підприємств. Зокрема, заборонила купувати передові чіпи. Що, схоже, не завадило DeepSeek побудувати свою модель на менш досконалих чіпах – дешевше, але не гірше. У DeepSeek заявили, що для навчання своєї моделі V3 використовували кластер із понад 2000 чіпів Nvidia, у порівнянні з десятками тисяч чіпів для навчання моделей подібного розміру.
Як результат, у понеділок, 27 січня, світові фондові біржі зреагували падінням технологічних активів на фоні сумнівів щодо домінування США на ринку ШІ розробок. Ф’ючерси на Nasdaq 100 впали на 3,2%, а контракти на S&P 500 на 1,9% станом на 3:23 ранку в Нью-Йорку, повідомляє Bloomberg. В Європі акції виробника мікросхем ASML Holding NV впали більш ніж на 8%. Акції NVIDIA впали на 10%.
Китайські акції, пов’язані зі штучним інтелектом, відреагували позитивно, а Merit Interactive Co., що зареєстрована на материковій біржі, підскочила через щоденні ліміти. Merit має найпомітніші зв’язки з DeepSeek після того, як заявила, що включила ШІ-модель китайського стартапу в маркетинг. У Гонконзі технологічний індекс Hang Seng Tech Index піднявся на 2%.
«DeepSeek показує, що можна розробляти потужні моделі штучного інтелекту, які коштують дешевше, — сказав Вей-Серн Лінг, керівний директор Union Bancaire Privee. – Це потенційно може зірвати інвестиційне обґрунтування для всього ланцюжка постачання ШІ, який обумовлений високими витратами невеликої кількості гіперскейлерів».
Чому китайцям вдалося?
Зак Касс, колишній керівник OpenAI, сказав, що успіхи DeepSeek, попри американські обмеження, свідчать про те, що «обмеження у ресурсах часто підживлює креативність».
Своєю чергою, Chief AI Scientist Meta Ян ЛеКун вважає, що справа тут в тому, що «моделі з відкритим кодом перевершують пропрієтарні».
«DeepSeek отримав вигоду від відкритих досліджень і відкритого коду (зауважимо, що Llama від Meta є опенсорсною)», — написав ЛеКун на LinkedIn цього тижня. – Вони придумали нові ідеї та втілили їх на основі роботи інших людей. Оскільки їхні роботи опубліковані та є відкритими, кожен може отримати від них вигоду».
Є і критики. Генеральний директор Curai Ніл Хосла вважає, що DeepSeek просто «симулює низьку вартість, щоб виправдати низьку ціну, і сподівається, що всі перейдуть на неї [щоб] завдати шкоди конкурентоспроможності ШІ в США». До публікації прикріплено повідомлення, в якому вказується, що Хосла не надає доказів цього, а його батько Вінод є інвестором OpenAI.
Менше з тим, станом на неділю, ШІ-помічник DeepSeek є найпопулярнішою безкоштовною програмою в Apple App Store, випереджаючи ChatGPT в США.