Перейти к материалам
истории

Китайский чат-бот DeepSeek стал популярнее ChatGPT и вызвал панику среди IT-компаний — они потеряли триллион долларов за один день Так в чем особенность нового ИИ? Действительно ли он совершил революцию в индустрии?

Источник: Meduza
Jaap Arriens / NurPhoto / Getty Images

В понедельник, 27 января, цена акций производителя чипов Nvidia упала почти на 18 процентов. В результате рыночная капитализация одной из крупнейших в мире компаний снизилась более чем на 600 миллиардов долларов. Это падение стало крупнейшим в истории фондового рынка США. Кроме того, подешевели акции и других американских технологических компаний, связанных с искусственным интеллектом, например Microsoft и Oracle. Причина паники — появление китайского чат-бота DeepSeek. Его разработчики утверждают, что им удалось создать ИИ-модель, которая как минимум не уступает передовым разработкам, в том числе OpenAI. При этом на ее обучение потребовалось всего два месяца и меньше шести миллионов долларов — в десятки раз меньше, чем тратят американские конкуренты. «Медуза» рассказывает, действительно ли DeepSeek так хорош, как заявляют его создатели.

Аудиоверсию этого текста слушайте на «Радио Медуза»

подкасты

Китайский чат-бот DeepSeek стал популярнее ChatGPT. Это прорыв в области ИИ?

14 минут

Еще два месяца назад о DeepSeek почти никто не знал. Сейчас стартап обсуждают больше, чем ChatGPT

По итогам торгового дня в пятницу, 24 января, рыночная капитализация Nvidia составляла почти 3,5 триллиона долларов. Компания уверенно росла: например, отметку в один триллион долларов американский производитель чипов преодолел всего полтора года назад. Однако уже в понедельник, 27 января, капитализация американского производителя чипов упала до 2,9 триллиона долларов. В результате Nvidia опустилась на третье место в списке самых дорогих компаний мира, пропустив вперед Apple и Microsoft.

Днем позже производитель чипов вернул часть потерь. К моменту публикации текста капитализация Nvidia выросла более чем на 250 миллиардов. Хотя на ее позиции в списке самых дорогих компаний это не отразилось.

Акции целого ряда других технологических компаний тоже подешевели, правда, падение было не таким большим. Технологический индекс Nasdaq снизился на три процента — это крупнейшее падение за последние шесть недель, пишет Bloomberg. Из-за этого совокупная капитализация входящих в него компаний упала почти на триллион долларов.

Паника на рынке затронула не только американские компании. Например, цена акций японского холдинга SoftBank в понедельник снизилась на 8%, а во вторник — еще на 5%, сообщает The Guardian. Эта компания — один из ключевых инвесторов ИИ-проекта Stargate, который называют «ИИ следующего поколения» и который на прошлой неделе анонсировал президент США Дональд Трамп. 

Как в США будут развивать ИИ

В США хотят создать искусственный интеллект, который превзойдет человека. На это потратят 500 миллиардов долларов Получится? Вряд ли: пока нейросети «не умнее кошки»

Как в США будут развивать ИИ

В США хотят создать искусственный интеллект, который превзойдет человека. На это потратят 500 миллиардов долларов Получится? Вряд ли: пока нейросети «не умнее кошки»

Причиной падения акций технологических гигантов стал новый бесплатный чат-бот, разработкой которого занимается китайский стартап DeepSeek. Его основал предприниматель Лян Вэньфэн в 2023 году. Стартап принадлежит китайскому хедж-фонду High-Flyer (Вэньфэн также входит в число его сооснователей). Эта же компания выступает единственным инвестором DeepSeek.

Свою первую ИИ-модель, предназначенную для решения задач, связанных с написанием программного кода, стартап выпустил в ноябре 2023-го. Стоимость доступа к ней, равно как и ко всем последующим релизам DeepSeek, была низкой, отмечает Forbes. Из-за этого многим другим китайским компаниям, занимающимся искусственным интеллектом, также пришлось снизить цены на свои ИИ-модели, чтобы остаться конкурентоспособными.

В конце декабря 2024 года состоялся релиз DeepSeek V3 — универсальной большой языковой модели. А спустя месяц вышла DeepSeek R1, еще одна модель в этой серии, при создании которой использовался метод «обучения с подкреплением». Она предназначена для задач, в которых требуются логические рассуждения. Например, R1 должна лучше справляться с вопросами, касающимися математики.

Также 10 января 2025 года вышло приложение чат-бота DeepSeek. Первое время оно оставалось незамеченным и не пользовалось большим спросом. Но уже к концу месяца, когда DeepSeek начали обсуждать в СМИ и соцсетях, возглавило топ бесплатных приложений сначала в американском сегменте App Store (обогнав ChatGPT и ‎Gemini от Google), а потом и в российском. Из-за высокой популярности чат-бота, а также из-за масштабной кибератаки, разработчикам даже пришлось временно ограничить регистрацию новых пользователей. 

Особенность моделей DeepSeek в том, что их обучение прошло очень быстро и не потребовало серьезных финансовых вложений. По крайней мере, так заявляют сами разработчики. В технической документации, доступной на GitHub, говорится, что обучение V3 заняло всего два месяца, а затраты составили около 5,6 миллиона долларов. Для сравнения: на обучение модели GPT-4 компания OpenAI потратила более 100 миллионов.

На официальном сайте DeepSeek приведена сравнительная таблица, согласно которой V3 обходит модель GPT-4o по многим показателям. Кроме того, говорится, что R1 способна конкурировать с ИИ-моделью o1 от OpenAI, которая обучена по тому же методу и тоже создана для решения сложных задач, требующих выстраивания логических цепочек.

Особенности модели o1

OpenAI выпустила новую модель o1. Она медленная, дорогая и не всегда лучше предшественников Зато впервые ИИ начал «думать» перед тем, как ответить

Особенности модели o1

OpenAI выпустила новую модель o1. Она медленная, дорогая и не всегда лучше предшественников Зато впервые ИИ начал «думать» перед тем, как ответить


Подробнее о специфике модели DeepSeek. Комментарий отдела «Разбор»

Согласно описанию, выложенному авторами модели в архиве препринтов Корнельского университета, модель DeepSeek-R1 основана на языковой модели DeepSeek-V3. Основная часть вычислительных ресурсов была потрачена авторами на обучение именно этой, базовой модели (V3), составленной из 671 миллиарда параметров и обученной на 14,8 триллиона токенов (для сравнения: самая большая открытая модель Llama 3 компании Meta имеет 405 миллиардов параметров).

По оценкам специалистов, основанных на том, что сообщают сами авторы DeepSeek V3, главное достижение китайской группы — то, что им удалось значительно (почти в 11 раз) сократить количество вычислительных ресурсов, затраченных на обучение базовой модели. 

Указать на одну инновацию, за счет использования которой это было сделано, невозможно: модель имеет сразу несколько важных особенностей, которые в сочетании друг с другом позволили оптимизировать вычислительные ресурсы и достичь заявленных результатов.

Ни одна из них, однако, не является чем-то принципиально новым для современных больших языковых моделей, построенных на архитектуре трансформера. В модели, например, используется одновременное предсказание не одного, а нескольких следующих токенов, что позволяет ускорить и удешевить генерацию текста. Такое изменение в исходной архитектуре трансформера в индустрии обсуждали еще с 2020 года, но его неохотно внедряли в современные модели. Другая особенность новой модели — технология multi-headed latent attention, позволяющая акцентировать внимание на определенных частях предложения и эффективнее использовать вычислительные ресурсы при обучении.

Кроме того, в вычислениях модели используют числовые типы с плавающей запятой пониженной точности: 16- и 8-битных. Теоретически это позволяет снизить требования по использованию памяти в вычислениях, но имеет свои недостатки, степень важности которых зависит от конкретной реализации алгоритма. Использованию таких типов в машинном обучении посвящены десятки научных статей — например, сотрудники Nvidia предлагали использовать такой подход и разрабатывали алгоритмы на его основе еще в 2022 году).


Китайский ИИ (предсказуемо) цензурирует некоторые ответы. А разработчиков подозревают в использовании чужих данных для обучения

Именно сокращение вычислительных ресурсов, необходимых для обучения модели, вызвало резкую реакцию на американском фондовом рынке. Газета The New York Times пишет, что сейчас ведущим мировым компаниям для обучения ИИ-моделей нужно от 16 тысяч чипов. Инженеры DeepSeek заявили, что использовали в восемь раз меньше.

До сих пор считалось, что разработкой ИИ-систем могут заниматься только технологические гиганты и стартапы, обеспечившие себе огромные инвестиции. Пример DeepSeek (возможно) показал, что аналогичных результатов можно добиться с гораздо меньшими ресурсами. Это пошатнуло веру инвесторов в бум искусственного интеллекта в США, и конкретно — в будущее Nvidia, чипы которой используются при создании ИИ-моделей.

Западные медиа уже назвали запуск DeepSeek «моментом спутника», то есть переломным эпизодом, который должен заставить всех лидеров в области искусственного интеллекта пересмотреть свой подход к разработке. С этим согласен и Дональд Трамп. «Релиз DeepSeek, ИИ от китайской компании, должен стать для наших отраслей сигналом к пробуждению, свидетельствующим о том, что нам нужно быть максимально сосредоточенными на конкуренции и победе», — заявил президент США. 

Чего ждут от Трампа IT-компании

Трамп спасет TikTok от бана в США? Google сохранит контроль над Android? И что теперь будет с ИИ? Как новый президент повлияет на IT-индустрию

Чего ждут от Трампа IT-компании

Трамп спасет TikTok от бана в США? Google сохранит контроль над Android? И что теперь будет с ИИ? Как новый президент повлияет на IT-индустрию

Несмотря на то, что релиз новых китайских моделей серьезно ударил по капитализации Nvidia, компания в своем заявлении похвалила разработку DeepSeek, назвав ее «превосходным достижением в области ИИ». Глава OpenAI Сэм Альтман тоже поприветствовал нового конкурента. «DeepSeek R1 — впечатляющая модель, особенно с учетом того, что они смогли предложить за такую цену», — написал он в соцсети X. При этом Альтман добавил, что его компания продолжит создавать еще более продвинутые ИИ-системы.

Один из ведущих исследователей искусственного интеллекта, вице-президент корпорации Meta Ян Лекун считает, что успех DeepSeek показал не превосходство Китая над США в области ИИ, а преимущество моделей с открытым исходным кодом (к ним относятся китайские разработки) перед проприетарными. Ученый также обратил внимание на то, что обычно большая часть затрат при запуске модели идет не столько на обучение, сколько на создание и поддержку инфраструктуры, которая обеспечивает вывод ответов на запросы пользователей.

В то же время журналисты отмечают, что пока слишком рано говорить о безоговорочном преимуществе DeepSeek над американскими ИИ-системами. Некоторые заявления, например о стоимости обучения модели, невозможно проверить, и в реальности затраты могли быть в несколько раз выше. Кроме того, пока непонятно, действительно ли модели DeepSeek новой серии работают так же хорошо, как системы OpenAI или других разработчиков. 

Журналисты The Wall Street Journal еще в декабре протестировали несколько китайских ИИ-моделей, включая DeepSeek, использовав задачи из теста AIME. Они отмечают, что во всех случаях OpenAI o1 справлялась быстрее. Например, одну из задач она решила за 10 секунд, в то время как DeepSeek потребовалось больше двух минут. При этом журналисты не уточняют, какую именно модель китайского стартапа они задействовали в этом тестировании.

Обозреватель Wired Рис Роджерс в своем тексте про R1 отмечает, что, несмотря на возможный прорыв в обучении, DeepSeek даже близко не подошла к решению проблемы галлюцинаций. Китайская модель часто выдумывает ответы, а по общему набору инструментов существенно уступает разработкам OpenAI. Например, пишет журналист, у R1 нет функции памяти, которая позволяет добавлять контекст, восстанавливая детали прошлых разговоров. «Объявлять появление DeepSeek R1 смертельным ударом по лидерству США в сфере ИИ было бы и преждевременно, и преувеличенно», — резюмирует Роджерс.

Также преждевременно говорить, что позиции Nvidia в индустрии искусственного интеллекта чипов серьезно пошатнутся. Во-первых, если метод обучения DeepSeek действительно позволит удешевить разработку и обучение моделей, это приведет к появлению множества новых стартапов, которые также будут нуждаться в вычислительной мощности (и их сможет дать именно Nvidia). Во-вторых, как отмечает издание VentureBeat, своим появлением новые китайские модели во многом обязаны GPT-4o.

Модель DeepSeek V3 (на которой основана R1) могла обучаться на общедоступных данных, сгенерированных чат-ботами OpenAI, предполагает TechCrunch. Это косвенно подтверждается тем фактом, что иногда V3 идентифицировала себя как ChatGPT. Иными словами, без успеха OpenAI, а значит и без огромного количества GPU-ресурсов, потраченных на обучение ее моделей, R1 и V3 могли бы вообще не появиться.

Как Nvidia собирала данные для своего ИИ

Nvidia решила скачать весь ютьюб для обучения ИИ. Каждый день компания выгружала с платформы ролики общей продолжительностью 80 лет Разрешения на это никто не давал

Как Nvidia собирала данные для своего ИИ

Nvidia решила скачать весь ютьюб для обучения ИИ. Каждый день компания выгружала с платформы ролики общей продолжительностью 80 лет Разрешения на это никто не давал

OpenAI даже предполагает, что некая группа, связанная со стартапом DeepSeek, могла получить несанкционированный доступ к ее данным. Компания уже начала расследование совместно со своим главным партнером, корпорацией Microsoft, пишет Bloomberg со ссылкой на свои источники.

Пользователи также отмечают, что далеко не на все ответы DeepSeek стоит полагаться. Так как это китайская разработка, есть целый ряд тем, которые она старается обходить стороной. В соцсетях есть множество примеров ответов чат-бота на вопросы о событиях на площади Тяньаньмэнь в 1989 году. Она может выдавать отчеты с расплывчатыми формулировками или начать отвечать нормально, а потом отредактировать ответ. Иногда эти ограничения удается обойти. Но некоторые запросы, например про политических деятелей, способны и вовсе сломать DeepSeek.

Китайское происхождение чат-бота может помешать ему и дальше наращивать популярность в США. DeepSeek собирает довольно много информации о пользователе, отмечает Wired, и все эти данные могут отправляться в Китай. Впрочем, разработчики этого не скрывают. «Мы храним собранную информацию на защищенных серверах, расположенных в Китайской Народной Республике», — говорится в пользовательском соглашении DeepSeek.

Учитывая активную борьбу США с китайскими приложениями (в частности, с TikTok), не исключено, что у нового чат-бота тоже возникнут проблемы. Белый дом уже обратил внимание на DeepSeek, пишет Reuters. Чиновники собираются изучить, не представляет ли новый ИИ угрозу для национальной безопасности страны.

О технологическом противостоянии США и Китая — эпизод подкаста «Что случилось»

Что происходит с TikTok в США

Власти ограничивают работу иностранного видеосервиса, а его местный конкурент переманивает блогеров деньгами. Знакомо? Нет, речь не про VK и ютьюб в России — а про инстаграм и тикток в США

Что происходит с TikTok в США

Власти ограничивают работу иностранного видеосервиса, а его местный конкурент переманивает блогеров деньгами. Знакомо? Нет, речь не про VK и ютьюб в России — а про инстаграм и тикток в США

Михаил Герасимов при участии отдела «Разбор»