Бесплатно Экспресс-аудит сайта:

01.02.2025

DeepSeek раскрыл главный блеф века: ИИ может создать каждый

На прошлой неделе китайская компания DeepSeek выпустила свою новую языковую модель R1, которая вызвала настоящий ажиотаж в индустрии искусственного интеллекта. R1 не только сопоставима по возможностям с лучшими западными моделями, но и была создана за сущие копейки по сравнению с аналогами. При этом DeepSeek сделала модель абсолютно бесплатной и открытой для всех, что привело к крупнейшему потрясению в технологическом секторе США.

Реакция не заставила себя ждать. Американский фондовый рынок потерял $1 трлн , инвесторы в панике начали пересматривать свои прогнозы, а бывший президент Дональд Трамп заявил, что это тревожный звонок для США. Один из самых влиятельных венчурных инвесторов Силиконовой долины, Марк Андриссен, назвал R1 "одним из самых удивительных и впечатляющих прорывов, который является настоящим подарком миру".

Но успех DeepSeek заключается не только в самой модели. Опубликовав данные о том, как именно были созданы R1 и её предшественник V3, компания разрушила миф о том, что создание передовых ИИ-моделей — исключительно сложный и дорогой процесс. Конкуренты тут же начали ускоренно обновлять свои модели: Alibaba анонсировала новую версию Qwen, а американская лаборатория AI2 обновила свою модель Tulu, заявив, что теперь она обходит R1.

OpenAI тоже не осталась в стороне. Глава компании Сэм Альтман признал, что R1 получилась впечатляющей за свою цену, но пообещал, что следующие модели OpenAI будут значительно лучше. В тот же день OpenAI выпустила ChatGPT Gov — новую версию чат-бота, предназначенную для работы в правительственных структурах США. Это стало своеобразным сигналом: американские власти обеспокоены тем, что китайские технологии могут собирать данные.

DeepSeek внезапно оказалась компанией, которую нужно догонять. Но что именно она сделала, чтобы так встряхнуть индустрию?

Как обучаются большие языковые модели?

Чтобы понять, в чём заключается прорыв DeepSeek, важно разобрать ключевые этапы обучения современных ИИ-моделей.

  1. Предобучение (pretraining) — это основной и самый дорогой этап. В этом процессе нейросеть загружают огромным количеством данных (веб-страницы, книги, коды программ и т.д.), заставляя её анализировать и предсказывать слова. Итогом становится так называемая базовая модель.

  2. Постобучение (post-training) — превращает базовую модель в полезный инструмент. Обычно это делается двумя методами:

    • Обучение с учителями (Supervised fine-tuning): люди оценивают работу модели и корректируют её ответы.
    • Обучение с подкреплением на основе обратной связи (RLHF): ответы модели оценивают люди, а затем система подстраивается, чтобы выдавать лучшие ответы в будущем.

OpenAI первой внедрила RLHF, благодаря чему её модели стали удобными для пользователей. Сегодня этим методом пользуются почти все компании.

Как DeepSeek смогла сэкономить миллионы?

DeepSeek пошла по другому пути: вместо дорогостоящего обучения с участием людей компания заменила их на машины. Вместо того, чтобы использовать оценки от живых людей, DeepSeek разработала полностью автоматизированную систему. Компьютер сам оценивает правильность ответов и корректирует модель, устраняя необходимость в дорогостоящем человеческом труде.

Это позволило кардинально снизить затраты. Однако у метода есть минус: машины хорошо оценивают точные дисциплины, такие как математика и программирование, но плохо справляются с субъективными задачами (например, творческими или философскими вопросами). Поэтому DeepSeek всё же пришлось привлечь людей для финальной настройки.

Но даже это оказалось дешевле, чем у конкурентов: в Китае ниже стоимость рабочей силы и больше специалистов с математическим и инженерным образованием.

Инженерные хитрости DeepSeek

DeepSeek не просто нашла способ удешевить обучение. Она внедрила несколько ключевых технических инноваций, благодаря которым смогла добиться впечатляющих результатов.

  1. Новая методика обучения (GRPO)

    • В стандартном обучении с подкреплением требуется дополнительная ИИ-модель, которая оценивает правильность ответов.
    • DeepSeek отказалась от этого: вместо отдельной модели система делает автоматическое предположение (что значительно дешевле).
    • Это позволило снизить затраты, сохранив точность.
  2. Более умное предсказание слов

    • Обычно языковые модели предсказывают текст по одному слову за раз.
    • DeepSeek внедрила "многоразовое предсказание" (multi-token prediction) — метод, при котором модель анализирует сразу несколько слов.
    • Это не только ускоряет обучение, но и повышает точность.
  3. Оптимизация работы с видеокартами Nvidia

    • DeepSeek переписала код на низкоуровневом языке Assembler, чтобы заставить GPU работать эффективнее.
    • Это невероятно сложный процесс, но он позволил обойти ограничения Nvidia и увеличить производительность без покупки новых чипов.
  4. Дешёвый способ сбора данных

    • Вместо того, чтобы вручную собирать математические задачи для своей модели DeepSeekMath, компания просто отфильтровала нужные данные из бесплатного интернет-архива Common Crawl.
    • Это оказалось гораздо дешевле и даже эффективнее, чем традиционные методы.

Что дальше?

DeepSeek не единственная компания, работающая в этом направлении. Незадолго до выхода R1 Microsoft объявила о модели rStar-Math, построенной по схожей методике. Американская AI2 использовала частично автоматизированное обучение для своей модели Tulu.

А компания Hugging Face уже готовит OpenR1 — открытую версию китайской модели, которая позволит всем желающим разобраться в её алгоритмах.

Но главная сенсация в том, что создание ИИ больше не требует миллиардных инвестиций. Теперь, когда методика DeepSeek стала достоянием общественности, вскоре можно ожидать новый всплеск развития ИИ, где качественные модели станут намного доступнее.

"Раньше казалось, что ИИ-модели требуют огромных денег и ресурсов. DeepSeek показала, что это не так. Если это действительно так просто, то значит, нас ждёт настоящий ИИ-бум", — отметил Льюис Тансталл, учёный из Hugging Face.

Если ранее создание мощных языковых моделей было привилегией лишь нескольких крупнейших компаний, то теперь ситуация кардинально меняется. Открытая публикация DeepSeek о методах создания R1 делает возможным массовое появление новых ИИ-моделей, которые могут быть почти столь же мощными, как GPT-4o, но значительно дешевле и доступнее.

Эта открытость может ослабить влияние монополистов, таких как OpenAI, Google DeepMind и Anthropic. До сих пор они контролировали развитие самых продвинутых моделей ИИ, ограничивая их в закрытых экосистемах. Теперь же любая компания или исследовательская лаборатория может воспроизвести ключевые принципы работы передовых моделей, сократив стоимость и время разработки.

Но есть и другая сторона медали: ускоренная гонка ИИ несёт новые риски.

Чего боится Запад?

Сенсационный прорыв DeepSeek сразу вызвал опасения среди американских чиновников и военных экспертов. Если китайские компании смогут развивать ИИ быстрее и дешевле, это может привести к технологическому превосходству Китая в ключевых отраслях — от экономики до военной сферы.

Показательно, что OpenAI сразу после выхода R1 представила ChatGPT Gov — специальную версию своего чат-бота, ориентированную на правительственные учреждения США. Это косвенно подтверждает, что Вашингтон обеспокоен возможностью утечки данных через китайские ИИ-системы.

Также стоит учитывать, что Китай уже давно активно инвестирует в развитие военного ИИ, в том числе для разведки, кибервойн и автономного оружия. Если страна получит доступ к передовым технологиям на уровне OpenAI, Google и Microsoft, это может серьёзно изменить баланс сил в мировой геополитике.

США уже ввели санкции против экспорта мощных чипов Nvidia H100 в Китай, но DeepSeek доказала, что способна обходить такие ограничения за счёт оптимизации старых чипов. Это делает санкции малоэффективными.

ИИ-будущее: что нас ждёт?

Главный вопрос сейчас — что будет дальше. Учитывая открытость публикации DeepSeek, можно ожидать серьёзный всплеск новых моделей, которые будут:

  • Бесплатными или с минимальной стоимостью.
  • Не уступать по качеству закрытым разработкам OpenAI и Google.
  • Легче настраиваться под конкретные задачи.

В ближайшие месяцы можно ожидать:

  1. Новую волну открытых моделей, созданных на основе R1. Hugging Face уже разрабатывает OpenR1 — первый клон китайской модели.
  2. Реакцию западных гигантов, таких как OpenAI, Google и Anthropic. Они могут ускорить выпуск GPT-5 и Gemini 3, чтобы снова обойти конкурентов.
  3. Ужесточение регулирования в США и ЕС, направленного на контроль китайских ИИ-технологий.

Но главный вывод таков: DeepSeek сломала монополию на разработку мощных ИИ. Теперь искусственный интеллект больше не привилегия избранных — он становится гораздо доступнее. Это может привести к новой волне инноваций, где передовые технологии будут развиваться быстрее и шире, чем когда-либо раньше.

Одно можно сказать точно: будущее ИИ изменилось навсегда.