Чем удивит рынок новый китайский DeepSeek R2

В сеть просочились характеристики свежей модели DeepSeek R2, способной, по предварительным оценкам, обойти лидеров отрасли. DeepSeek — ведущий китайский стартап в области ИИ. Компания была создана в 2023 году с целью «исследовать сущность общего искусственного интеллекта». IT-World изучил, что ожидается «под капотом» нового релиза.

Чем удивит рынок новый китайский DeepSeek R2. Рис. 1

Нейросети выходят за пределы человеческого знания

Первое и, пожалуй, главное преимущество новой разработки – её революционная архитектура Hybrid MoE 3.0. DeepSeek может управлять 1,2 трлн параметров при фактической нагрузке всего 78 млрд. Благодаря такой оптимизации стоимость обработки данных (токенов) стала ниже на впечатляющие 97,3% по сравнению с GPT-4 Turbo от OpenAI. На фоне таких цифр даже лидеры рынка начинают выглядеть слегка устаревшими.

Вторым ключевым направлением стало достижение высокой вычислительной эффективности на отечественном оборудовании. DeepSeek R2 показал 82% использования мощностей кластера чипов Huawei Ascend 910B, выдав 512 PetaFLOPS производительности. Это эквивалентно 91% мощности знаменитых чипов NVIDIA A100, но уже на китайских технологиях. Звучит интригующе и немного вызывающе: неужели западные лидеры скоро могут остаться на скамейке запасных?

Третий прорыв – в мультимодальных задачах. Здесь R2 опять удивляет: точность сегментации объектов на известном датасете COCO достигла 92,4%, что почти на 12 пунктов лучше популярной модели CLIP. В производственном контроле уровень ложных срабатываний снизился до невероятных 7,2E-6. А в медицинской диагностике по рентгеновским снимкам грудной клетки новая модель обогнала профессиональных радиологов с точностью 98,1%, превысив их средний показатель (96,3%).

Под капотом DeepSeek R2 – огромный объём данных в 5,2 петабайта, охватывающий финансы, право и патенты. По тестам C-Eval 2.0 модель показывает точность выполнения инструкций на уровне 89,7%. Ещё один плюс – технология квантизации, которая уменьшает размер модели на 83%, практически не теряя точности при переходе на 8-битную точность. Это делает R2 доступной даже для устройств с ограниченными вычислительными возможностями, расширяя её применение в промышленности, здравоохранении и городском управлении.

Кто дотянет до финиша в гонке ИИ?

Масштабный проект, разумеется, поддерживается крупными технологическими партнёрами: Tuowei Information обеспечивает более половины инфраструктуры Huawei Ascend, Zhongke Shuguang поставляет серверы с жидкостным охлаждением, Inspur Information отвечает за более 5000 серверов с гибридными чипами NVIDIA и Huawei, а компания Xinyisheng разработала энергосберегающие решения на основе кремниевой фотоники.

Если официальные данные подтвердятся, DeepSeek R2 имеет все шансы изменить расстановку сил на рынке искусственного интеллекта, причём весьма стремительно и неожиданно для западных конкурентов. Кажется, ИИ-гонка только начала входить в самую интересную фазу.

Автоэксперт