DeepSeek обвинили в «дистилляции», а Alibaba претендует на титул лидера рынка ИИ
Обвинения в отношении DeepSeek, которая в начале недели обрушила акции Nvidia и технологические индексы западного мира, озвучил спецпредставитель Дональда Трампа по искусственному интеллекту. По словам Дэвида Сакса, есть «существенные доказательства» того, что китайская нейросеть обучалась не самостоятельно, а с помощью так называемой «дистилляции».
Подход подразумевает обучение модели не на сырых данных, а с помощью учителя — как утверждается, для DeepSeek им могли стать продукты OpenAI. В теории такой подход позволяет обучать новую модель куда быстрее и дешевле. Как пишет Bloomberg, Microsoft еще осенью зафиксировала вмешательство в продукты OpenAI, в результате которого неизвестные смогли извлечь большие объемы данных. По версии источников агентства, злоумышленники могли быть связаны с DeepSeek, хотя доказательств этому не приводится.
О «дистиллировании» и состоятельности обвинений говорит главный архитектор систем искусственного интеллекта Исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ Роман Душкин:
Роман Душкин главный архитектор систем искусственного интеллекта исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ «Дистилляция» в машинном обучении означает, что мы берем какую-то большую модель, уже обученную, как она называется, «предобученная большая модель». И это то, что сделала OpenAI, условно говоря. И потом, при помощи этого процесса, который называется «дистилляция», знания из большой модели, уже обученной, переносятся в малую модель. И действительно, это делается намного быстрее, намного проще, не нужно тратить на это огромное количество ресурсов, использовать огромные собранные датасеты и так далее. Прочитав уже большое количество материала на эту тему, уверен почти на 100%, что модель DeepSeek разработана на базе каких-то существующих моделей с использованием трансфера знаний, то есть «дистилляции», с использованием еще каких-нибудь методов, но это не значит, что они плохие дураки, плагиаторы и прочее. Они молодцы. То, что США внезапно начали обвинять Китай в этом, это, знаете, попытка битья по хвостам, потому что, по-хорошему, «дистиляция» это то, чем занимаются все. То есть это обычный процесс, когда кто-то кому показывает какую-то модель, и они говорят: о, мы сейчас из вашей модели в свою модельку знания перетащим какие-то. И, собственно, одна сторона обвиняет другую постфактум только потому, что у них акции упали, ну это, знаете, как детский сад в песочнице. Да, можно сейчас попытаться притянуть за уши плагиат и заимствования, но что бы там ни вычитали американские юристы в своих пользовательских соглашениях, я уверен, что китайцам на это будет глубоко наплевать».
Одновременно на Востоке появился новый претендент на мировое лидерство в ИИ. Как заявил гигант Alibaba, его новая модель Qwen 2.5-Max «почти по всем параметрам» превосходит и DeepSeek, и продукты OpenAI, и флагманские нейросети других западных разработчиков. Reuters отмечает неожиданную дату релиза — в первый день китайского Нового года, который большинство китайцев проводят в кругу родственников. По версии агентства, Alibaba чувствует угрозу со стороны DeepSeek. Свои оценки представляет гендиректор Dbrain и автор телеграм-канала AI Happens Алексей Хахунов:
Алексей Хахунов гендиректор Dbrain и автор телеграм-канала AI Happens «Когда кто-то говорит, что какая-то модель по качеству работает, как OpenAI o1 или гугловские модели Gemini, в полной степени опираться на это нельзя. Но модели семейства Qwen от компании Alibaba на самом деле очень давно есть на рынке, и это действительно лучшие Tier-1 модели open source, которые есть. Поэтому сомнений в том, что это классные модели, нет. Например, мы сами в бизнесе в том числе используем именно модели Qwen. Дата релизов, на самом деле, почти всех моделей обычно завязаны на то, что кто-то из конкурентов выпускает свою модель, и дальше все остальные компании за этим подтягиваются. То есть можно посмотреть на то, как работают OpenAI и Google, Google делает большую презентацию, OpenAI после этого выпускает модель, Google после этого делает свой релиз. Это связано с тем, что у компаний есть набор моделей, которые уже обучены, но они их не релизили, потому что они чаще всего проходят внутреннее тестирование».
Выход Qwen не сильно впечатлил рынки: технологический NASDAQ стабилен в пределах 1%, Nvidia открылась падением на 2% после вчерашнего 6-процентного отскока. Вероятная причина — отсутствие данных о затратах Alibaba на обучение новой модели. Судя по всему, они были существенными, а, соответственно, западные инвесторы не были сильно удивлены, что китайский технологический гигант немного обошел флагмана OpenAI полугодовой давности. DeepSeek обвинения в «дистилляции» чужих моделей не комментировала. Да и зачем им, все же работает.