GLM 5.1 вместо DeepSeek V3.2: что изменилось в Veai агент бенчмарк

Как мы тестировали

GLM 5.1 вместо DeepSeek V3.2: что изменилось в Veai агент бенчмарк
© РБК Компании

Надежность верификации (Pitfalls: 0.41 0.53, p-value < 0.0005)

У прошлой версии были системные провалы: правки по догадке, заявление «все ок» при падающей сборке, отсутствие подтверждения тестами.У GLM 5.1 такие сбои встречаются заметно реже; ревью судей фиксирует оставшиеся слабые места как локальные (единичная регрессия, отдельный инструмент), а не как паттерн.

UX в длинных сценариях (Pleasantness: 0.48 0.69)

Короче, самостоятельнее, предсказуемее: меньше служебного шума, меньше срывов порядка шагов, стабильнее финальные статусы.На многословность DeepSeek жаловались особенно часто — у GLM 5.1 проблема почти исчезла.

Работа с инструментами (ToolCalls: 0.55 0.73)

Точнее навигация, чище правки, увереннее проверка результата через тесты и сборку.По ревью судей GLM 5.1 выигрывает в навигации по репозиторию 26:6 из 32 задач, в чистоте правок — 21:5, в проверке результата — 18:9.Success rate edit_file вырос с 95.4% до 97.8% (сотни вызовов в обеих связках).Среднее число параллельных вызовов — с 1.04 до 1.70.Оговорка: по соблюдению границ изменений DeepSeek пока чуть строже.

Следование требованиям и итоговый результат

InstructionCompliance: 0.52 0.64 — аккуратнее обязательные шаги, надежнее отчет о проверках.EndResult: 0.55 0.67 — как следствие, агент чаще доводит задачу до рабочего финала.

Скорость (обновление инференса)

Суммарное время на том же наборе задач: 12 534 7 280 секунд.Скорость генерации: 40 58 токенов/с.GLM 5.1 работает с reasoning, а метрика скорости считает только итоговые токены — то есть даже с учетом невидимых reasoning-токенов полезный результат появляется почти в полтора раза быстрее.