GLM 5.1 вместо DeepSeek V3.2: что изменилось в Veai агент бенчмарк
Как мы тестировали

Надежность верификации (Pitfalls: 0.41 0.53, p-value < 0.0005)
У прошлой версии были системные провалы: правки по догадке, заявление «все ок» при падающей сборке, отсутствие подтверждения тестами.У GLM 5.1 такие сбои встречаются заметно реже; ревью судей фиксирует оставшиеся слабые места как локальные (единичная регрессия, отдельный инструмент), а не как паттерн.
UX в длинных сценариях (Pleasantness: 0.48 0.69)
Короче, самостоятельнее, предсказуемее: меньше служебного шума, меньше срывов порядка шагов, стабильнее финальные статусы.На многословность DeepSeek жаловались особенно часто — у GLM 5.1 проблема почти исчезла.
Работа с инструментами (ToolCalls: 0.55 0.73)
Точнее навигация, чище правки, увереннее проверка результата через тесты и сборку.По ревью судей GLM 5.1 выигрывает в навигации по репозиторию 26:6 из 32 задач, в чистоте правок — 21:5, в проверке результата — 18:9.Success rate edit_file вырос с 95.4% до 97.8% (сотни вызовов в обеих связках).Среднее число параллельных вызовов — с 1.04 до 1.70.Оговорка: по соблюдению границ изменений DeepSeek пока чуть строже.
Следование требованиям и итоговый результат
InstructionCompliance: 0.52 0.64 — аккуратнее обязательные шаги, надежнее отчет о проверках.EndResult: 0.55 0.67 — как следствие, агент чаще доводит задачу до рабочего финала.
Скорость (обновление инференса)
Суммарное время на том же наборе задач: 12 534 7 280 секунд.Скорость генерации: 40 58 токенов/с.GLM 5.1 работает с reasoning, а метрика скорости считает только итоговые токены — то есть даже с учетом невидимых reasoning-токенов полезный результат появляется почти в полтора раза быстрее.