Datadog и Carnegie Mellon представили ARFBench — первый эталонный тест для оценки AI в реальных инцидентах продакшн-систем. В основе лежат 63 настоящих случая с более чем 5 миллионами данных и 750 вопросами по мониторингу, загруженными из переписок инженеров в момент неполадок.
Согласно результатам, самая продвинутая модель GPT-5 достигает точности 62,7%, что значительно ниже показателя экспертов в 72,7%. Наиболее сложные задачи требуют анализа взаимосвязей между метриками — тут AI значительно уступает и набирает вдвое меньше баллов. Собственная гибридная модель Datadog Toto в сочетании с Qwen3-VL 32B показала чуть более 63%, превосходя GPT-5, но не людей.
Исследователи отмечают, что ошибки у AI и специалистов по-разному влияют на результат. Интеллект часто «галлюцинирует» и теряет контекст, а люди ошибаются в деталях и сложных инструкциях. Идеальное совмещение человека и машины — «модель-эксперт-оракл» — могло бы повысить точность до 87,2%, что демонстрирует огромный потенциал совместной работы.
ARFBench — не просто тест, а реальный вызов, показывающий, насколько современный AI далек от замены специалистов реагирования на кризисы. Результаты доступны для просмотра на Hugging Face, подтверждая, что на данный момент человек остается незаменимым в сложных технических инцидентах.
