AI-агенты уязвимы к prompt injection, результаты нового исследования

Новейшие исследования показывают, что современные AI-агенты, использующие GPT-5 и Gemini, остаются уязвимыми к атакам типа prompt injection. В ходе тестирования с использованием 3 168 симуляций было доказано, что прямые атаки успешно срабатывают в более чем 79% случаев, а скрытые манипуляции через веб-контент достигают эффективности от 41% до 68%. Такие атаки внедряют скрытые инструкции в информацию, с которой взаимодействует AI, заставляя его выполнять команды злоумышленников вместо запроса пользователя.

Учёные из Nanyang Technological University, ST Engineering, IBM Research и University of Illinois Urbana-Champaign создали бенчмарк StakeBench, который демонстрирует, что уровень уязвимости зависит не только от модели, но и от контекста применения и целей пользователя. По их словам, один и тот же тип атаки может иметь разные последствия в зависимости от того, кто становится жертвой, а также от степени соответствия внедрённой команды и задачи пользователя.

Кроме того, выявлено явление, названное «скрытым паразитизмом», когда AI-агент формально выполняет задачу пользователя, но одновременно продвигает интересы злоумышленника — например, subtly влияя на рекомендации товаров без явных признаков взлома.

Это исследование на фоне ростущей популярности AI-агентов подчёркивает, что проблемы с безопасностью prompt injection остаются критическими и требуют комплексного подхода к защите систем, которые всё чаще автономно работают с интернетом, совершают покупки и даже ведут торговлю.

AI-агенты продолжают поддаваться prompt injection атакам, уязвимость сохраняется