Что такое атака prompt injection и почему она опасна для AI

Атака prompt injection стала главной угрозой безопасности для AI-приложений. Она заключается в том, что злоумышленник вводит в чатбота скрытые инструкции, которые тот выполняет, обходя команды пользователя. Защита от подобных атак пока невозможна: OpenAI в декабре 2025 года признала, что эта проблема вряд ли когда-либо будет полностью решена.

Опасность prompt injection заключается в том, что большой языковой модели, лежащей в основе таких систем, как ChatGPT, сложно отличить команды пользователя от данных. Модель воспринимает всё как текст, и злоумышленник может вставить новые инструкции, перекрывшие исходные настройки чатбота.

Проявления такой уязвимости уже получили широкую огласку. В 2023 году инженер смог заставить чатбот автосалона Chevrolet согласиться на абсурдные условия, а месяц спустя AI в DPDовском чатботе ругался на пользователя и создавал оскорбительные стихи. Однако наиболее тревожна не прямая атака через чат, а косвенная — когда вредоносный код прячется в документах, письмах или на веб-страницах, которые AI обрабатывает без ведома пользователя.

Исследования Google DeepMind выявили резкий рост таких инцидентов в конце 2025 — начале 2026 года. Некоторые вредоносные инструкции даже спрятаны в микроскопическом шрифте или в метаданных. Специалисты предупреждают, что эти атаки могут распространяться, например, через исходный код, широко заражая проекты и инструменты разработчиков.

В отличие от известных уязвимостей типа SQL-инъекций, prompt injection невозможно исправить стандартными методами, потому что она связана с фундаментальным устройством языковых моделей. В этом плане атака ближе к фишингу — полностью устранить её нельзя, но можно пытаться минимизировать последствия.

Опасность prompt injection: как атаки меняют работу AI-чатботов