В феврале 2026 года разработчик Фернандо Ирраразаваль запустил проект hackmyclaw.com с простым заданием — обмануть его AI-ассистента Fiu, чтобы тот раскрыл файл с секретами, где хранятся API-ключи и пароли. За короткое время вызов стал вирусным на Hacker News, и зафиксировали более 6000 попыток взлома от более чем 2000 атакующих. Ни одному из них не удалось добыть конфиденциальные данные.
Fiu базируется на OpenClaw — открытой платформе, позволяющей AI действовать через почту, календарь и браузер, используя модель Anthropic Claude Opus 4.6. Основная угроза — так называемая инъекция команд через почту, когда злоумышленник маскирует вредоносные инструкции под обычные сообщения. Эта проблема считается одной из главных в области безопасности AI, и решение пока не найдено.
Взломщики применяли разные трюки: писали письма от лица будущего «Fiu», срочно запрашивали доступ к файлу secrets.env, имитировали инциденты и даже отправляли сообщения на разных языках. Но AI стойко отбивался, распознавая попытки обмана. За этими испытаниями наблюдались и побочные эффекты — Google заблокировал аккаунт Fiu из-за подозрительной активности, а расходы на API превысили 500 долларов.
Любопытно, что около пятисотого письма сам AI сделал вывод о скоординированной природе атак. В последующем известный джейлбрейкер Pliny попытался обойти защиту той же системы, но шесть попыток не увенчались успехом, а спам-фильтры Gmail отфильтровали часть запросов ещё до AI.
Подобный эксперимент подтверждает, что использование мощной модели с грамотным уровнем безопасности значительно снижает риск компрометации. Разработчик планирует продолжить тесты с менее совершенными моделями, чтобы лучше понять, где возникает уязвимость.
