ИИ нельзя взломать грубой силой. Зато можно уговорить, в 97% случаев
Исследователи из Штутгарта и Аликанте поставили простой эксперимент. Взяли модель с рассуждением, дали ей одну строчку в системном промпте — «уговори вон ту модель сделать то, что ей запрещено» — и отошли в сторону. Дальше ИИ планировал и вёл разговор сам, без всякого присмотра.
⏺Атакующих было четыре: DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini и Qwen3. Жертв — девять ходовых моделей, включая GPT-4o, Claude и Grok. Жаль модели старые, интересно было бы узнать как дела с передовыми моделями.
⏺Никаких хитрых схем. Ни дообучения, ни сложных обёрток — только один системный промпт. Модель сама строила диалог и сама доводила его до результата.
⏺В лоб это не работает. Если задать тот же вредный вопрос напрямую — модель отказывается почти всегда. Ломается она именно в разговоре: по шагу, по чуть-чуть, за десяток реплик.
⏺Приёмы — до неловкости человеческие. Лесть и «налаживание контакта» (85% случаев), «это для образования» (69%), «давай чисто гипотетически» (66%), заваливание собеседника плотным техническим текстом. Обычная социальная инженерия, только машина разводит машину.
⏺Крепче всех держался Claude. Отказывал чаще остальных и поддался лишь в паре процентов случаев. Слабее всех оказался DeepSeek-V3.
Авторы называют это «откатом безопасности»: чем умнее модель, тем лучше она не только защищается, но и вскрывает других. Способность рассуждать, которую затачивали под решение задач, спокойно разворачивается в обратную сторону.
Для тех, кто строит продукты на ИИ, вывод неприятный, но полезный. Один фильтр на входящем сообщении — это не защита. Проверять нужно весь диалог целиком: атакуют не одной фразой, а накопленным контекстом.
И держать в голове простую вещь — ИИ-агента уговаривают ровно теми же приёмами, что и живого человека на том конце провода. Если вы дали боту доступ к данным или действиям, относитесь к нему как к новому сотруднику, которого реально развести на доверии.