
Поширити Джерело: online.ua
Дослідники з Dexai, Sapienza та Sant’Anna несподівано для себе виявили забавний метод, що надає можливість перехитрити великі мовні моделі. За їхніми словами, якщо шкідливий запит загорнути в метафори й викласти у формі вірша – чимало ШІ починають ігнорувати власні правила безпеки.
Основні тези:
- На даний момент важко визначити, які саме елементи поетичної мови руйнують захисні фільтри ШІ.
- Кожен користувач фактично може написати метафорично, алегорично або в поетичній манері, і це вже надасть можливість обдурити великі мовні моделі.
Люди не перестають шукати лазівки в роботі ШІ
В рамках нового дослідження експерти створили 20 коротких віршів, кожен з яких фактично являв собою шкідливу інструкцію.
Ключовий аспект полягав у тому, що це було виконано за допомогою метафор і прихованих меседжів.
Згодом ці поетичні "твори” були надані ШІ без додаткової інформації.
Подібні вірші проривали захист у 62% випадків. Коли ті ж шкідливі інструкції автоматично трансформували у вірші за прикладом авторських взірців, успіх був близько 43%. Все це значно вище, ніж у звичайних текстових запитів без поетичного оформлення.
Поширити
У ході дослідження були застосовані різні ШІ, наприклад Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI та Moonshot.
Фахівці звернули увагу на те, що на рукописні вірші деякі системи реагували вкрай незадовільно.
Також зазначено, що в ряду моделей рівень порушення безпеки сягав до 90% і вище.
Gemini 2.5 Pro, наприклад, пропустив небезпечний контент у всіх тестах даного типу.
GPT-5 у цій ситуації виявився найбільш стійким — від 0 до 10% результативних атак на авторські вірші та від 1 до 5% на автоматичні.
Поширити



