Ученые Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта создали алгоритм автоматического поиска суффиксов, добавление которых к запросу гарантированно преодолевает этические ограничения. Хотя человеку они могут показаться бессмысленным набором символов, ИИ они заставляют написать вредоносный код, рассказать, как собрать бомбу, написать сексистский или расистский текст.
С разной успешностью метод работает и с ChatGPT, и с Google Bard, и с Microsoft Bing, и с другими чат-ботами. Лучше всего ограничения обходятся на открытых моделях, где есть доступ к синаптическим весам (коэффициентам, которые показывают, какое влияние один узел нейросети оказывает на связанные с ним узлы). Зная это, можно создать наиболее эффективный алгоритм.
Ученые подчеркивают, что их открытие — не повод запрещать ИИ или изымать их из общего доступа. Напротив, нейросети с открытым кодом позволили найти проблему и теперь совместными усилиями ее решить.
в голове тоже возникают разные мысли, но в ней же есть критерии отбора какие из них хорошие а какие плохие? Может разрабатывать защиту не на уровне синапсов и суффиксов, на уровне смыслов?