Среда, 15 января, 2025

16+

Ученые нашли способ обойти этические ограничения ИИ-моделей

Время на чтение 1 мин.

Ученые Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта создали алгоритм автоматического поиска суффиксов, добавление которых к запросу гарантированно преодолевает этические ограничения. Хотя человеку они могут показаться бессмысленным набором символов, ИИ они заставляют написать вредоносный код, рассказать, как собрать бомбу, написать сексистский или расистский текст.

С разной успешностью метод работает и с ChatGPT, и с Google Bard, и с Microsoft Bing, и с другими чат-ботами. Лучше всего ограничения обходятся на открытых моделях, где есть доступ к синаптическим весам (коэффициентам, которые показывают, какое влияние один узел нейросети оказывает на связанные с ним узлы). Зная это, можно создать наиболее эффективный алгоритм.

Ученые подчеркивают, что их открытие — не повод запрещать ИИ или изымать их из общего доступа. Напротив, нейросети с открытым кодом позволили найти проблему и теперь совместными усилиями ее решить.

Свежие новости

spot_img

1 COMMENT

  1. в голове тоже возникают разные мысли, но в ней же есть критерии отбора какие из них хорошие а какие плохие? Может разрабатывать защиту не на уровне синапсов и суффиксов, на уровне смыслов?

Оставьте ответ

Пожалуйста, введите свой комментарий!
Пожалуйста, введите ваше имя здесь