Ученые нашли способ обойти этические ограничения ИИ-моделей

Время на чтение 1 мин.

Ученые Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта создали алгоритм автоматического поиска суффиксов, добавление которых к запросу гарантированно преодолевает этические ограничения. Хотя человеку они могут показаться бессмысленным набором символов, ИИ они заставляют написать вредоносный код, рассказать, как собрать бомбу, написать сексистский или расистский текст.

С разной успешностью метод работает и с ChatGPT, и с Google Bard, и с Microsoft Bing, и с другими чат-ботами. Лучше всего ограничения обходятся на открытых моделях, где есть доступ к синаптическим весам (коэффициентам, которые показывают, какое влияние один узел нейросети оказывает на связанные с ним узлы). Зная это, можно создать наиболее эффективный алгоритм.

Ученые подчеркивают, что их открытие — не повод запрещать ИИ или изымать их из общего доступа. Напротив, нейросети с открытым кодом позволили найти проблему и теперь совместными усилиями ее решить.

1 COMMENT

Александр 03.08.2023 В 11:33

в голове тоже возникают разные мысли, но в ней же есть критерии отбора какие из них хорошие а какие плохие? Может разрабатывать защиту не на уровне синапсов и суффиксов, на уровне смыслов?

Ответить

Оставьте ответ Cancel reply

Пожалуйста, введите свой комментарий!

Пожалуйста, введите ваше имя здесь

Вы ввели неверный адрес электронной почты!

Пожалуйста, введите здесь свой адрес электронной почты

Ученые нашли способ обойти этические ограничения ИИ-моделей

Свежие новости

EHang и власти Хэфэя создадут центр разарботки для eVTOL VT35

Ученые нашли новые доказательства древних условий для жизни на Церере

EASA предложило правила сертификации требующие снизить шум для VTOL-самолетов

1 COMMENT

Оставьте ответ Cancel reply

Интересные статьи

The sky is over: история «Протона» от начала и до конца

5 фото, показывающие выход в открытый космос

Миль В-12: гигант-рекордсмен, оказавшийся ненужным