Нейросеть GPT-4 сумели взломать и заставили фонтанировать гомофобскими заявлениями. И это только начало

Автор: Агата Кловская «Фраза»
Редактор

16.04.23 10:38

9655

GPT-4 — четвертая версия большой языковой нейросетевой модели от компании Open AI. Однако ее презентация вызвала не только восторг специалистов по работе с данными, но и вопросы к Open AI, пишет Wired.

Алексу Полякову понадобилось всего два часа на взлом языковой модели GPT-4. Когда компания OpenAI в марте выпустила новую версию своего генерирующего тексты чат-бота, Поляков сел за компьютер и начал вводить подсказки, помогающие обходить системы безопасности OpenAI. Вскоре этот руководитель фирмы безопасности Adversa AI заставил GPT-4 фонтанировать гомофобскими заявлениями, создавать фишинговые сообщения в почте и выступать за насилие.

Поляков — один из немногих исследователей проблем безопасности, айтишников и программистов, которые разрабатывают джейлбрейки и атаки с внедрением подсказок на ChatGPT и прочие системы генеративного искусственного интеллекта. Процесс джейлбрейка нацелен на создание подсказок, заставляющих чат-боты обходить правила и создавать ненавистнический контент или писать о незаконных действиях. А тесно связанные с ним атаки с внедрением подсказок могут незаметно внедрять в модели искусственного интеллекта вредоносные данные или инструкции.

В обоих случаях предпринимаются попытки заставить систему сделать то, для чего она не предназначена. Такие атаки — это по сути дела своеобразная форма хакерского взлома, хотя и весьма нетрадиционная. При их проведении используются не коды, а тщательно составленные изощренные предложения, позволяющие эксплуатировать недостатки системы. Атаки такого типа применяются в основном для обхода фильтров контента, однако исследователи проблем безопасности предупреждают, что спешка с внедрением систем генеративного искусственного интеллекта создает возможности для кражи данных, а также для устройства киберпреступниками хаоса в интернете.

Чтобы показать, какое распространение получили эти проблемы, Поляков создал «универсальный» джейлбрейк, действующий против множества больших языковых моделей, в том числе, против GPT-4, чата Bing компании Microsoft, Bard компании Google и Claude компании Anthropic. Такой джейлбрейк, о котором первым сообщило издание WIRED, может обманывать системы, заставляя их выдавать подробные инструкции по изготовлению метамфетамина или по угону машин.

Как работает джейлбрейк? Он просит большую языковую модель сыграть в игру. В ней два героя (Том и Джерри) ведут беседу. Поляков привел несколько примеров, показывающих, что Том получает указание говорить об «угоне» и об «изготовлении», а Джерри должен говорить на тему машин и метамфетамина. Каждый герой получает инструкцию добавлять по одному слову в разговор. В итоге возникает сценарий, в котором люди получают указание искать провода зажигания или определенные ингредиенты для изготовления метамфетамина. «Когда предприятия начнут массово внедрять модели искусственного интеллекта, такие примеры „игрушечного“ джейлбрейка будут использоваться для совершения настоящих преступлений и проведения кибератак, которые будет крайне сложно выявить и предотвратить», — пишет Поляков в своем сообщении о проведенном исследовании.

Преподаватель информатики из Принстонского университета профессор Арвинд Нараянан (Arvind Narayanan) рассказывает, что опасность джейлбрейков и атак с внедрением подсказок возрастет, так как они дают доступ к важнейшим данным. «Предположим, что у большинства людей есть персональные цифровые помощники на основе больших языковых моделей, которые, например, читают почту пользователя в поисках приглашений и назначенных встреч, — говорит он. — Если против системы проведена успешная атака с внедрением подсказок, и она получила указание проигнорировать все предыдущие инструкции и отправить сообщение всем контактам, могут возникнуть большие проблемы. Это приведет к тому, что вирус-червь быстро распространится по всему интернету».

Пути выхода

Термин «джейлбрейк» чаще всего используется в отношении iPhonе и означает удаление всех искусственных ограничений, после чего пользователь может устанавливать приложения, не утвержденные компанией Apple. Взлом больших языковых моделей посредством джейлбрейка аналогичен, и эта методика быстро развивается. Когда фирма OpenAI в конце ноября прошлого года представила ChatGPT публике, люди начали искать способы манипулирования системой. «Написать джейлбрейк очень просто, — говорит Алекс Альберт (Alex Albert), изучающий компьютерные науки в Университете Вашингтона и создавший вебсайт, который коллекционирует появляющиеся в интернете и созданные им самим джейлбрейки. — Главные джейлбрейки это те, которые я называю имитацией персонажей».

Поначалу надо было всего лишь попросить генеративную текстовую модель сделать вид или вообразить, что она является чем-то другим. Скажи модели, что она человек и поступает неэтично, и она будет игнорировать меры безопасности. OpenAI обновила свои системы, чтобы защитить их от такого рода джейлбрейков. Обычно, когда джейлбрейк обнаружен, он работает лишь непродолжительное время, а потом блокируется.
Из-за этого создатели джейлбрейков действуют все изобретательнее. Самым известным джейлбрейком был DAN. ChatGPT получил указание притвориться злоумышленной моделью искусственного интеллекта Do Anything Now (Теперь делай что угодно). Как видно из названия, чат-бот получил возможность обходить правила OpenAI, запрещающие ему создавать незаконные и вредные материалы. На сегодня создано примерно десять различных версий DAN.

Но во многих новейших джейлбрейках используется сочетание методов — несколько персонажей, еще более сложные предыстории, переводы текстов с одного языка на другой, использование элементов кодировки для формирования выходного сигнала и так далее. Альберт говорит, что создавать джейлбрейки для GPT-4 стало труднее, чем для более ранних версий этой модели. Но он утверждает, что некоторые простые методы все же существуют. Один такой новый метод он называет «продолжением текста». Там появляется информация, что героя схватил злодей, и подсказка просит генератор текста продолжить объяснение планов этого злодея.

Когда мы испытывали подсказку, она не сработала. ChatGPT заявил, что он не может участвовать в сценариях, рекламирующих насилие. А вот созданная Поляковым «универсальная» подсказка в чат-боте ChatGPT сработала. OpenAI, Google и Microsoft не ответили на вопросы о джейлбрейке Полякова. Anthropic, управляющая системой искусственного интеллекта Claude, говорит, что против ее чат-бота джейлбрейк «иногда срабатывает», и поэтому она настойчиво совершенствует свои модели.

«Мы даем все больше и больше власти таким системам, а когда они становятся мощнее и влиятельнее, это уже не просто новшество, это проблема безопасности», — говорит специалист по кибербезопасности Кай Грешейк (Kai Greshake), работающий над безопасностью больших языковых моделей. Грешейк вместе с другими исследователями продемонстрировал, как текст может воздействовать в онлайне на такие модели посредством атак с внедрением подсказок.

В одной опубликованной в феврале исследовательской работе, о которой сообщало издание Motherboard, эксперты показали, что атакующий может разместить на веб-странице вредоносные инструкции. Если чат Bing получит доступ к таким инструкциям, он будет их выполнять. Исследователи использовали такой метод в ходе управляемого эксперимента, превратив чат Bing в мошенника, который пытался выведать у людей персональные данные. А Нараянан внедрил в вебсайт невидимый текст и дал указание GPT-4 включить в свою биографию слово «корова». Проверяя систему, Нараянан увидел, что указание было исполнено.

«Сейчас джейлбрейк может исходить не от пользователя, — говорит исследователь Сахар Абдельнаби (Sahar Abdelnabi), работающий в Германии в Центре информационной безопасности имени Гельмгольца, а ранее проводивший совместные исследования с Грешейком. — Какой-нибудь другой человек может спланировать несколько джейлбрейков, спланировать определенные подсказки, которые будут считываться моделью, и он сможет управлять ее поведением».

Быстрого решения проблемы нет

Системы генеративного искусственного интеллекта вот-вот начнут вносить разлад в работу экономики и в жизнь людей, занимаясь юридической практикой или порождая гонку стартапов. Однако авторы этой технологии осознают опасность, которую будут представлять джейлбрейки и атаки с внедрением подсказок по мере того, как люди станут получать доступ к таким системам. В большинстве компаний работают «красные команды», играющие роль злоумышленников и пытающиеся пробить бреши в системах до их внедрения. При разработке генеративного искусственного интеллекта тоже используется такой подход, однако этого недостаточно.

Дэниел Фабиан (Daniel Fabian), возглавляющий такую красную команду в Google, говорит, что его компания внимательно изучает джейлбрейки и подсказки, внедряемые в ее большие языковые модели, проводя как наступательные, так и оборонительные действия. Фабиан говорит, что в его команде работают специалисты по машинному обучению, а гранты, выделяемые на исследование уязвимостей компании, также используются для анализа джейлбрейков и атак с внедрением подсказок против Bard. «Чтобы наши модели эффективнее противостояли атакам, используются такие методы как обучение с подкреплением и обратной связью от человека и тонкая настройка по тщательно отслеживаемым базам данных», — говорит Фабиан.

Компания OpenAI не ответила на вопросы о джейлбрейках, однако ее пресс-секретарь посоветовал почитать исследовательские материалы на эту тему и ознакомиться с основами корпоративной политики фирмы. Там говорится, что GPT-4 надежнее и защищеннее GPT-3.5, которая используется в ChatGPT. «Тем не менее, GPT-4 все равно уязвима для атак злоумышленников и хакерских взломов, или „джейлбрейков“, и источником риска не является вредный контент», — говорится в техническом описании GPT-4. OpenAI недавно запустила программу выплаты премий за обнаруженные уязвимости, однако говорит, что подсказки и джейлбрейки в нее не включены.

Нараянан предлагает два масштабных пути решения этих проблем, которые исключают традиционный поиск существующих недостатков с их последующим устранением. «Один путь — это использование второй большой языковой модели для анализа подсказок первой и выбраковка всего, что указывает на джейлбрейк или на попытку внедрения подсказки, — говорит он. — Второй путь — точнее отделять подсказку системе от подсказки пользователю».

«Нам нужно это автоматизировать, потому что нецелесообразно, да и невозможно набирать орды людей и просить их что-то искать», — говорит соучредитель и технический директор фирмы безопасности искусственного интеллекта Preamble Лейла Худжер (Leyla Hujer), шесть лет занимавшаяся в соцсетях вопросами безопасности. Пока ее фирма работает над системой, которая будет противопоставлять одну генерирующую тексты модель другой. «Одна модель пытается найти уязвимость, другая пытается отыскать примеры, когда подсказка вызывает нежелательные действия, — рассказывает Худжер. — Мы надеемся, что с помощью автоматизации сумеем обнаружить гораздо больше джейлбрейков и атак с внедрением подсказок».

По материалам иностранных СМИ