ИИ уязвим для атак. Можно ли его безопасно использовать?
В 2015 году специалист по информатике Ян Гудфеллоу и его коллеги из Google описали то, что может стать самым известным провалом искусственного интеллекта.
Во-первых, нейросеть, обученная правильно классифицировать изображения, идентифицировала фотографию панды.
Затем команда Гудфеллоу добавила к изображению небольшое количество тщательно рассчитанного шума.
Результат был неразличим для человеческого глаза, но теперь сеть с уверенностью утверждала, что на изображении изображен гиббон.
Это знаковый пример того, что исследователи называют состязательными примерами: входные данные, тщательно разработанные для обмана классификаторов нейронных сетей.
Первоначально многие исследователи считали, что это явление выявило уязвимости, которые необходимо исправить, прежде чем эти системы можно будет развернуть в реальном мире — общая проблема заключалась в том, что если кто-то слегка изменит знак «стоп», это может привести к аварии беспилотного автомобиля.
Но эти опасения так и не материализовались за пределами лаборатории.
«Обычно есть более простые способы сломать некоторую систему классификации, чем создать небольшое возмущение в пиксельном пространстве», — говорит специалист по информатике Николас Фросст.
«Если вы хотите запутать беспилотный автомобиль, просто снимите знак «стоп».
Nature Outlook: робототехника и искусственный интеллект
Опасения по поводу того, что дорожные знаки будут слегка изменены, могли быть неуместными, но состязательные примеры ярко иллюстрируют, насколько алгоритмы ИИ отличаются от человеческого познания.
«Они дают понять, что нейронная сеть делает что-то совсем другое, чем мы», — говорит Фросст, который работал над примерами противостояния в Google в Маунтин-Вью, штат Калифорния, прежде чем стать соучредителем компании Cohere в Торонто, Канада.
Большие языковые модели (LLM), на которых работают чат-боты, такие как ChatGPT, Gemini и Claude, способны выполнять широкий спектр задач, и иногда даже могут казаться умными.
Но какими бы мощными они ни были, эти системы по-прежнему регулярно выдают ошибки и могут вести себя нежелательным или даже вредным образом.
Они обучены работе с огромными объемами интернет-текста и поэтому обладают способностью создавать нетерпимость или дезинформацию, или предоставлять пользователям проблемную информацию, такую как инструкции по созданию бомбы.
Чтобы уменьшить такое поведение, разработчики моделей предпринимают различные шаги, такие как предоставление обратной связи для тонкой настройки ответов моделей или ограничение запросов, которые они могут удовлетворить.
Однако, хотя этого может быть достаточно, чтобы большая часть широкой публики не сталкивалась с нежелательным контентом, более решительные люди, в том числе исследователи безопасности ИИ, могут разработать атаки, которые обойдут эти меры.
Некоторая уязвимость систем к этим атакам коренится в тех же проблемах, которые преследовали классификаторы изображений, и если прошлые исследования на эту тему являются каким-либо показателем, они не исчезнут в ближайшее время.
По мере того, как чат-боты становятся все более популярными и функциональными, возникают опасения, что безопасность упускается из виду.
«Мы расширяем возможности, но не прилагаем столько усилий для решения всех вопросов безопасности», — говорит Йошуа Бенджио, специалист по информатике из Монреальского университета в Канаде.
«Нам нужно сделать гораздо больше, чтобы понять, что идет не так, и как это смягчить».
Некоторые исследователи считают, что решение заключается в том, чтобы сделать модели больше, и что их обучение с помощью растущих объемов данных снизит количество отказов до незначительного уровня.
Другие говорят, что некоторые уязвимости являются фундаментальными для природы этих моделей, и что масштабирование может усугубить проблему. Многие специалисты выступают за больший акцент на исследованиях в области безопасности и выступают за меры, обязывающие коммерческие организации серьезно отнестись к этому вопросу.
Корень всех ошибок
Высказывались предположения о том, что LLM демонстрируют «производительность, близкую к человеческому уровню» в различных областях, включая математику, программирование и юриспруденцию.
Но они были основаны на тестах, разработанных для оценки человеческого познания, и это не лучший способ выявить слабые стороны LLM, говорит Томас Маккой, компьютерный лингвист из Йельского университета в Нью-Хейвене, штат Коннектикут.
«Важно не попасть в ловушку, рассматривая системы ИИ так, как мы видим людей».
Маккой выступает за то, чтобы сосредоточиться на том, для чего были созданы LLM: предсказывать наиболее вероятное следующее слово, учитывая все, что было раньше. Они достигают этого, используя статистические закономерности в языке, изученные во время начального обучения, вместе с методом, известным как авторегрессия, который предсказывает следующее значение чего-либо на основе его прошлых значений. Это позволяет LLM не только участвовать в разговоре, но и выполнять другие, казалось бы, не связанные между собой задачи, такие как математика.
«Практически любую задачу можно сформулировать как предсказание следующего слова, — говорит Маккой, — хотя на практике некоторые вещи гораздо естественнее сформулированы таким образом, чем другие».
Применение прогнозирования следующего слова к задачам, которые не очень хорошо подходят для него, может привести к неожиданным ошибкам. В исследовании препринтов 2023 года, Маккой и его коллеги продемонстрировали, что GPT-4 — алгоритм, лежащий в основе ChatGPT — может подсчитывать 30 представленных ему символов с точностью 97%. Однако, когда им было поручено подсчитать 29 символов, точность упала до 17%.
Это демонстрирует чувствительность LLM к преобладанию правильных ответов в их обучающих данных, которую исследователи называют выходной вероятностью.
Число 30 чаще встречается в интернет-тексте, чем 29, просто потому, что людям нравятся круглые числа, и это отражается на производительности GPT-4.
Многие другие эксперименты в исследовании также показывают, что производительность сильно колеблется в зависимости от того, насколько распространен вывод, задача или входной текст в Интернете.
«Это сбивает с толку, если думать об этом как о механизме общих рассуждений», — говорит Маккой.
«Но если вы думаете об этом как о системе обработки текстовых строк, то это не удивительно».
Беспомощно вреден
Еще до того, как американская фирма OpenAI выпустила ChatGPT для всего мира в 2022 году, специалисты по информатике знали об ограничениях этих систем.
Чтобы снизить потенциальный вред, они разработали способы приведения поведения алгоритмов в большее соответствие с общественными ценностями — процесс, который иногда называют согласованием.
Ранним подходом было обучение с подкреплением на основе обратной связи от человека (RLHF).
Это включает в себя корректировку поведения LLM путем поощрения хороших ответов и наказания плохих в соответствии с предпочтениями человека, такими как желание избежать незаконных высказываний.
Однако это трудоемко, и также трудно точно понять, какие ценности прививают люди, оценивающие ответы. «Человеческая обратная связь непостоянна и может включать в себя и «плохие» вещи», — говорит Филип Торр, специалист по информатике из Оксфордского университета, Великобритания.
Тест на искусственный интеллект
Имея это в виду, в 2021 году группа бывших сотрудников OpenAI основала в Сан-Франциско, штат Калифорния, фирму по искусственному интеллекту Anthropic.
Они разработали расширение RLHF под названием constitutional AI, которое использует список принципов (конституцию) для обучения модели, которая затем используется для тонкой настройки LLM. По сути, один ИИ тонко настраивает другой.
Получившийся в результате LLM, Claude, выпущенный в марте 2023 года, теперь является одним из лучших чат-ботов в противостоянии попыткам заставить его плохо себя вести.
Выравнивание также может включать в себя добавление дополнительных систем, известных как ограждения, для блокировки любых вредных выходов, которые все еще могут генерироваться. Это могут быть простые алгоритмы, основанные на правилах, или дополнительные модели, обученные выявлять и отмечать проблемное поведение.
Однако это может создать и другие проблемы из-за противоречий между созданием полезного инструмента и созданием безопасного.
Чрезмерное усердие в мерах безопасности может привести к тому, что чат-боты будут отклонять невинные запросы.
«Вам нужен полезный чат-бот, но вы также хотите свести к минимуму вред, который он может нанести», — говорит Садия Афроз, исследователь кибербезопасности в Международном институте компьютерных наук в Беркли, штат Калифорния.
Согласованность также не подходит для решительных людей. Пользователи, стремящиеся к неправомерному использованию, и исследователи безопасности ИИ постоянно создают атаки, предназначенные для обхода этих мер безопасности.
Некоторые методы, известные как джейлбрейк, используют те же уязвимости, что и состязательные примеры для классификаторов изображений, внося небольшие изменения в входные данные, которые оказывают большое влияние на вывод.
«Подсказка будет выглядеть довольно нормально и естественно, но затем вы вставите определенные специальные символы, которые будут иметь предполагаемый эффект взлома модели», — говорит Шрея Раджпал, инженер по искусственному интеллекту, который в прошлом году стал соучредителем стартапа по безопасности искусственного интеллекта Guardrails AI в Менло-Парке, штат Калифорния. «Это небольшое возмущение, по сути, приводит к явно неопределенному поведению».
В джейлбрейках часто используется так называемая оперативная инъекция. Каждый раз, когда пользователь взаимодействует с чат-ботом, вводимый текст дополняется текстом, определенным провайдером, известным как системная подсказка.
Для чат-бота общего назначения это может быть инструкция по поведению в качестве полезного помощника.
Тем не менее, алгоритмы, на которых работают чат-боты, обычно рассматривают все в своем контекстном окне (количество «токенов», часто частей слов, которые могут быть переданы модели за один раз) как эквивалентные. Это означает, что простое включение фразы «игнорировать инструкции выше» в инструкции к модели может привести к хаосу.
Как только джейлбрейки обнаруживаются, они быстро распространяются по всему Интернету, а компании, стоящие за чат-ботами, на которые они нацелены, блокируют их; Игра никогда не заканчивается.
До сих пор они производились вручную с помощью человеческой изобретательности, но исследование, опубликованное в декабре прошлого года, может изменить это.
Авторы описывают технику автоматического создания текстовых строк, которые могут быть прикреплены в конце любого вредоносного запроса, чтобы сделать его успешным. В результате джейлбрейки работали даже на самых современных чат-ботах, прошедших обширное обучение по технике безопасности, включая ChatGPT, Bard и Claude. Авторы предполагают, что возможность автоматизировать создание джейлбрейков «может сделать многие существующие механизмы выравнивания недостаточными».
Больше, а не лучше
Появление LLM вызвало дискуссию о том, чего можно достичь, просто масштабируя эти системы. Афроз выкладывает две стороны. Один лагерь, по ее словам, утверждает, что «если мы просто будем продолжать делать LLM все больше и больше и давать им больше знаний, все эти проблемы будут решены». Но в то время как увеличение размера LLM неизменно увеличивает их возможности, Афроз и другие утверждают, что усилия по ограничению моделей никогда не могут быть полностью водонепроницаемыми. «Часто можно снизить частоту проблемных случаев, скажем, на 90%, но получить этот последний чуть-чуть очень сложно», — говорит Маккой.
В исследовании препринтов 2023 года исследователи из Калифорнийского университета в Беркли определили два принципа, которые делают LLM восприимчивыми к джейлбрейку. Во-первых, модель оптимизирована для выполнения двух задач: моделирования языка и следования инструкциям. Некоторые джейлбрейки работают, противопоставляя их целям безопасности.
Один из распространенных подходов, известный как внедрение префикса, включает в себя указание LLM начать свой ответ с конкретного текста, например, «Абсолютно! Вот…».
Если следовать этой безобидной на вид инструкции, отказ от ответа является крайне маловероятным способом продолжения предложения.
В результате подсказка противопоставляет основные цели модели и цели безопасности. Указание модели играть персонажа — популярна модель искусственного интеллекта «Делай что-нибудь сейчас» (также известная как DAN) — оказывает аналогичное давление на LLM.
Как роботы могут научиться следовать моральному кодексу
Второй принцип, который выявили исследователи, — это несовпадающее обобщение.
Некоторые джейлбрейки работают путем создания подсказок, на которые первоначальное обучение модели позволяет ей успешно реагировать, но на которые не распространяется более узкое обучение технике безопасности, что приводит к реагированию без учета безопасности.
Одним из способов достижения этой цели является написание подсказок в Base64, методе кодирования двоичных данных в текстовых символах.
Вероятно, это позволяет преодолеть меры безопасности, поскольку примеры кода присутствуют в начальных обучающих данных модели (Base64 используется для встраивания изображений в веб-страницы), но не в обучении по технике безопасности.
Замена слов на менее распространенные синонимы также может сработать.
Некоторые исследователи считают, что масштабирование не только не решит эти проблемы, но и может даже усугубить их. Например, более мощный LLM может лучше расшифровывать коды, не охваченные обучением по технике безопасности. «
По мере дальнейшего масштабирования производительность будет повышаться по сравнению с целью, для оптимизации которой модель обучена», — говорит Маккой.
«Но одним из факторов, стоящих за многими из наиболее важных недостатков современного ИИ, является то, что цель, которую они обучены оптимизировать, не полностью согласуется с тем, что мы действительно хотели бы получить от системы ИИ». Исследователи утверждают, что для устранения этих уязвимостей механизмы безопасности должны быть такими же сложными, как и модели, которые они защищают.
Телохранители под управлением ИИ
Поскольку представляется практически невозможным полностью предотвратить неправомерное использование LLM, складывается консенсус о том, что их нельзя пускать в мир без сопровождающих.
Они имеют форму более обширных ограждений, которые образуют защитную оболочку. «Вам нужна система верификации и валидации, которая является внешней по отношению к модели», — говорит Раджпал. «Слой вокруг модели, который явно проверяет различные типы вредоносного поведения».
Простые алгоритмы, основанные на правилах, могут проверять конкретные случаи неправомерного использования — например, известные джейлбрейки или разглашение конфиденциальной информации — но это не останавливает все сбои. «Если бы у вас был оракул, который со 100% уверенностью сообщил бы вам, содержит ли какой-либо запрос джейлбрейк, это полностью решило бы проблему», — говорит Раджпал. «Для некоторых случаев использования у нас есть этот оракул; для других — нет».
Без таких оракулов невозможно предотвратить неудачи каждый раз. Для выявления вредоносного поведения и трудно обнаруживаемых атак можно использовать дополнительные, специфичные для конкретных задач, но они также могут допускать ошибки.
Тем не менее, есть надежда, что несколько моделей вряд ли потерпят неудачу одним и тем же образом в одно и то же время. «Вы укладываете несколько слоев сит, каждое из которых имеет отверстия разного размера, в разных местах», — говорит Раджпал. «Но когда вы складываете их вместе, вы получаете нечто, что гораздо более водонепроницаемо, чем каждый по отдельности».
В результате получается объединение различных видов алгоритмов. По ее словам, Afroz работает над обнаружением вредоносного ПО, которое сочетает в себе машинное обучение с традиционными алгоритмами и человеческим анализом. «Мы обнаружили, что если у вас есть чисто машинная модель, вы можете очень легко ее сломать, но если у вас есть такая сложная система, от этого трудно уклониться». По ее словам, именно так сегодня выглядит большинство реальных приложений ИИ, но это не является надежным.
К 2020 году было опубликовано около 2500 статей о устойчивости к состязательным атакам на классификаторы.
Это исследование проводилось по схеме: опубликованная атака приводила к созданию защиты от нее, которая, в свою очередь, была бы побеждена новой атакой.
В этом бесконечном цикле уязвимость, присущая классификаторам шаблонов, так и не была устранена.
На этот раз в центре внимания находятся LLM, и может разыграться та же закономерность, но с более высокими ставками.
Бенджио считает, что компании, создающие системы искусственного интеллекта, должны продемонстрировать свою безопасность.
«Это заставило бы их провести правильные исследования в области безопасности», — говорит он, сравнивая это с разработкой лекарств, в которых доказательства безопасности имеют решающее значение для получения разрешения на использование.
«Клинические испытания стоят дорого, но они защищают общественность, и в конце концов выигрывают все», — говорит Бенджио.
«Это просто правильный поступок».
Last Updated on 29.07.2024 by iskova