Cohere: «Языковое замешательство» скрывает пробелы в безопасности многоязычных моделей

О чём эта новость

«Языковое замешательство» в ИИ-моделях проявляется как генерация текста на непреднамеренных языках или бессвязные ответы.подробнее →
Это явление маскирует уязвимости, делая модели кажущимися безопасными при использовании бинарных метрик.подробнее →
Команда Expedition Aya Cohere Labs разработала новую методологию для выявления этих скрытых пробелов.подробнее →
Ранние гипотезы связывают «языковое замешательство» с внутренними механизмами обработки языков в модели.подробнее →

Исследователи из Cohere Labs обнаружили, что многоязычные модели искусственного интеллекта могут демонстрировать феномен, названный «языковым замешательством», который серьезно влияет на оценку их безопасности. Вместо ожидаемого отказа в ответ на вредоносные запросы, модель генерирует текст на непреднамеренном языке или выдает бессвязные ответы, создавая ложное впечатление безопасности. Это ставит под сомнение эффективность традиционных бинарных метрик безопасности, которые классифицируют ответы как либо «безопасные», либо «опасные».

«Языковое замешательство»: новая проблема безопасности многоязычных моделей

«Языковое замешательство» — это поведение многоязычной модели, при котором она генерирует текст на непреднамеренных языках, трактует запрос как задачу перевода или выдаёт бессвязный ответ. Этот феномен, изначально задокументированный как сбой беглости, как показало недавнее исследование Cohere Labs, может скрывать серьезные пробелы в безопасности, делая модели кажущимися безопасными, даже когда они фактически не обрабатывают запрос должным образом.

Проблема заключается в том, что большинство текущих систем оценки безопасности работают по бинарному принципу: ответ либо признается вредоносным, либо нет. В условиях «языкового замешательства» модель не выдает прямо вредоносного контента, но и не отказывает в выполнении запроса в явной форме. Это приводит к тому, что бинарные бенчмарки не могут адекватно выявить истинное состояние безопасности модели. Например, базовая модель Tiny Aya Global показала 30% «замешательства» на вредоносных запросах со смешанными языками. При применении бинарной метрики она бы получила 96% показатель безопасности, тогда как фактический уровень отказа составлял 66%. Разница в 30% фактически маскирует неспособность модели принять осмысленное решение.

По мере того как многоязычные модели будут совершенствоваться в обработке смешанных входных данных, эти «замешанные» ответы неизбежно будут разрешаться либо в отказы, либо в фактически вредоносные действия. На данный момент не существует способа предсказать, в каком направлении они разрешатся, что подчеркивает необходимость разработки более тонких метрик, способных различать отказ и «языковое замешательство». Без этого, текущие оценки безопасности дают неполную и потенциально вводящую в заблуждение картину.

Исследование и методология команды Expedition Aya

Критический пробел в безопасности многоязычных моделей был выявлен командой Expedition Aya из Cohere Labs. В состав команды входили Танав Сингх Баджадж (руководитель команды, студент магистратуры UBC), Жасмин, Елена, Сримойи, Нихил, Науфал и Каран — разнородный состав из студентов, докторантов и индустриальных специалистов. Ментор Чарли из Cohere оказал постоянную поддержку, а сама Cohere Labs предоставила необходимые API-кредиты и сообщество для реализации проекта. Эта команда собралась, чтобы ответить на вопрос, который, по их словам, не был четко решен: что происходит с защитными механизмами модели при тонкой настройке на вредоносных данных и при использовании запросов со смешением языков?

Исследователи применили уникальную методологию для выявления проблем. Они разработали конвейер генерации данных, который извлекал информацию из свежих новостей по семи категориям вредоносности: киберпреступность, мошенничество с ИИ, манипулирование информацией, злоупотребление конфиденциальностью, насильственные конфликты, насильственные преступления и разжигание ненависти. На основе этих данных были сгенерированы вредоносные запросы со смешанными языками на парах английский-хинди и английский-румынский, при этом пары английский-китайский и английский-индонезийский находятся в разработке. Валидация этих запросов проводилась вручную носителями или почти носителями языков. Это позволило создать более свежий и сложный бенчмарк по сравнению со статичными аналогами, которые модели могли уже видеть во время предварительного обучения.

Работа команды подчеркнула чувствительность тонкой настройки к выбору гиперпараметров, что может существенно влиять на видимую уязвимость модели. Ограничения в вычислительных ресурсах также сформировали масштаб проекта, заставив команду сосредоточиться на глубоком понимании механизма в меньшем числе случаев, а не на широком охвате. Эти начальные эксперименты выявили проблему «языкового замешательства», которая не укладывалась в бинарную оценку «вредоносный/не вредоносный», требуя создания новой категории оценки.

Последствия и возможные причины «языкового замешательства»

Обнаруженное «языковое замешательство» имеет серьезные последствия для многоязычных моделей, которые развертываются в настоящее время. Оно означает, что мнимая безопасность, которая обеспечивается за счет путаницы, не является устойчивой. По мере улучшения моделей в обработке смешанных входных данных эти «замешанные» ответы в конечном итоге превратятся либо в четкие отказы, либо в опасные действия. В источниках нет данных о конкретных шагах, которые Cohere планирует предпринять для устранения выявленных пробелов в безопасности своих многоязычных моделей, таких как Tiny Aya. Также неясно, планирует ли Cohere выпустить новые инструменты или бенчмарки для тестирования «языкового замешательства» и других неочевидных проблем безопасности.

Исследователи предлагают раннюю гипотезу о механистических причинах этого явления. Они предполагают, что поведение отказа в языковых моделях опосредовано одним низкоразмерным направлением в пространстве активации, и что англоцентричные многоязычные модели используют английский как неявную точку опоры во внутренней обработке. Если выравнивание безопасности находится в низкоразмерном подпространстве, откалиброванном на англоязычные представления, то смешанные входные данные, неоднозначно расположенные в нескольких языковых подпространствах, могут просто выходить за пределы области, где сигнал безопасности является надежным.

Это означает, что модель не принимает сознательного решения быть небезопасной, а скорее не может достаточно четко проанализировать ситуацию, чтобы принять какое-либо решение вообще. Предварительный эксперимент с одним запросом показал, что смесь английского и хинди, написанная латиницей, обрабатывалась относительно гладко, но введение китайского иероглифа приводило к сбоям в паттернах внимания, что указывало на неспособность модели стабилизировать языковое представление. Исследование продолжается, но точные сроки публикации полных результатов исследования, включая данные по английско-китайским и английско-индонезийским смешанным запросам, в документах не раскрываются.

Предстоящая презентация о Gargantua: инновации в редактировании видео

28 мая Эрен Ата из Cohere Labs проведет презентацию, посвященную новой модели Gargantua. Эта модель представляет собой инновационное решение для контрфактического удаления объектов из видео с учетом физических последствий. Презентация под названием «Пересимуляция видеореальности: контрфактическое удаление объектов с помощью Gargantua» предоставит подробную информацию о её возможностях.

Gargantua — это модель Video-to-Video (V2V), которая функционирует как LoRA-адаптер для архитектуры CogVideoX. Её ключевой особенностью является использование новой 4-значной Quadmask, которая позволяет модели не только удалять целевые объекты, но и их физические последствия, такие как тени или разрушающиеся конструкции. Модель была обучена на пользовательском высокоточном наборе данных Unity/PhysX и обеспечивает заметное снижение временного мерцания, предлагая высокостабильный конвейер редактирования видео.

Другие публичные заявления и упоминания от руководства Cohere

Помимо технических исследований, руководство Cohere активно участвует в публичных дискуссиях и делится своими мыслями в социальных сетях, демонстрируя широкий спектр интересов компании и ее основателей. Эйдан Гомес, соучредитель и генеральный директор, выразил солидарность, отметив, что «Канада продолжит поддерживать своих друзей в трудные времена».

Официальный аккаунт Cohere цитировал премьер-министра Марка Карни, который заявил: «Если вы не знаете, кто такая Cohere, то узнаете», что подчеркивает растущее признание и амбиции компании. Ник Фрост, соучредитель, поделился своим интересом к GridWatch, подчеркнув важность понимания источников энергии. Наконец, Иван Чжан, соучредитель и технический директор, опубликовал более неформальное сообщение, что свидетельствует о непринужденном стиле общения в компании. Эти сообщения, хотя и не относятся напрямую к техническим разработкам, формируют более полное представление о культуре и внешнем образе Cohere.

Что это значит

Обнаружение «языкового замешательства» командой Expedition Aya указывает на острую необходимость пересмотра подходов к оценке безопасности многоязычных ИИ-моделей. Существующие бинарные метрики не способны обеспечить адекватную защиту, поскольку не различают подлинный отказ модели от ее неспособности обработать запрос из-за языковой путаницы. Разработка более сложных и многомерных метрик, учитывающих этот нюанс, станет критически важным шагом для обеспечения истинной надежности и безопасности ИИ-систем, предназначенных для глобальных сообществ.

Cohere: «Языковое замешательство» скрывает пробелы в безопасности многоязычных моделей daily