Cohere Labs анонсирует новое исследование Self-Verified RL с использованием Soft-Rewards

Hero illustration: Cohere Labs анонсирует новое исследование Self-Verified RL с использованием Soft-Rewards.

О чём эта новость

Модель Command A+ установила новый стандарт в машинном переводе, опередив конкурентов.подробнее →
Cohere Labs представила исследование Soft-SVeRL для повышения надежности LLM через самопроверку с «мягкими» наградами.подробнее →
Ключевыми технологиями перевода Command A+ стали difficulty sampling и Deep Translation.подробнее →
Command A+ предлагает гибкие опции развертывания для корпораций, включая суверенные и локальные установки.подробнее →

Cohere Labs объявила о новом фундаментальном исследовании по самопроверяемому обучению с подкреплением (Self-Verified Reinforcement Learning, SVeRL) с использованием «мягких» наград. Параллельно с этим, компания улучшила возможности машинного перевода своей флагманской модели Command A+, установив новые отраслевые стандарты и превзойдя конкурентов.

Новое исследование: Самопроверяемое обучение с подкреплением (Self-Verified RL)

Cohere Labs представила новое исследование в области самопроверяемого обучения с подкреплением (SVeRL), направленное на повышение надежности больших языковых моделей (LLM) в задачах, где можно автоматически проверить корректность ответов. Традиционное обучение с подкреплением от верифицируемых наград (RLVR) уже показало свою эффективность в таких областях, как математика и генерация кода, но SVeRL расширяет эти возможности, позволяя моделям самостоятельно оценивать и корректировать свои результаты.

Самопроверка критически важна для LLM, поскольку многие реальные задачи являются лишь частично верифицируемыми. Запросы могут содержать несколько требований, и ответы модели могут удовлетворять лишь некоторым из них, при этом не всегда существует единый «правильный» ответ. Способность модели самостоятельно оценивать свои выходные данные и их соответствие всем заданным условиям повышает её полезность и точность.

Наибольшую выгоду от применения SVeRL получают области, где требуется высокая степень достоверности и возможность автоматической проверки, например, решение математических задач, создание корректного кода, а также выполнение сложных многоэтапных инструкций. Повышение надежности LLM через самопроверку снижает риски «инфляции наград», когда модель ошибочно оценивает свои неполные или некорректные ответы как успешные, что способствует генерации более качественных и стабильных результатов.

Soft-SVeRL: подход Cohere к верификации с мягкими наградами

Подход Cohere к самопроверяемому обучению с подкреплением получил название Soft-SVeRL, представляя собой фреймворк для обучения с подкреплением на основе декомпозированных, обучаемых верификационных сигналов. В отличие от традиционной бинарной системы «прошел/не прошел», Soft-SVeRL трансформирует каждый запрос в контрольный список атомарных требований.

Ключевым элементом этого подхода являются «мягкие» награды, которые улучшают сигнал для обучения LLM. Система оценивает ответы кандидата по каждому пункту с помощью верификатора LLM, а затем обучает модель на основе полученных мягких наград. Такой подход обеспечивает более плотный сигнал «частичного зачета», который более информативен, чем разреженная бинарная оценка. Это особенно ценно в задачах, где ответы могут удовлетворять некоторым, но не всем требованиям, предоставляя модели детальную обратную связь.

Экспериментальные результаты Soft-SVeRL демонстрируют улучшение. В контролируемой среде следования инструкциям с использованием оценки на основе правил, подход Soft-RLVR, основанный на контрольных списках, увеличил показатель IFEval до 11,1 пункта, используя только обучаемые награды верификатора. Исследования также показали, что качество как самого верификатора, так и контрольного списка напрямую влияет на последующие результаты обучения с подкреплением.

Однако при самоверификации возникают определенные проблемы, в частности склонность к «инфляции наград» из-за излишне лояльных самооценок. Чтобы предотвратить этот коллапс, Cohere Labs предлагает явную стабилизацию. Это необходимо для поддержания надежности системы и предотвращения ситуации, когда модель начинает оценивать себя слишком высоко, несмотря на неполные или неточные ответы. В источниках нет данных о конкретных механизмах этой стабилизации вне общего заявления о её необходимости.

Command A+: Новые горизонты в машинном переводе

Модель Command A+ от Cohere Labs достигла новых высот в возможностях машинного перевода, установив новые отраслевые стандарты. Компания объявила, что Command A+ превосходит конкурентов, что позиционирует её как лидера в этой области. Эти заявления подтверждаются как внутренними тестами, так и внешней проверкой качества.

Согласно Cohere, Command A+ открывает явный отрыв от конкурентов с открытым исходным кодом, таких как Mistral Medium 3.5, DeepSeek и gpt-oss от OpenAI. Более того, модель превосходит даже Claude Opus 4.6 и специализированные системы перевода, включая Google Translate. Это подчеркивает универсальность и высокую точность Command A+ в широком спектре задач перевода.

Cohere позиционирует Command A+ как «новый промышленный стандарт для безопасного, готового к использованию на предприятии перевода». Компания заявляет, что модель демонстрирует превосходную производительность по бенчмаркам в 23 деловых языках, на которых она обучалась. Внешняя проверка качества, проведенная RWS Group, подтвердила высокую производительность Command A+ в сложных задачах перевода на нескольких языках и в различных предметных областях. Будут ли доступны более подробные технические бенчмарки для публичного подтверждения этих заявлений о превосходстве Command A+ в переводе — в источниках не указано.

Технологии, стоящие за прорывом в переводе Command A+

Достижение столь высокого качества перевода в Command A+ стало возможным благодаря внедрению Cohere Labs двух ключевых технологических подходов: difficulty sampling и Deep Translation. Эти методы позволяют модели более эффективно обрабатывать сложные сценарии и обеспечивать высокую точность.

Difficulty sampling — это техника, при которой модель тонко настраивается на наиболее сложные примеры данных. В процессе обучения Cohere уделяла большее внимание таким примерам, снижая вес более простых и менее качественных параллельных данных. Этот подход позволяет более точно нацеливать обучение на те области, где базовая модель получает наибольшую выгоду, что критически важно для улучшения производительности в сложных переводческих задачах.

Deep Translation представляет собой агентический многоступенчатый рабочий процесс, разработанный для итеративного улучшения черновиков переводов перед их окончательной выдачей. Этот метод повышает качество в сложных случаях использования. Модель использует итеративное рассуждение, что позволяет ей многократно пересматривать и дорабатывать переводы, достигая таким образом более точных и нюансированных результатов, которые превосходят традиционные однопроходные системы.

Command A+: Ориентация на предприятие и гибкие возможности развертывания

Command A+ разработана как и эффективная открытая модель, ориентированная на корпоративный сектор и предназначенная для обработки критически важных и конфиденциальных документов. Она позиционируется как ключевой элемент для суверенной критической инфраструктуры, предоставляя предприятиям и организациям государственного сектора необходимую прозрачность, контроль и эффективность для масштабирования ИИ, соответствуя высочайшим стандартам безопасности и суверенитета данных.

Архитектура Command A+ основана на подходе Mixture-of-Experts (MoE), что позволяет модели с 218 миллиардами параметров активировать только 25 миллиардов параметров на один запрос. Такая эффективность обеспечивает высокопроизводительный инференс при использовании всего двух графических процессоров H100 или одного B200, делая Command A+ практичным выбором для частных развертываний, где аппаратные ресурсы ограничены, а предсказуемость затрат имеет первостепенное значение.

Cohere предлагает различные опции безопасного развертывания, включая работу на платформе Cohere, частные инсталляции (для полного контроля клиента или развертывания на месте) и доступ для исследований через Hugging Face. Модель поддерживает развертывание в любой среде, где находятся конфиденциальные данные — будь то VPC, локальные серверы или полностью изолированные сети (air-gapped). Это обеспечивает полный операционный контроль и соответствует концепции суверенного ИИ, позволяя организациям владеть своим интеллектуальным слоем, а не арендовать его.

Какие конкретные сценарии использования в корпоративном сегменте уже реализуются с помощью Command A+ в области перевода — в источниках нет данных.

Развитие открытой науки и сообщества Cohere Labs

Cohere Labs активно развивает инициативы в области открытой науки, стремясь ускорить открытия посредством прозрачных исследований и моделей с открытыми весами. Компания поддерживает глобальное сообщество из более чем 5000 исследователей, которые совместно расширяют границы ИИ.

Cohere активно развивает свое исследовательское сообщество, организуя программы и мероприятия, способствующие коллективному развитию ИИ. Это включает специализированные подгруппы для исследователей, сфокусированных на конкретных темах, таких как многоязычный ИИ или безопасность. Цель состоит в том, чтобы индивидуальное любопытство превращалось в прорывы, продвигающие всю область вперед, и помогать участникам публиковать работы и становиться признанными исследователями.

Для дальнейшей поддержки сообщества и облегчения доступа к знаниям, Cohere Labs теперь предлагает подписку на полные календари событий, включая читательские группы, технологические доклады и исследовательские коллаборации. Эти ресурсы доступны в различных подполях исследования машинного обучения, что позволяет членам сообщества легко участвовать и углублять свои знания.

Что это значит

Cohere представила модель Command A+ для машинного перевода и результаты исследований по самопроверяемому обучению с подкреплением. Пока неясно, как эти академические наработки будут интегрированы в корпоративные продукты компании.

Cohere Labs анонсирует новое исследование Self-Verified RL с использованием Soft-Rewards daily