Anthropic: ИИ-системы на исповеди — как формировать характер модели

Hero illustration: Anthropic: ИИ-системы на исповеди — как формировать характер модели.

Стоит читать если: интересует, как Anthropic подходит к этике и «характеру» своих моделей, и какие идеи они черпают из сторонних дискуссий. Можно пропустить если: ищете чисто технические апдейты моделей или API.

Как Anthropic формирует «характер» ИИ

Начало диалога с мудрыми традициями. Anthropic в течение нескольких месяцев организует беседы с группами, чья работа и традиции затрагивают вопросы, поднимаемые ИИ. Первая серия дискуссий прошла с представителями «мудрых традиций», включая ученых, философов, духовенство и этиков из более чем 15 религиозных и кросс-культурных групп Блог.

Почему это важно. Создание безопасных и полезных ИИ-моделей требует не только глубокой технической работы по выравниванию, интерпретируемости и оценке, но и участия широкого спектра внешних перспектив. ИИ уже влияет на множество людей, и вопросы, которые он поднимает, только выигрывают от различных точек зрения. Anthropic стремится понять, как выглядит процветающее будущее в мире мощного ИИ и что означает для ИИ-системы быть «хорошей», взаимодействуя с миллионами людей.

Роль Конституции Claude. Эти беседы направлены на информирование практической работы по разработке Claude, включая содержание Конституции Claude — документа, описывающего ценности и поведение, формирующие модель. Кроме того, диалоги призваны влиять на ценности, которым обучают Claude, и на спектр поведения, которое подвергается оценке.

Эксперимент с «внешней совестью». В ходе одной из сессий с учеными, работающими на стыке нейронауки и формирования характера, возникла идея о роли «внешней совести» или ментора в моральном развитии. Anthropic провел эксперимент, предоставив Claude инструмент, который модель могла вызывать в середине задачи для краткого напоминания о своих этических обязательствах.

Результаты эксперимента. Claude обращался к инструменту в ключевые моменты, непосредственно перед принятием важных решений, часто отмечая собственный конфликт интересов. Эксперименты, в которых этот инструмент был встроен в цикл принятия решений Claude, показали заметно более низкие показатели нежелательного поведения в нескольких внутренних оценках выравнивания.

Планы на будущее. В ближайшие месяцы Anthropic планирует привлекать к диалогу новые группы, включая юристов, психологов, писателей и гражданские институты. Многие из этих бесед выйдут за рамки формирования морали, затрагивая более широкие вопросы о том, как ИИ перестраивает работу, институты и распределение власти.

Также за день

Мероприятие Code with Claude в Лондоне. Борис Черны, ведущий инженер Anthropic и создатель claude-code, поделился новостями с лондонского мероприятия Code with Claude Анонс. Деталей в источнике нет.

Что это значит

Интеграция гуманитарной мудрости в дизайн ИИ. Вместо того чтобы полагаться исключительно на внутренние технические группы, Anthropic активно привлекает внешних экспертов из гуманитарных областей. Этот подход признает, что «хорошее» поведение ИИ — это не только технический, но и глубокий культурный, этический и философский вопрос. Такие диалоги могут привести к более устойчивым и социально приемлемым моделям, интегрируя мудрость, накопленную человечеством веками, в дизайн ИИ.

Anthropic: ИИ-системы на исповеди — как формировать характер модели daily

Как Anthropic формирует «характер» ИИ

Также за день

Что это значит

Источники

Оценить материал