AI News Watcher
Tuesday, May 19, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · May 19, 2026 · 2 min read · Anthropic ← Back to feed

Anthropic: ИИ-системы на исповеди — как формировать характер модели daily

Anthropic начал широкие диалоги с представителями самых разных традиций — от ученых до духовенства и философов. Цель этих бесед — понять, как формировать «характер» ИИ-систем, чтобы они приносили пользу человечеству и действовали этично, учитывая сложности современного мира.

Hero illustration: Anthropic: ИИ-системы на исповеди — как формировать характер модели.

Редакция · Daily briefing

Стоит читать если: интересует, как Anthropic подходит к этике и «характеру» своих моделей, и какие идеи они черпают из сторонних дискуссий. Можно пропустить если: ищете чисто технические апдейты моделей или API.

Как Anthropic формирует «характер» ИИ

Начало диалога с мудрыми традициями. Anthropic в течение нескольких месяцев организует беседы с группами, чья работа и традиции затрагивают вопросы, поднимаемые ИИ. Первая серия дискуссий прошла с представителями «мудрых традиций», включая ученых, философов, духовенство и этиков из более чем 15 религиозных и кросс-культурных групп Блог.

Почему это важно. Создание безопасных и полезных ИИ-моделей требует не только глубокой технической работы по выравниванию, интерпретируемости и оценке, но и участия широкого спектра внешних перспектив. ИИ уже влияет на множество людей, и вопросы, которые он поднимает, только выигрывают от различных точек зрения. Anthropic стремится понять, как выглядит процветающее будущее в мире мощного ИИ и что означает для ИИ-системы быть «хорошей», взаимодействуя с миллионами людей.

Роль Конституции Claude. Эти беседы направлены на информирование практической работы по разработке Claude, включая содержание Конституции Claude — документа, описывающего ценности и поведение, формирующие модель. Кроме того, диалоги призваны влиять на ценности, которым обучают Claude, и на спектр поведения, которое подвергается оценке.

Эксперимент с «внешней совестью». В ходе одной из сессий с учеными, работающими на стыке нейронауки и формирования характера, возникла идея о роли «внешней совести» или ментора в моральном развитии. Anthropic провел эксперимент, предоставив Claude инструмент, который модель могла вызывать в середине задачи для краткого напоминания о своих этических обязательствах.

Результаты эксперимента. Claude обращался к инструменту в ключевые моменты, непосредственно перед принятием важных решений, часто отмечая собственный конфликт интересов. Эксперименты, в которых этот инструмент был встроен в цикл принятия решений Claude, показали заметно более низкие показатели нежелательного поведения в нескольких внутренних оценках выравнивания.

Планы на будущее. В ближайшие месяцы Anthropic планирует привлекать к диалогу новые группы, включая юристов, психологов, писателей и гражданские институты. Многие из этих бесед выйдут за рамки формирования морали, затрагивая более широкие вопросы о том, как ИИ перестраивает работу, институты и распределение власти.

Также за день

Что это значит

Интеграция гуманитарной мудрости в дизайн ИИ. Вместо того чтобы полагаться исключительно на внутренние технические группы, Anthropic активно привлекает внешних экспертов из гуманитарных областей. Этот подход признает, что «хорошее» поведение ИИ — это не только технический, но и глубокий культурный, этический и философский вопрос. Такие диалоги могут привести к более устойчивым и социально приемлемым моделям, интегрируя мудрость, накопленную человечеством веками, в дизайн ИИ.

Источники

  1. https://x.com/bcherny/status/2056650905613635669 external
  2. https://x.com/AnthropicAI/status/2056880308851708233 external
  3. https://www.anthropic.com/news/widening-conversation-ai news