Пять лесных торговцев на Qwen2.5-3B — и настоящие биржевые пузыри

Фронтирная модель слишком медленна и дорога, чтобы гонять совет из пяти агентов каждый тик. Разработчик взял 3B-модель, запустил мультиагентную экономику с дефицитом, гниющей едой и монополистом на дрова — и получил самовозникающие пузыри и расслоение богатства без единой жёстко прописанной логики рынка.

Выбор 3B — это архитектурное решение, не компромисс. Живая экономика требует, чтобы каждый агент принимал решения на каждом ходу. Каждый из пяти агентов отрабатывает за один батчевый GPU-вызов за тик — с GPT-4-класса моделью реалтаймовая симуляция встала бы по цене и задержке. Инфраструктура проста: vLLM на Modal, Gradio как интерфейс.

Но два инженерных урока проявились сразу, как только система заработала.

JSON-валидность оказалась 100%, а экономическое суждение — провальным. Агент, производящий жёлуди, исправно постил заявку на покупку жёлудей — того, чего у него был избыток. Фиксом стал не апгрейд модели, а переписанный промпт: явный список «что ты производишь / что тебе нужно» плюс один worked example. Качество решений выросло, агенты начали торговать по ролям. Весь цикл обёрнут в tolerant JSON parse-and-repair: кривой ответ деградирует до no-op, а не кладёт симуляцию.

Второй урок — про механику здоровья. Первая версия моделировала его как накопитель: хронический дефицит загонял каждого агента в ноль, симуляция превращалась в спираль смерти. Замена на mean-reverting mood — настроение восстанавливается, когда агент сыт и в тепле, и никогда не достигает нуля — спасла динамику. Ставки должны быть в ценах и статусе, а не в голодной смерти.

Отдельная история — почему первая версия вообще не работала. Без ограничений все агенты оказались самодостаточны: рынок очистился один раз и замолчал. Дефицит пришлось проектировать намеренно:

Диетическое разнообразие — агент съедает не больше одной единицы любого продукта за приём, поэтому выжить без торговли нельзя.
Порча запасов — скоропортящаяся еда гниёт при хранении, излишки надо продавать, пока они ещё стоят.
Монополия дровосека — каждый агент сжигает дрова каждый тик, потребность растёт, а производит дрова только один. Именно эта механика породила концентрацию богатства и панику.

Дровосек богатеет, остальные конкурируют за тепло — и вот тебе биржевой пузырь без единой строки жёстко прописанной рыночной логики. Wood Legends — механика, в которой игрок запускает реальные исторические шоки в пересказе лесного фольклора, — добавляет реакцию агентов на внешние потрясения, но это уже надстройка над рабочей экономикой.

История не про симуляцию. Она про то, что узкое место малой модели чаще в постановке задачи, чем в числе параметров. Честный пробел здесь такой: нет данных, как те же агенты с тем же промптом повели бы себя на модели покрупнее. Неясно, сколько прироста дала инженерия среды, а сколько дал бы просто размер.

Пять лесных торговцев на Qwen2.5-3B — и настоящие биржевые пузыри daily

Источники

Оценить материал