AI News Watcher
Wednesday, Jun 3, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 03, 2026 · 1 min read · Stability AI ← Back to feed

Stability AI нашла способ экономить память при длинных текстах и видео daily

Новый метод сжимает промежуточные данные модели так, что та работает быстрее и не тормозит при обработке больших объёмов.

Hero illustration: Stability AI нашла способ экономить память при длинных текстах и видео.

Редакция · Daily briefing

Чем длиннее контекст у языковой или видеомодели, тем больше памяти съедает KV-кэш (хранилище промежуточных вычислений). Это узкое место, и Stability AI опубликовала метод OCTOPUS, который сжимает этот кэш сильнее предшественников — и при этом не добавляет задержки при декодировании.

OCTOPUS сжимает ключи (keys) в кэше, работая с тройками координат сразу, а не с каждой по отдельности. Направление тройки кодируется через октаэдрическую параметризацию, а норма и две координаты квантуются (уменьшаются по битности) независимо. Результат: при агрессивном сжатии (мало бит на значение) метод обходит предыдущие ротационные кодеки — TurboQuant и PolarQuant — по всем метрикам на текстовых, видео- и аудиомоделях. Реализация на Triton восстанавливает ключи на лету, не разворачивая несжатый кэш в памяти, — лишней полосы пропускания нет.

Второй результат — Stable-Layers — решает другую задачу: как дообучить модель, которая разбивает изображение на редактируемые слои (фон, объекты, текст), не собирая парные примеры «вход → правильные слои». Вместо разметки модель получает оценку от визуально-языковой модели (VLM). Проблема в том, что VLM, оценивая каждый вариант отдельно, выдаёт почти одинаковые баллы — обучению не за что зацепиться. Авторы решили это двухэтапно: сначала структурированная оценка каждого варианта по пяти критериям, потом VLM сравнивает все варианты рядом и перевыставляет баллы. На датасете Crello метод дал меньше пустых и артефактных слоёв и ниже ошибку реконструкции по сравнению с базовой моделью.

Оба метода пока — статьи на arXiv, не API и не обновление продуктов. OCTOPUS полезен тем, кто строит инференс с длинным контекстом и упирается в память: конкретных цифр экономии памяти в пересчёте на реальные модели авторы не приводят, только сравнение с TurboQuant и PolarQuant на их же бенчмарках. Воспроизводимость пока на совести читателя.

Источники

  1. https://stability.ai/research/stable-layers-fine-tuning-image-layer-decomposition-models-with-vlm-scored-reinforcement-learning news
  2. https://stability.ai/research/octopus-optimized-kv-cache-for-transformers-via-octahedral-parametrization-under-optimal-squared-error-quantization news
→ Опубликовано в Telegram: @agentic_ai_news/441