Stability AI нашла способ экономить память при длинных текстах и видео

Hero illustration: Stability AI нашла способ экономить память при длинных текстах и видео.

Чем длиннее контекст у языковой или видеомодели, тем больше памяти съедает KV-кэш (хранилище промежуточных вычислений). Это узкое место, и Stability AI опубликовала метод OCTOPUS, который сжимает этот кэш сильнее предшественников — и при этом не добавляет задержки при декодировании.

OCTOPUS сжимает ключи (keys) в кэше, работая с тройками координат сразу, а не с каждой по отдельности. Направление тройки кодируется через октаэдрическую параметризацию, а норма и две координаты квантуются (уменьшаются по битности) независимо. Результат: при агрессивном сжатии (мало бит на значение) метод обходит предыдущие ротационные кодеки — TurboQuant и PolarQuant — по всем метрикам на текстовых, видео- и аудиомоделях. Реализация на Triton восстанавливает ключи на лету, не разворачивая несжатый кэш в памяти, — лишней полосы пропускания нет.

Второй результат — Stable-Layers — решает другую задачу: как дообучить модель, которая разбивает изображение на редактируемые слои (фон, объекты, текст), не собирая парные примеры «вход → правильные слои». Вместо разметки модель получает оценку от визуально-языковой модели (VLM). Проблема в том, что VLM, оценивая каждый вариант отдельно, выдаёт почти одинаковые баллы — обучению не за что зацепиться. Авторы решили это двухэтапно: сначала структурированная оценка каждого варианта по пяти критериям, потом VLM сравнивает все варианты рядом и перевыставляет баллы. На датасете Crello метод дал меньше пустых и артефактных слоёв и ниже ошибку реконструкции по сравнению с базовой моделью.

Оба метода пока — статьи на arXiv, не API и не обновление продуктов. OCTOPUS полезен тем, кто строит инференс с длинным контекстом и упирается в память: конкретных цифр экономии памяти в пересчёте на реальные модели авторы не приводят, только сравнение с TurboQuant и PolarQuant на их же бенчмарках. Воспроизводимость пока на совести читателя.

Stability AI нашла способ экономить память при длинных текстах и видео daily

Источники

Оценить материал