Медленная генерация ответов — одна из главных проблем в работе с большими языковыми моделями. DeepSeek представила открытый фреймворк DSpark, который ускоряет вывод своей модели DeepSeek-V4 на 60–85% без потери качества.
DSpark — это не новая большая языковая модель (LLM), а фреймворк для оптимизации вывода (inference) с помощью спекулятивного декодирования. Этот подход позволяет повысить скорость генерации текста: для модели DeepSeek-V4 ускорение достигает 60–85% без потери качества генерируемых ответов. Фреймворк и его тренировочный код доступны в открытом доступе.
Для работы DSpark DeepSeek выпустила новые серии драфт-моделей (черновых моделей) Eagle3 и DFlash. Эти модели, основанные на архитектурах Gemma4 и Qwen3, используются для быстрого предсказания следующего токена в процессе спекулятивного декодирования. При офлайн-оценке они показывают рост длины принятых токенов на 26–31% (для Eagle3) и 16–18% (для DFlash).
DSpark использует несколько технических решений. Он сочетает параллельный драфт-бэкбон с небольшой последовательной головой для сокращения распада суффикса. Также применяется голова доверия и планировщик с учётом нагрузки, которые проверяют больше токенов при простое GPU и меньше — при загрузке.
DeepSeek также открыла DeepSpec — полноценную кодовую базу с лицензией MIT для обучения и оценки драфт-моделей спекулятивного декодирования. Она включает утилиты для подготовки данных, реализации драфт-моделей, код для обучения и скрипты для оценки. Рабочий процесс состоит из подготовки данных, обучения и последующей оценки.
Выпуск DSpark с открытым кодом и драфт-моделями на базе Gemma4 и Qwen3 указывает на стремление DeepSeek сделать высокопроизводительную генерацию текста более доступной. Это решение может быть полезно инженерам, работающим с LLM в продакшене, поскольку оно предлагает готовый фреймворк для снижения задержек, не требуя переобучения основной модели.