DeepSeek DSpark: LLM-генерация до 85% быстрее — фреймворк открыт

DeepSeek DSpark: LLM-генерация до 85% быстрее — фреймворк открыт daily

Драфт-модели Eagle3 и DFlash на базе Gemma4 и Qwen3 повышают эффективность предсказания токенов.

Медленная генерация ответов — одна из главных проблем в работе с большими языковыми моделями. DeepSeek представила открытый фреймворк DSpark, который ускоряет вывод своей модели DeepSeek-V4 на 60–85% без потери качества.

DSpark — это не новая большая языковая модель (LLM), а фреймворк для оптимизации вывода (inference) с помощью спекулятивного декодирования. Этот подход позволяет повысить скорость генерации текста: для модели DeepSeek-V4 ускорение достигает 60–85% без потери качества генерируемых ответов. Фреймворк и его тренировочный код доступны в открытом доступе.

Для работы DSpark DeepSeek выпустила новые серии драфт-моделей (черновых моделей) Eagle3 и DFlash. Эти модели, основанные на архитектурах Gemma4 и Qwen3, используются для быстрого предсказания следующего токена в процессе спекулятивного декодирования. При офлайн-оценке они показывают рост длины принятых токенов на 26–31% (для Eagle3) и 16–18% (для DFlash).

DSpark использует несколько технических решений. Он сочетает параллельный драфт-бэкбон с небольшой последовательной головой для сокращения распада суффикса. Также применяется голова доверия и планировщик с учётом нагрузки, которые проверяют больше токенов при простое GPU и меньше — при загрузке.

DeepSeek также открыла DeepSpec — полноценную кодовую базу с лицензией MIT для обучения и оценки драфт-моделей спекулятивного декодирования. Она включает утилиты для подготовки данных, реализации драфт-моделей, код для обучения и скрипты для оценки. Рабочий процесс состоит из подготовки данных, обучения и последующей оценки.

Выпуск DSpark с открытым кодом и драфт-моделями на базе Gemma4 и Qwen3 указывает на стремление DeepSeek сделать высокопроизводительную генерацию текста более доступной. Это решение может быть полезно инженерам, работающим с LLM в продакшене, поскольку оно предлагает готовый фреймворк для снижения задержек, не требуя переобучения основной модели.

→ Опубликовано в Telegram: @agentic_ai_news/593

DeepSeek DSpark: LLM-генерация до 85% быстрее — фреймворк открыт daily

Дополнительные источники

Источники

Оценить материал