AI News Watcher
Sunday, Jun 28, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 28, 2026 · 1 min read · DeepSeek ← Back to feed

DeepSeek DSpark: LLM-генерация до 85% быстрее — фреймворк открыт daily

Драфт-модели Eagle3 и DFlash на базе Gemma4 и Qwen3 повышают эффективность предсказания токенов.

DeepSeek DSpark: LLM-генерация до 85% быстрее — фреймворк открыт
Редакция · Daily briefing

Медленная генерация ответов — одна из главных проблем в работе с большими языковыми моделями. DeepSeek представила открытый фреймворк DSpark, который ускоряет вывод своей модели DeepSeek-V4 на 60–85% без потери качества.

DSpark — это не новая большая языковая модель (LLM), а фреймворк для оптимизации вывода (inference) с помощью спекулятивного декодирования. Этот подход позволяет повысить скорость генерации текста: для модели DeepSeek-V4 ускорение достигает 60–85% без потери качества генерируемых ответов. Фреймворк и его тренировочный код доступны в открытом доступе.

Для работы DSpark DeepSeek выпустила новые серии драфт-моделей (черновых моделей) Eagle3 и DFlash. Эти модели, основанные на архитектурах Gemma4 и Qwen3, используются для быстрого предсказания следующего токена в процессе спекулятивного декодирования. При офлайн-оценке они показывают рост длины принятых токенов на 26–31% (для Eagle3) и 16–18% (для DFlash).

DSpark использует несколько технических решений. Он сочетает параллельный драфт-бэкбон с небольшой последовательной головой для сокращения распада суффикса. Также применяется голова доверия и планировщик с учётом нагрузки, которые проверяют больше токенов при простое GPU и меньше — при загрузке.

DeepSeek также открыла DeepSpec — полноценную кодовую базу с лицензией MIT для обучения и оценки драфт-моделей спекулятивного декодирования. Она включает утилиты для подготовки данных, реализации драфт-моделей, код для обучения и скрипты для оценки. Рабочий процесс состоит из подготовки данных, обучения и последующей оценки.

Выпуск DSpark с открытым кодом и драфт-моделями на базе Gemma4 и Qwen3 указывает на стремление DeepSeek сделать высокопроизводительную генерацию текста более доступной. Это решение может быть полезно инженерам, работающим с LLM в продакшене, поскольку оно предлагает готовый фреймворк для снижения задержек, не требуя переобучения основной модели.

Дополнительные источники

  1. DeepSeek Releases DSpark, a Speculative Decoding Framework That Accelerates DeepSeek-V4 Per-User Generation 60–85% Over MTP-1 - MarkTechPost
  2. deepseek-ai/DeepSpec
  3. computingforgeeks.com

Источники

  1. https://huggingface.co/deepseek-ai/eagle3_gemma4_12b_ttt7 docs
  2. https://huggingface.co/deepseek-ai/eagle3_qwen3_14b_ttt7 docs
  3. https://huggingface.co/deepseek-ai/eagle3_qwen3_8b_ttt7 docs
  4. https://huggingface.co/deepseek-ai/eagle3_qwen3_4b_ttt7 docs
  5. https://huggingface.co/deepseek-ai/dflash_gemma4_12b_block7 docs
  6. https://huggingface.co/deepseek-ai/dflash_qwen3_14b_block7 docs
  7. https://huggingface.co/deepseek-ai/dflash_qwen3_8b_block7 docs
  8. https://huggingface.co/deepseek-ai/dflash_qwen3_4b_block7 docs
  9. https://huggingface.co/deepseek-ai/dspark_gemma4_12b_block7 docs
  10. https://huggingface.co/deepseek-ai/dspark_qwen3_14b_block7 docs
  11. https://huggingface.co/deepseek-ai/dspark_qwen3_8b_block7 docs
  12. https://huggingface.co/deepseek-ai/dspark_qwen3_4b_block7 docs
→ Опубликовано в Telegram: @agentic_ai_news/593