AI News Watcher
Tuesday, Jun 23, 2026  ·  Daily briefing
Feed Telegram
Daily briefing · By AI News Watcher · Jun 23, 2026 · 1 min read · Together AI ← Back to feed

ParallelKernelBench: лучшие LLM решают меньше трети задач на многогпу CUDA-ядра daily

Несколько сгенерированных ядер обогнали все публичные реализации — но воспроизводимость пока случайная.

ParallelKernelBench: лучшие LLM решают меньше трети задач на многогпу CUDA-ядра
Редакция · Daily briefing

87 реальных задач, восемь GPU, одно условие — написать быстрое ядро. Лучшая модель осилила меньше тридцати. Together AI выпустила бенчмарк ParallelKernelBench (PKB), который впервые измеряет, насколько LLM умеют генерировать производительные многопоточные CUDA-ядра — не синтетику, а настоящие рабочие нагрузки.

PKB включает 87 задач на восьми GPU: allreduce, allgather, broadcast, reduce и другие примитивы распределённых вычислений. Для каждой есть эталонная реализация. Главное отличие от предыдущих бенчмарков — оценивается не то, компилируется ли код, а реальная скорость по сравнению с публичными референсами. Это принципиально другая планка: модель может написать корректное ядро, которое при этом проигрывает по производительности и засчитывается как провал.

Ни одна из протестированных моделей не преодолела треть задач. Это фиксирует системный провал LLM в распределённой низкоуровневой оптимизации: написать быстрое многопоточное ядро для нескольких GPU оказывается принципиально сложнее, чем генерировать однопоточный код или решать алгоритмические задачи. Вместе с тем несколько сгенерированных ядер превзошли все известные публичные реализации — потолок не нулевой. Проблема в том, что эти успехи пока выглядят случайными: модели не демонстрируют стабильного умения, а скорее иногда угадывают.

PKB закрывает реальный пробел — до него не существовало публичного стресс-теста LLM именно на многогпу-ядра с измерением производительности. Честный пробел самого бенчмарка: Together AI не раскрыла, какие конкретно модели тестировались и каковы их индивидуальные результаты. Без этого инженеру сложно понять, где именно проходит граница между «почти работает» и «совсем не работает» — и стоит ли вообще пробовать конкретную модель на своей задаче.

Дополнительные источники

  1. ParallelKernelBench_Problems · Datasets at Hugging Face
  2. Welcome to Triton’s documentation!
  3. Reimagining Kernel Generation at the PTX Layer: An LLM System Learning from DSLs to Outperform Them
  4. Towards Robust Agentic CUDA Kernel Benchmarking, Verification, and Optimization
  5. Benchmarking inference at scale: coding agents

Источники

  1. https://www.together.ai/blog/parallelkernelbench blog
→ Опубликовано в Telegram: @agentic_ai_news/568