87 реальных задач, восемь GPU, одно условие — написать быстрое ядро. Лучшая модель осилила меньше тридцати. Together AI выпустила бенчмарк ParallelKernelBench (PKB), который впервые измеряет, насколько LLM умеют генерировать производительные многопоточные CUDA-ядра — не синтетику, а настоящие рабочие нагрузки.
PKB включает 87 задач на восьми GPU: allreduce, allgather, broadcast, reduce и другие примитивы распределённых вычислений. Для каждой есть эталонная реализация. Главное отличие от предыдущих бенчмарков — оценивается не то, компилируется ли код, а реальная скорость по сравнению с публичными референсами. Это принципиально другая планка: модель может написать корректное ядро, которое при этом проигрывает по производительности и засчитывается как провал.
Ни одна из протестированных моделей не преодолела треть задач. Это фиксирует системный провал LLM в распределённой низкоуровневой оптимизации: написать быстрое многопоточное ядро для нескольких GPU оказывается принципиально сложнее, чем генерировать однопоточный код или решать алгоритмические задачи. Вместе с тем несколько сгенерированных ядер превзошли все известные публичные реализации — потолок не нулевой. Проблема в том, что эти успехи пока выглядят случайными: модели не демонстрируют стабильного умения, а скорее иногда угадывают.
PKB закрывает реальный пробел — до него не существовало публичного стресс-теста LLM именно на многогпу-ядра с измерением производительности. Честный пробел самого бенчмарка: Together AI не раскрыла, какие конкретно модели тестировались и каковы их индивидуальные результаты. Без этого инженеру сложно понять, где именно проходит граница между «почти работает» и «совсем не работает» — и стоит ли вообще пробовать конкретную модель на своей задаче.