Together AI: как построить рекордно быстрый Speech-to-Text стек

О чём эта новость

Together AI добилась рекордной скорости ASR.подробнее →
Оптимизация включает многопрофильные движки TensorRT и условные графы CUDA.подробнее →
Ключевым стало решение системной проблемы полнопутевых данных, включая CPU и I/O.подробнее →
Использованы модели NVIDIA Parakeet-TDT 0.6B v3 и OpenAI Whisper Large v3.подробнее →

Скорость в AI-инференсе обычно ассоциируется с гигантскими языковыми моделями, где архитектура и оптимизация GPU-ядер играют решающую роль. Но что если самый сложный участок пути — не GPU, а всё, что до него? Together AI утверждает, что достигла мирового рекорда по скорости преобразования речи в текст, взявшись за ASR не как за модельную, а как за полноценную системную задачу, включающую CPU, память и сетевые протоколы. Это значимое инженерное исследование демонстрирует, как комплексный системный подход может привести к прорывам в производительности AI.

Рекордная скорость ASR от Together AI

Компания Together AI объявила о создании самого быстрого в мире стека преобразования речи в текст (ASR), что подтверждено независимыми бенчмарками от Artificial Analysis. Это достижение пересматривает традиционный фокус на оптимизации только самой модели, вместо этого подчеркивая важность комплексного системного подхода, охватывающего все компоненты от CPU до GPU.

В отличие от текстовых моделей, где входные данные относительно компактны, аудиофайлы для обработки ASR могут быть на порядки больше. Например, полный корпус «Гарри Поттера» в виде аудиокниг занимает от 5 до 10 ГБ, что примерно в тысячу раз превышает объем текстовой версии. Это означает, что перед тем как данные достигнут GPU, серверу необходимо выполнить множество операций на CPU, таких как декодирование контейнера, изменение частоты дискретизации, фильтрация шума, обнаружение голосовой активности (VAD), сегментация речи и вычисление аудиопризнаков. Эти подготовительные этапы создают значительную нагрузку и могут стать узким местом для производительности.

Together AI сосредоточилась на двух моделях, показавших наименьшую задержку в рейтинге Artificial Analysis: NVIDIA Parakeet-TDT 0.6B v3 и OpenAI Whisper Large v3. Эти модели, хоть и значительно меньше по размеру параметров по сравнению с крупными языковыми моделями, становятся частью гораздо более широкой системной проблемы. NVIDIA Parakeet-TDT 0.6B v3, как более быстрая из двух, способна транскрибировать примерно 20 часов речи менее чем за 10 секунд, что эквивалентно всему времени показа фильмов о Гарри Поттере. Такие результаты были достигнуты благодаря глубокой оптимизации всех уровней стека, а не только ядра модели.

Независимая платформа Artificial Analysis подтвердила эти результаты, используя метрику «коэффициент скорости» (Speed Factor), которая измеряет, насколько быстро API транскрибирует аудио по сравнению с его фактической продолжительностью. Значение выше 1 означает, что сервис транскрибирует быстрее реального времени. Методология Artificial Analysis включает измерение точности (Word Error Rate, WER) и скорости для пакетной и потоковой транскрипции, учитывая сетевую задержку. Этот независимый аудит придает весомость заявлениям Together AI, выделяя их среди конкурентов.

Ключевые оптимизации на стороне GPU

Для достижения рекордной скорости Together AI реализовала ряд инновационных технических решений, направленных на максимальное использование возможностей GPU. Одним из ключевых нововведений стали многопрофильные движки NVIDIA TensorRT, которые играют решающую роль в оптимизации кодировщика модели ASR. Кодировщик, составляющий примерно 95% весов модели Parakeet, часто сталкивается с динамическими размерами входных данных, зависящими от длины и характеристик аудиосегментов. Традиционные методы компиляции нейронных сетей плохо справляются с такими вариациями. Вместо этого Together AI компилирует кодировщик с несколькими профилями TensorRT, каждый из которых настроен на конкретный диапазон форм аудио. Это позволяет движку динамически выбирать наиболее подходящий профиль во время выполнения, обеспечивая оптимальную производительность для различных аудиовходов без необходимости повторной компиляции или компромиссов в скорости.

Другим значимым улучшением стало использование условных графов NVIDIA CUDA. Графы CUDA представляют собой механизм для определения последовательности операций на GPU (ядер, перемещений данных, синхронизации) и их последующего многократного запуска с минимальными накладными расходами CPU. Однако традиционные графы CUDA не поддерживали динамическое управление потоком выполнения, требуя возврата управления CPU для принятия решений, что нивелировало часть преимуществ. Условные узлы, появившиеся в CUDA 12.8, позволяют включать в графы логику ветвления (IF/ELSE) и переключения (SWITCH), давая возможность GPU самостоятельно принимать решения о дальнейшем выполнении без вмешательства CPU. Это значительно сокращает накладные расходы на CPU, поскольку он больше не нужен для оркестровки мелких задач или для обработки динамических условий, таких как появление нового аудиосегмента или завершение обработки.

Помимо этих двух основных методов, Together AI также применила другие GPU-ориентированные методы оптимизации. Например, была проведена оптимизация работы с кешем KV (Key-Value cache), критически важным для декодеров трансформерных моделей. Использование более эффективных алгоритмов и структур данных для кеширования значительно сократило задержку при обработке длинных аудиопоследовательностей. Также были применены методы пакетной обработки запросов (batching) с динамическим размером, позволяющие эффективно загружать GPU даже при неоднородном потоке входящих данных, и специализированные CUDA-ядра для операций внимания (attention kernels), адаптированные под архитектуру Parakeet, что позволило выжать максимум производительности из оборудования.

Системный подход и оптимизация пути данных

Together AI подошла к задаче ASR с точки зрения «проблемы полнопутевых систем», признавая, что производительность определяется не только мощностью GPU, но и эффективностью всего пути данных от момента получения аудио до выдачи текста. Это означает глубокую оптимизацию каждого компонента стека, включая CPU-препроцессинг, перемещение памяти, событийный ввод-вывод и даже низкоуровневые проблемы среды выполнения.

На уровне CPU были сделаны значительные оптимизации для препроцессинга аудио. До того, как аудио достигнет GPU, оно проходит через несколько этапов: декодирование контейнера, изменение частоты дискретизации, фильтрация шума, обнаружение голосовой активности (VAD), сегментация речи и вычисление аудиопризнаков. Каждый из этих шагов был тщательно проанализирован и оптимизирован. Например, вместо стандартных библиотек использовались высокооптимизированные реализации для VAD и сегментации, которые значительно быстрее обрабатывают аудиопотоки. Это позволило сократить время, которое CPU тратит на подготовку данных, и уменьшить задержку перед тем, как модель получит входные данные.

Для оптимизации перемещения данных и ввода-вывода Together AI применила концепцию событийного ввода-вывода (evented I/O) и использование разделяемой памяти. Событийный ввод-вывод позволяет системе асинхронно обрабатывать данные, не блокируя CPU в ожидании завершения операций. Вместо копирования больших объемов данных между различными буферами и процессами, где это возможно, используется разделяемая память, что минимизирует накладные расходы на копирование и ускоряет передачу данных между CPU и GPU, а также между различными этапами обработки на CPU. Такой подход критически важен для снижения задержки в потоковых сценариях.

Кроме того, был выявлен и устранен ряд проблем, связанных со сборщиком мусора Python. В системах с высокой нагрузкой и частым выделением/освобождением памяти стандартный сборщик мусора Python может создавать микрозадержки, негативно влияющие на общую производительность. «Исправление сборки мусора Python» включало тонкую настройку его параметров и, возможно, использование альтернативных механизмов управления памятью, что позволило сократить эти паузы и обеспечить более предсказуемую и низкую задержку в работе всего стека. В источниках нет данных о том, планирует ли Together AI применить аналогичные оптимизации к другим типам моделей или задач.

Используемые модели ASR

В основе рекордного стека Together AI лежат две высокопроизводительные модели преобразования речи в текст: NVIDIA Parakeet-TDT 0.6B v3 и OpenAI Whisper Large v3. Эти модели были выбраны не случайно, а благодаря их признанной эффективности и низкой задержке, как это отмечено независимыми бенчмарками Artificial Analysis.

NVIDIA Parakeet-TDT 0.6B v3 — это мультиязычная модель с 600 миллионами параметров, разработанная NVIDIA для высокопроизводительной транскрипции на официальных языках ЕС. Модель построена на архитектуре FastConformer-TDT и обучена на обширном датасете NVIDIA Granary (более 670 000 часов аудио). Она автоматически определяет язык ввода и транскрибирует речь без дополнительных подсказок, демонстрируя высокую пропускную способность и низкий средний показатель ошибок (6.34% WER) на Open ASR Leaderboard HuggingFace. Ее архитектура оптимизирована для работы в реальном времени и пакетной обработки больших объемов.

OpenAI Whisper Large v3 представляет собой современную модель автоматического распознавания речи и перевода, поддерживающую 99 языков. Модель была обучена на более чем 5 миллионах часов размеченных данных и демонстрирует высокую обобщающую способность в сценариях с нулевым числом примеров, а также улучшенную производительность на различных языках. Whisper Large v3 является универсальным решением для приложений, требующих точного распознавания и перевода речи.

В рекордном стеке Together AI эти модели служат основой для качественной транскрипции. Роль каждой модели состоит в предоставлении высокоточных результатов ASR, в то время как общая скорость достигается за счет глубокой системной оптимизации всего пути данных, окружающего эти модели.

Что это означает для будущего ASR

Достижение Together AI в создании самого быстрого Speech-to-Text стека переопределяет представление о разработке высокопроизводительных ASR-систем. Оно демонстрирует, что узкие места в производительности часто находятся не в самой модели или GPU, а во всей инфраструктуре, окружающей процесс инференса. Это означает, что будущие инновации в области обработки речи будут требовать не только улучшения моделей, но и глубокой системной инженерии, охватывающей CPU-препроцессинг, эффективное перемещение данных и оптимизацию среды выполнения.

Главный урок из подхода Together AI заключается в том, что для прорывной производительности критически важен комплексный взгляд на проблему. Команды, работающие над ASR и другими моделями ИИ, могут извлечь пользу из этого опыта, уделяя больше внимания не только выбору и обучению моделей, но и оптимизации всего стека, от низкоуровневых операций до сетевых протоколов. Хотя Together AI не уточняет, планирует ли она применить аналогичные оптимизации к другим типам моделей или задачам, их успех показывает потенциал такого подхода для любой системы ИИ с высокой потребностью в производительности.

Что это значит

Оптимизация всего стека, а не только самой модели, важна для производительности в ASR-системах. Фокус на CPU, памяти и I/O может стать следующим рубежом в оптимизации AI-инференса.

Together AI: как построить рекордно быстрый Speech-to-Text стек daily