Стоит читать если: вы работаете с синтезом речи и тратите часы на подбор подходящего голоса для своих проектов. Можно пропустить если: вы не используете TTS-модели или имеете узкий набор строго утверждённых голосов.
Voice Finder: поиск голоса по смыслу
Подбор голоса для ИИ-агента или приложения часто является трудоёмким процессом. Каталоги провайдеров могут содержать сотни голосов, но описания редко дают понять, какой из них подойдёт для конкретной задачи, например, для бота поддержки финтех-компании или участника игрового шоу. Together AI стремится решить эту проблему.
Новый инструмент Voice Finder позволяет искать и фильтровать голоса, используя запросы на естественном языке или загруженные аудиосэмплы. Инструмент индексирует более 600 голосов, доступных в таких TTS-моделях Together AI, как MiniMax, Cartesia, Deepgram и Rime. За рейтинговым слоем скрывается «омни-модель», которая проанализировала каждый голос и сгенерировала структурированные метаданные по более чем 15 параметрам, включая высоту тона, пол, акцент, язык, возраст, эмоции и стиль речи.
Примеры запросов на естественном языке включают:
- «спокойный женский голос для приложения для медитации»
- «уверенный голос для агента поддержки в финтехе»
- «энергичный участник игрового шоу»
- «тёплый двуязычный голос для обслуживания клиентов»
Цель инструмента — быстро перейти от сценария использования к короткому списку подходящих голосов. Это особенно важно для голосовых агентов, где тембр должен соответствовать продукту, клиенту и ситуации. Together AI предлагает единую платформу для создания голосовых агентов в реальном времени, объединяющую STT, LLM и TTS, с задержкой менее 500 мс. Voice Finder упрощает шаг выбора модели в этом стеке, позволяя разработчикам быстрее исследовать доступные голоса.
Вместе с Pearl Research Labs: инференс дешевле за счёт полезной работы
Together AI объявила о партнерстве с Pearl Research Labs для снижения стоимости инференса ИИ. Сотрудничество привело к запуску дисконтированного эндпоинта для Gemma-4-31B-it-pearl, которая использует подход Proof of Useful Work.
Технология Pearl Network преобразует рабочие нагрузки инференса и обучения ИИ в крипто-эмиссии. Это позволяет генерировать криптовалюту Pearl (¶PRL) за счет математических доказательств матричных умножений, происходящих в процессе прямых и обратных проходов вычислений.
Новый эндпоинт Gemma-4-31B-it-pearl на 25% дешевле. Стоимость компенсируется будущей ценностью крипто-эмиссий, и ожидается, что по мере роста спотовой цены ¶PRL дисконт будет увеличиваться. Это первый продукт Together AI, интегрирующий Pearl Network, и в планах компании — расширение портфолио таких продуктов.
Violin: открытый инструмент для видеоперевода
Together AI представила Violin — полностью открытый инструмент для перевода видео с использованием ИИ. Он призван устранить языковые барьеры, объединяя распознавание речи, перевод с помощью LLM и синтез текста в речь.
Violin работает в три этапа:
- ASR (автоматическое распознавание речи): извлекает и транскрибирует аудио видео в текст с временными метками, используя Whisper V3 от Together AI.
- LLM-перевод: большой языковая модель Deepseek V4 Pro переводит транскрипт, при этом можно задавать пользовательские правила перевода.
- TTS (синтез речи): модель генерирует переведённую речь, позволяя пользователям указывать желаемые характеристики голоса. Используется Cartesia Sonic 3, который поддерживает широкий спектр голосов носителей языка.
Инструмент не позволяет клонировать голос оригинального спикера, вместо этого используется отличный от оригинала голос, накладываемый поверх исходного аудио на низкой громкости. Кроме того, Violin включает встроенный мультимодальный чат-помощник, который может отвечать на вопросы на основе контента видео, используя как аудио, так и визуальные данные.
Violin доступен в нескольких форматах:
- Веб-приложение: простой интерфейс для загрузки видео, выбора опций перевода и взаимодействия с помощником.
- CLI-инструмент: интерфейс командной строки для скриптинга и интеграции в существующие пайплайны.
- Навыки для агентов: функциональность Violin упакована как навык, который можно интегрировать в популярные агентские фреймворки.
Весь код Violin выпущен под пермиссивной лицензией MIT, что приглашает сообщество к адаптации и улучшению.
DeepSeek-V4: проблема инференса в контексте миллиона токенов
Архитектурные изменения DeepSeek-V4 превращают работу с миллионом токенов контекста в проблему систем обслуживания. Together AI исследует, как гибридный дизайн внимания DeepSeek-V4 с Compressed Sparse Attention (CSA), Heavily Compressed Attention (HCA) и Sliding Window Attention (SWA) влияет на производительность инференса на NVIDIA HGX B200.
Управление кешем ключ-значение (KV-кешем) является критическим аспектом. При длинном контексте KV-кеш занимает много памяти и снижает пропускную способность. Архитектура DeepSeek-V4 сокращает количество записей в кеше и уменьшает объем данных, которые необходимо перемещать через механизм внимания.
DeepSeek-V4 требует обработки нескольких макетов KV-кеша одновременно. Вместо единого макета, движок инференса должен управлять сжатым состоянием CSA, сильно сжатым состоянием HCA, локальным состоянием SWA и короткими несжатыми состояниями, используемыми компрессорами CSA и HCA. Эти объекты имеют разные размеры, время жизни и шаблоны чтения.
Кеширование префиксов также усложняется. С DeepSeek-V4 возникает вопрос, какой именно кеш использовать при повторном использовании общего префикса. Эффективность зависит от того, как движок инференса хранит, пересчитывает и вытесняет различные типы кеша. Ранние тесты Together AI показывают, что правильная политика кеширования может увеличить общую ёмкость KV-кеша.
Развёртывание любой модели Hugging Face с Goose и DCI
Процесс развёртывания и инференса любой модели с Hugging Face упрощается благодаря инструментам Together AI. Используя Goose — CLI-раннер для агентов — в сочетании с Dedicated Container Inference (DCI) от Together AI, можно запустить любую модель без сложной настройки.
Ранее для развёртывания новой модели требовались глубокие знания в настройке инференс-серверов и контейнеров. Goose и DCI позволяют агентам самостоятельно заполнять эти пробелы в знаниях, предоставляя быстрый доступ к работе с новыми моделями.
Пример развёртывания Netflix void-model показал, что процесс занимает три шага:
- Установка навыка Together Dedicated Containers:
npx skills add togethercomputer/skills. Этот навык предоставляет Goose необходимую информацию для работы с инфраструктурой Together AI. - Запуск сессии Goose и один промпт:
I want to deploy this model on togethers dedicated containers https://huggingface.co/netflix/void-model. - Ожидание выполнения: агент автоматически извлекает детали модели из Hugging Face, определяет конфигурацию инференс-сервера, генерирует файлы конфигурации контейнера и создаёт готовую к запуску настройку.
Dedicated Container Inference (DCI) предоставляет приватную среду с GPU, полностью управляемую Together AI. Это означает отсутствие борьбы за общие ресурсы и привязки к фиксированному набору моделей. DCI позволяет быстро запускать новые модели в продакшен-среде, оплачивая только используемые ресурсы.
Фундаментальные исследования для эффективного инференса в масштабе
По мере перехода ИИ от исследований к производству, задача для AI-ориентированных команд смещается от создания моделей к их эффективной, надёжной и масштабируемой работе. Стоимость инференса, по оценкам, составляет 80-90% от общих затрат на продакшен-систему ИИ, поскольку он работает непрерывно при каждом запросе пользователя.
Together AI подходит к проблеме инференса как к комплексному стеку оптимизаций.
- FlashAttention (до FlashAttention-4) и адаптивное спекулятивное декодирование с ATLAS и Aurora — это результаты исследований, которые внедряются в продакшен. Aurora, основанная на обучении с подкреплением, адаптируется в реальном времени к изменяющимся паттернам трафика.
- Полная оптимизация аппаратного стека включает работу с новейшим оборудованием NVIDIA Blackwell (GB200 NVL72, HGX B200), разработку пользовательских стратегий параллелизма для 72-GPU mesh, реализацию квантования NVFP4 и ускорение вывода моделей в продакшен.
- Интеллектуальное планирование и пакетирование запросов динамически управляет запросами, чтобы максимизировать эффективность GPU-часов без ущерба для отзывчивости.
Экономика правильной настройки инференса имеет прямое влияние на прибыль. Снижение затрат на инференс позволяет обслуживать больше клиентов на том же оборудовании и открывает новые сценарии использования, которые ранее были нерентабельны.
Отключение Copy Fail (CVE-2026-31431) в продакшене
Together AI удалось оперативно отреагировать на уязвимость Copy Fail (CVE-2026-31431). Это логическая ошибка в криптографической подсистеме ядра Linux, которая даёт непривилегированному локальному пользователю точную 4-байтовую примитивную запись в кеш страниц любого читаемого файла в системе.
Суть уязвимости:
- Copy Fail позволяет локально повысить привилегии. В современной AI-платформе «локально» может означать CI-задания, многопользовательские GPU-узлы или эфемерные исследовательские среды.
- Компрометация внутри контейнера с доступом к сокетам AF_ALG может привести к получению root-доступа на базовом хосте.
- Запись из одной рабочей нагрузки может незаметно повредить бинарные файлы или библиотеки, используемые другими клиентами на том же узле, поскольку кеш страниц является общим.
Together AI отреагировала на инцидент, отключив уязвимый криптографический сокетный интерфейс algif_aead. Это было сделано в течение нескольких часов во всей инфраструктуре. Поскольку производственные рабочие нагрузки Together AI не зависят от пользовательских сокетов algif_aead, это действие было безопасным и эффективным.
Процесс включал:
- Выгрузку модуля algif_aead для немедленного отключения уязвимого пути кода.
- Перемещение файла модуля из стандартного каталога, чтобы предотвратить его повторную загрузку.
- Впоследствии были применены патчи ядра, но даже после их установки algif_aead остаётся отключенным в средах, где в нём нет явной необходимости.
Партнерство Together AI и Adaption: тонкая настройка моделей
Together AI и Adaption объединяются для интеграции Together Fine-Tuning в Adaptive Data. Это партнёрство направлено на помощь командам в оптимизации наборов данных, проведении тонкой настройки, оценке результатов и развёртывании более мощных открытых моделей.
Платформа Adaptive Data от Adaption помогает анализировать структуру наборов данных, адаптировать примеры и оценивать качество. Сооснователи Adaption, Сара Хукер и Судип Рой (бывшие руководители Cohere и Google DeepMind), описывают это как перенос методов оптимизации данных, обычно доступных только передовым лабораториям, к обычным разработчикам.
С этой интеграцией пользователи Adaption смогут подключать свои аккаунты Together AI для бесшовного рабочего процесса. Пользователь оптимизирует обучающий набор данных в Adaption, затем напрямую выполняет тонкую настройку в Together AI с оптимизированными гиперпараметрами. После обучения модель развёртывается для оценки, а результаты отображаются пользователю, после чего модель может быть развёрнута на высокопроизводительном сервисе инференса Together AI.
Together Fine-Tuning поддерживает LoRA и полную тонкую настройку, крупные открытые модели и предоставляет видимость экспериментов. Это позволяет пользователям адаптироваться быстро, понимать изменения и улучшать производительность в соответствии с целевым поведением.
DeepSeek-V4 Pro теперь доступен на Together AI
Together AI объявила о доступности DeepSeek-V4 Pro на своей платформе. Эта модель использует архитектуру Mixture-of-Experts (MoE) с 1.6T параметрами и 49B активированными параметрами.
Ключевые особенности DeepSeek-V4 Pro на Together AI:
- Контекстное окно 512K токенов для рабочих нагрузок с длинным контекстом. На уровне модели DeepSeek-V4 Pro поддерживает контекст в 1M токенов.
- Управляемые режимы рассуждения: Non-Think, Think High и Think Max, которые позволяют выбрать между быстрыми ответами, более глубоким рассуждением и максимальным усилием рассуждения в зависимости от задачи.
- Ценообразование для кешированных входных данных:
$2.10за 1M входных токенов,$0.20за 1M кешированных входных токенов и$4.40за 1M выходных токенов. Это обеспечивает 90%-е снижение затрат для повторно используемого контекста.
Модель DeepSeek-V4 Pro предназначена для задач, где требуется рассуждение на больших объёмах данных. Это включает кодовые агенты, анализ документов, длинные цепочки агентов и синтез исследований. Например, кодовые агенты могут использовать Think High для планирования миграции или Think Max для отладки сложных сбоев.
DeepSeek-V4 Pro доступен как через Serverless Inference, так и через Monthly Reserved инфраструктуру. Serverless подходит для оценки и разработки, а Monthly Reserved — для стабильной производственной нагрузки с предсказуемой ёмкостью и контролем затрат.
Что это значит
Together AI активно позиционирует себя как комплексная платформа, решающая широкий спектр инженерных задач в области ИИ. От удобства разработки благодаря инструментам вроде Voice Finder и Goose, до фундаментальных вопросов оптимизации инференса для моделей с огромным контекстом, таких как DeepSeek-V4. Инженеры получают не только доступ к новейшим моделям, но и к инфраструктурным решениям, которые снижают операционные сложности и затраты. Партнерства с Pearl Research Labs и Adaption подчёркивают стремление компании предложить экономически эффективные и интегрированные решения для всего жизненного цикла ИИ-продуктов, от тонкой настройки до безопасного развёртывания в продакшене.