Когда ИИ отвечает с паузой, диалог прерывается. Hugging Face и Cerebras продемонстрировали архитектуру, которая делает голосовое общение мгновенным и естественным, используя модель Gemma 4 31B и специализированное оборудование.
Hugging Face и Cerebras представили архитектуру, которая обеспечивает голосовой ИИ в реальном времени. Это делает взаимодействие драматически более естественным и похожим на человеческое, устраняя задержки, часто ограничивающие пользовательский опыт.
Система построена как открытый, модульный стек "речь-в-речь", где каждый компонент можно заменить:
- Распознавание речи — используется Nvidia Parakeet.
- Инференс языковой модели — выполняется Gemma 4 VLM на оборудовании Cerebras.
- Синтез речи — задействована Alibaba Qwen3TTS.
Применение Cerebras в этой архитектуре направлено не на снижение стоимости, а на достижение низкой и предсказуемой задержки. Это особенно важно для "длинного хвоста" запросов, где случайные медленные ответы делают общение ненадежным. Такая стабильность критична для масштабирования в реальных продуктах, например, в роботах Reachy Mini, которых уже более 9000.
Эта коллаборация показывает, как объединение открытых моделей и специализированного оборудования может решить ключевые проблемы производительности голосового ИИ. Однако конкретные цифры задержек, такие как медианные значения и P95 в миллисекундах, в демонстрации не были представлены.