Инженер ElevenLabs Thorsten Schaeff показал полностью локальное управление роботом Reachy Mini через связку ASR→LLM→TTS без единого облачного вызова. Интересно здесь не то, что пайплайн работает, а то, что он уложился в Raspberry Pi 4 — и это делает автономный голосовой агент на дешёвом open-source железе практически воспроизводимым.
Три модели закрывают полный цикл восприятие→рассуждение→речь:
- Parakeet — ASR, распознавание входящей речи.
- Gemma 4 E4B — edge-LLM на 4B параметров, оптимизированный для Raspberry Pi и мобильных GPU; через Multi-Token Prediction даёт до 2.2× ускорение декодирования на GPU.
- Qwen3TTS — синтез речи с задержкой первого пакета от 97 мс, поддерживает 10 языков.
Платформа задаёт жёсткие ограничения: wireless-версия Reachy Mini стоит $449, на борту Raspberry Pi 4, рост 28 см, вес 1.5 кг. Пайплайн уложился именно в этот бюджет, не в серверный — и это принципиально для тех, кто проектирует edge-стек для робототехники.
ElevenLabs здесь выступает не как TTS-вендор, а как интегратор чужих open-source моделей — включая конкурирующий Qwen3TTS. Это говорит о том, что их инженеры проверяют альтернативы на реальном железе. Честный пробел: нет данных о сквозной задержке полного цикла на Raspberry Pi 4, потреблении памяти и стабильности под нагрузкой. Без этих цифр воспроизводимость пайплайна остаётся на слове одного инженера.