До недавнего времени OpenRouter был в первую очередь агрегатором текстовых моделей. 2 июня на платформе появились три модели Microsoft MAI: синтез речи, транскрипция аудио и генерация изображений — и все три доступны через единый API роутера.
MAI-Voice-2 синтезирует речь на 10+ языках с поддержкой SSML-стилей (радость, грусть, возбуждение и другие) и контролем скорости от 0.5× до 2×. Выдаёт MP3 или PCM 24 кГц; имена голосов следуют формату Azure (например, en-US-Harper:MAI-Voice-2). MAI-Transcribe 1.5 поддерживает 100+ языковых локалей по стандарту BCP-47 с автоопределением языка и автоматической расстановкой пунктуации. MAI-Image-2.5 генерирует фотореалистичные и художественные изображения из текстового промпта с поддержкой разных соотношений сторон.
Цены:
- MAI-Voice-2 — $22 за 1 млн символов
- MAI-Transcribe 1.5 — $0.36 в час (тарификация по длительности аудио)
- MAI-Image-2.5 — $5 за 1 млн токенов, контекст 4K
В тот же день на платформе появился Qwen3.7 Plus с контекстом 1 млн токенов и поддержкой изображений на входе ($0.40 за 1M входных токенов, $1.16 за выходные). Параллельно исправлены два бага: параметр media_resolution для моделей Gemini теперь корректно передаётся в generationConfig, а запросы к провайдерам, возвращающим изображения в base64, больше не падают с пустой ошибкой {}.
Появление голосовых и визуальных моделей на OpenRouter — шаг от агрегатора LLM к универсальному мультимодальному роутеру. Главный вопрос пока открыт: как именно работает маршрутизация и fallback для этих новых модальностей — а именно в этом и состоит основная ценность платформы. Данных об этом нет.