Большие модели требуют облака — маленькие могут работать прямо на устройстве. Cohere Labs выпустила два открытых инструмента под лицензией Apache 2.0: речевой Transcribe (2B параметров, 14 языков) и семейство Tiny Aya (3.3B параметров, 70 языков). Вместе с ними — двухнедельный хакатон Build Small совместно с Hugging Face и Gradio: разработчиков зовут сразу строить на этих моделях продукты.
Cohere Transcribe — 2B-параметровая модель распознавания речи, обученная с нуля. По офлайн-пропускной способности (RTFx — насколько быстрее реального времени обрабатывается аудио) она в три раза превосходит конкурентов сопоставимого размера. По английскому языку модель заняла первое место на Hugging Face Open ASR Leaderboard — обойдя и проприетарные, и открытые альтернативы. На остальных 13 языках Transcribe сопоставима с лучшими open-source вариантами или лучше их. Для production-развёртывания поддерживается serving через vLLM.
Tiny Aya — семейство из четырёх вариантов по 3.35B параметров, каждый настроен на свой языковой регион:
- Global — сбалансированное покрытие всех регионов.
- Water — европейские языки и языки Азиатско-Тихоокеанского региона.
- Fire — языки Южной Азии.
- Earth — языки Западной Азии и Африки.
Все четыре варианта охватывают 70 языков и запускаются локально на телефоне без облачных вызовов. Это делает их пригодными для офлайн-переводчиков, голосовых интерфейсов и инструментов доступности на низкоресурсных языках — там, где стабильного интернета нет.
Хакатон Build Small продлится две недели. Задача участников — собрать приложение на Tiny Aya или Transcribe. Для старта доступен готовый Gradio Space с работающим примером Tiny Aya — его можно форкнуть. Поддержка организована в Discord.
Два открытых инструмента закрывают разные ниши — голос и текст — и оба рассчитаны на работу без облака, что нечасто встретишь у enterprise-вендоров. Честный пробел двойной: Cohere не раскрыла цифры качества Tiny Aya по конкретным низкоресурсным языкам, и нет данных о том, как модели ведут себя при квантизации на реальном мобильном железе.