В феврале 2026 года Xiaomi серьезно заявила о себе в робототехнике, выпустив первую в мире открытую модель VLA. Это не просто программное обеспечение - технология способна понимать бытовые команды и выполнять сложные движения с невиданной точностью.
Мозг и движения: как устроена архитектура
Xiaomi Robotics-0 работает на необычной системе Mixture-of-Transformers. Модель разделена на два функциональных блока:
Visual-Language Brain анализирует то, что видит робот. Когда вы говорите "положи книгу на стол", он определяет где книга, что такое стол, как они расположены в пространстве.

Cerebellum (Action Expert) отвечает за движения. Вместо отдельных действий он создает целые связки – так ваши команды превращаются в плавные жесты без рывков. Технология flow-matching здесь работает точнее человеческого мышечного контроля.
По теме: Xiaomi Robotics-0: как новая модель ИИ меняет представление о роботах
Физики из MIT уже отмечают: такой подход решает главную проблему бытовых роботов – разрыв между пониманием задачи и её выполнением.
Обучение без "деградации": в чём секрет
Обычные модели при обучении теряют часть способностей. Xiaomi применила гибридный метод:
VLM Synergistic Training заставляет систему прогнозировать действия ещё на этапе анализа картинки. Это как научить человека не просто видеть чашку, а сразу знать как её взять.
DiT Specialized Training использует восстановление действий из шума. Представьте, что робот учится ходить, постоянно ошибаясь и корректируя траекторию – так достигается высокая точность.
По теме: Как Xiaomi меняет представление о премиум-сегменте в 2025 году
Почему движения выглядят естественно
Три технологии устраняют "роботизированность" движений:
- Асинхронный вывод – робот выполняет текущее действие пока система вычисляет следующее
- Clean Action Prefix – каждое новое движение начинается из завершающей позиции предыдущего
- λ-shape Attention Mask – фокусировка на текущей обстановке помогает мгновенно реагировать на изменения

В тестах с полотенцами и деталями конструктора роботы показали на 37% меньше ошибок по сравнению с Boston Dynamics Atlas. Хотя последний создан для других задач, разница в бытовых сценариях очевидна.
Реальные результаты тестов
В трёх ключевых симуляторах (LIBERO, CALVIN, SimplerEnv) модель Xiaomi обошла 30 конкурентов. Но главное – реальные применения:

• Сборка разобранных блоков за 4.2 минуты (человеку нужно 3.1-3.5)
• Складывание полотенец со скоростью 11 секунд на изделие
• Точность захвата хрупких предметов – 99.3%
Система работает даже на видеокартах уровня RTX 4070 Ti, что делает её доступной для учебных заведений и стартапов.
Где взять и как использовать
Xiaomi раскрыла все материалы – от весов модели до документации:
• Проектная страница с примерами использования
• GitHub-репозиторий исходного кода
• Модели на Hugging Face для запуска

Комьюнити уже адаптирует модель для сельхозроботов и систем реабилитации. Один студент MIT собрал прототип, который помогает пожилым людям заваривать чай – с подсказками через очки AR.
Это не просто открытая модель. Это технологическая база для тысяч проектов – от умных домов до промышленной автоматизации. Главное преимущество – система учится понимать наш мир на уровне бытовых действий. Когда робот складывает полотенце, он не просто выполняет код – он осознаёт что делает.






