Новый модель для робототехники от Hugging Face может работать на MacBook
Новый модель для робототехники от Hugging Face может работать на MacBook

Платформа для разработки ИИ Hugging Face представила новую открытую модель для робототехники под названием SmolVLA. Эта модель, как утверждает компания, обучена на «совместимо лицензированных» наборах данных, предоставленных сообществом, и демонстрирует превосходные результаты по сравнению с более крупными моделями в виртуальных и реальных условиях.

Hugging Face заявляет, что SmolVLA направлена на демократизацию доступа к моделям, которые связывают визуальную информацию, языковые команды и действия робототехники. Это не просто легкая и эффективная модель, но и метод для обучения и оценки технологий общего назначения в области робототехники.

Цели и задачи SmolVLA

SmolVLA является частью стремительного расширения Hugging Face в создании экосистемы доступного робототехнического оборудования и программного обеспечения. В прошлом году компания запустила LeRobot, набор моделей, наборов данных и инструментов для робототехники. Недавно Hugging Face приобрела стартап Pollen Robotics из Франции и представила несколько недорогих робототехнических систем, включая гуманоидов.

Технические характеристики SmolVLA

Модель SmolVLA имеет 450 миллионов параметров и была обучена на данных из LeRobot Community Datasets, которые являются специально помеченными наборами данных робототехники, доступными на платформе разработки ИИ Hugging Face. Параметры, иногда называемые весами, представляют собой внутренние компоненты модели, которые определяют её поведение.

Hugging Face утверждает, что SmolVLA достаточно компактна, чтобы работать на одном потребительском графическом процессоре или даже на MacBook. Модель можно протестировать и развернуть на «доступном» оборудовании, включая собственные робототехнические системы компании.

Инновационные возможности SmolVLA

SmolVLA также поддерживает «асинхронный стек вывода», который, по словам Hugging Face, позволяет модели отделять обработку действий робота от обработки визуальной и звуковой информации. Это разделение, как объясняет компания, помогает роботам быстрее реагировать в быстро меняющихся условиях.

Модель SmolVLA доступна для загрузки на платформе Hugging Face. Один из пользователей в социальной сети X уже поделился опытом использования этой модели для управления сторонним роботизированным манипулятором:

🚀 SmolVLA — это как момент BERT для робототехники 🤖 Я попробовал её на Koch Arm: вывод на RTX 2050 (4 ГБ), тонкая настройка всего с 31 демонстрацией, и она соответствует/превышает базовые показатели однозадачных моделей 🔥 Большое спасибо @RemiCadene @danaubakirova @mustash97 @francesco__capu 🙌

Конкуренция в области открытой робототехники

Стоит отметить, что Hugging Face не единственный игрок в возникшей гонке открытой робототехники. Nvidia предлагает набор инструментов для открытой робототехники, а стартап K-Scale Labs создает компоненты для так называемых «открытых гуманоидов». Среди других известных компаний в этой области можно выделить Dyna Robotics, Physical Intelligence, поддерживаемую Джеффом Безосом, и RLWRLD.