VLA-модели: как AI научил роботов видеть, думать и действовать
Разбираем технологию, которая превращает языковые модели в физический интеллект — и создаёт рынок на триллионы долларов
Что такое VLA-модели
VLA (Vision-Language-Action) — это класс мультимодальных AI-моделей, которые принимают на вход изображения с камер робота и текстовую инструкцию на естественном языке, а на выходе напрямую генерируют команды для управления роботом. Без отдельных модулей восприятия, планирования и контроля — одна модель решает всё.
Представьте себе, как работает человеческий мозг. Вы видите кофейную чашку на столе (vision), слышите просьбу “подай, пожалуйста, кофе” (language), и ваша рука тянется к чашке, захватывает её и протягивает собеседнику (action). Три разные системы — зрительная, языковая и моторная — работают как единое целое. VLA-модели делают именно это для роботов.
До появления VLA робототехника была похожа на конвейер на фабрике: отдельный модуль компьютерного зрения распознавал объекты, отдельный планировщик строил траекторию, отдельный контроллер управлял моторами. Каждый этап добавлял ошибку и задержку. VLA заменяет этот трёхэтапный конвейер одной нейросетью — end-to-end, от пикселей к моторам.
Технологический прорыв случился в 2023 году, когда Google DeepMind представила RT-2 — первую модель, которая перенесла веса предобученной языковой модели (PaLI-X, 55 млрд параметров) в мир физических действий. Результат: робот стал лучше справляться с задачами, которые он никогда раньше не видел — скачком с 44% до 62% успешности на новых объектах. С тех пор сектор вырос в десятки раз: стартапы привлекают миллиарды, а оценки растут в геометрической прогрессии.
Вход и выход VLA-модели
Вход: Изображения с камер робота + текстовая инструкция + данные с датчиков (глубина, положение суставов)
Модель: Трансформер или мультимодальный бэкбон (RT-2, π0, Gemini Robotics)
Выход: Action tokens — позиция захвата, скорости суставов, состояние gripper
Как это работает
Три модуля — зрение, язык, действие — сливаются в единую нейросеть, которая превращает “возьми красный куб” в движение моторов.
Три модальности — одна модель
VLA-модели объединяют три потока данных через механизм cross-attention. Vision-энкодер (DINOV2, SigLIP) обрабатывает изображения с камер. LLM-бэкбон (Llama, PaLM, Gemini) кодирует текстовую инструкцию. Данные о состоянии робота (положение суставов, силы) интегрируются в единое представление. На выходе — команды для моторов.
Action Tokens: когда движение становится текстом
Ключевая инновация RT-2 — представление робот-действий как токенов, аналогичных текстовым. Непрерывные параметры (позиция, ориентация, состояние gripper) дискретизируются и кодируются как строки чисел. Модель генерирует их так же, как слова в предложении. Это позволяет использовать масштабные предобученные веса LLM и обучаться на смешанных данных — веб-данные плюс робот-траектории.
Flow Matching: следующий уровень
Модель π0 (pi-zero) от Physical Intelligence пошла дальше — вместо дискретизации использует flow matching, диффузионный подход для генерации плавных непрерывных траекторий. Результат: более естественные движения, лучшая работа с хрупкими предметами, генерация действий на высокой частоте. Это позволяет π0 складывать бельё, собирать коробки и готовить кофе — задачи, требующие точного контакта.
Сравнение: традиционная робототехника vs VLA
| Параметр | Традиционная робототехника | VLA-модели |
|---|---|---|
| Архитектура | Конвейер: восприятие → планирование → контроль | End-to-end: один трансформер |
| Программирование | Ручное кодирование каждого движения | Естественно-языковые инструкции |
| Обобщение | Только на знакомых объектах/сценах | Генерализация на новые задачи |
| Задержка | Высокая (каскад модулей) | Одно inference-прохождение |
| Накопление ошибок | Да — ошибка на каждом этапе | Нет — единая оптимизация |
| Масштабирование | Линейное с усложнением | Субъективно экспоненциальное с данными |
Ключевые VLA-модели
От RT-2 до GR00T N2 — как менялся ландшафт robot foundation models за три года.
Каждая из этих моделей решает фундаментальную проблему: как перевести визуальное восприятие и языковое понимание в физические действия. Но подходы различаются кардинально — от открытых академических разработок до закрытых коммерческих систем.
| Модель | Организация | Параметры | Открытый код | Ключевая особенность |
|---|---|---|---|---|
| RT-2 | Google DeepMind | 55B | Нет | Первый VLA на базе VLM; веб-знания для роботов |
| OpenVLA 7B | Berkeley / Stanford | 7B | Apache 2.0 | Лучший для fine-tuning; 970K эпизодов |
| π0 (pi-zero) | Physical Intelligence | 3B | Частично | Flow matching; декс-манипуляции |
| Gemini Robotics 1.5 | Google DeepMind | — | API | Agentic reasoning; cross-embodiment |
| GR00T N2 | NVIDIA | — | Apache 2.0 | Гуманоидное управление всем телом |
| Octo | Berkeley / Stanford / CMU | 27M / 93M | Apache 2.0 | Быстрый inference; 9 роботов из коробки |
RT-2: первопроходец
RT-2, представленный Google DeepMind в 2023 году, стал первой моделью, доказавшей, что веса предобученной VLM можно адаптировать для управления роботом. Успешность на новых объектах выросла с 44% (RT-1) до 62%. Ограничение: робот может выполнять только те физические навыки, которые видел при обучении — pick, place, push.
OpenVLA: демократизация доступа
OpenVLA — полностью открытая модель на базе Llama-2 с 7 млрд параметров, обученная на 970K эпизодах из датасета Open X-Embodiment (27 роботов). Показывает 85% на OXE задачах и 74% после fine-tuning на Franka Panda. Для инвестора важно: открытые модели ускоряют эксперименты и снижают барьер входа.
π0: магия flow matching
Флагман Physical Intelligence использует диффузионный подход вместо дискретизации — генерирует плавные траектории, что позволяет работать с деформируемыми объектами: складывать бельё, мять тесто, мыть посуду. Успешность 73% на LIBERO-90. π0.6 (ноябрь 2025) добавил RL Tokens — после 15 минут автономного обучения робот достигает точности 1 мм.
Gemini Robotics 1.5: мышление перед действием
Базируясь на Gemini 2.0, эта модель “думает” перед действием — показывает процесс рассуждения. В более чем 2 раза превосходит другие VLA-модели по метрике generality. On-Device версия работает локально на роботе и адаптируется к новым задачам за 50-100 демонстраций.
GR00T N2: NVIDIA для гуманоидов
State-of-the-art модель от NVIDIA для целостного управления гуманоидным телом. Полностью открытая (Apache 2.0), что ускоряет разработку в экосистеме.
Open X-Embodiment
Проект Google DeepMind (2024) объединил данные 22 роботов, 21 института, 527 навыков и ~1M траекторий. RT-X, обученный на этих данных, в среднем на 50% превосходил специализированные модели — доказательство силы кросс-эмбодиментного обучения.
Ключевые игроки
Пять компаний, которые определяют будущее Physical AI — от “software brain” до гуманоидных роботов.
Physical Intelligence
Создает “software brain” для роботов — НЕ производит роботов, а модели, работающие на любой платформе. Основана Каролом Хаусманом (ex-Google DeepMind) и Сергеем Левиным (UC Berkeley).
Figure AI
Гуманоидный робот Figure + AI-платформа Helix. CEO Бретт Адкок — 15x рост оценки за год. План: 100,000 роботов за 4 года. Партнёрства с BMW, OpenAI, NVIDIA.
Skild AI
Skild Brain — unified foundation model, работает на любых роботах: гуманоиды, квадрупеды, манипуляторы. Выручка $30M за несколько месяцев 2025-го. Основатели — ex-CMU.
Google DeepMind
Лидер фундаментальных исследований. RT-2, Gemini Robotics, Open X-Embodiment. Партнёрства с Apptronik, Boston Dynamics, Agility Robotics, Universal Robots.
Apptronik
Гуманоид Apollo: 175 см, 73 кг, подъём 25 кг, 4 часа на батарее. Партнёры: Google DeepMind, Mercedes-Benz, Jabil, GXO Logistics, NASA. Роботы собирают роботов.
Финансирование: крупнейшие раунды
Инвестиционная картина
Physical AI стал лидером венчурной активности в 2025 году. Более 50% всех венчурных долларов ушло в AI — и значительная часть в робототехнику.
Источник: PitchBook Q4 2025, Crunchbase
Рынок: цифры и прогнозы
| Сегмент | 2025 | 2030 | CAGR |
|---|---|---|---|
| Общий рынок робототехники | $50B | $111–205B | 13–15% |
| Рынок гуманоидов | $0.07–2.9B | $4–15.3B | 17–138% |
| ПО для робототехники | — | $24.5B | — |
| Глобальный рынок труда (TAM) | Десятки триллионов долларов | ||
Источники: ABI Research, GlobalData, MarketsandMarkets
Цена гуманоида падает
Ещё один важный тренд — снижение стоимости гуманоидных роботов с ~$160K в 2024 году до прогнозируемых <$40K к 2030-му. Это открывает массовый рынок и делает роботов экономически конкурентоспособными с человеческим трудом в развитых странах.
Почему это интересно инвестору
Пять инвестиционных тезисов, которые объясняют, почему крупнейшие инвесторы мира концентрируют капитал в Physical AI.
1. TAM измеряется триллионами
Глобальный рынок труда оценивается в десятки триллионов долларов. Даже частичная автоматизация — 1-2% — создаёт возможность для компаний с капитализацией в триллион. Сравнение: весь рынок cloud computing — ~$600B. Рынок труда — на порядок больше.
2. Дефицит рабочей силы ускоряется
В развитых странах население стареет, а рождаемость падает. В Японии уже не хватает рабочих рук для базовых задач. В США дефицит рабочей силы в логистике и производстве растёт каждый год. Роботы — не роскошь, а необходимость.
3. Software brain > hardware body
Как LLM изменили текст, VLA изменяют физический мир. Но ключевой инсайт — ПО имеет SaaS-маржинальность, железо — нет. Physical Intelligence и Skild AI продают “мозг”, а не робота — повторяемые лицензии с маржой 70-80%. Это как продавать Android вместо смартфонов.
4. Data moat защищает лидеров
Ранние игроки накапливают данные физических взаимодействий, которые невозможно синтезировать или купить. Physical Intelligence обучается на реальных траекториях манипуляций — каждый новый эпизод делает модель лучше. Это классический data network effect: больше данных → лучше модель → больше клиентов → ещё больше данных.
5. Bezos + SoftBank + NVIDIA = консенсус умных денег
Когда три крупнейших технологических инвестора концентрируют капитал в одном секторе — это сигнал. Джефф Безос инвестирует в Physical Intelligence (3 раунда), Figure AI, Skild AI. SoftBank вложил $1.4B в Skild AI. NVIDIA поддерживает всех ключевых игроков. Их due diligence — ваш due diligence.
Ключевые инвесторы в VLA-экосистему
Jeff Bezos / Bezos Expeditions — Physical Intelligence (3 раунда), Figure AI, Skild AI
SoftBank / Vision Fund — Skild AI Series C ($1.4B)
NVIDIA / NVentures — Figure AI, Skild AI, Apptronik
Thrive Capital / Lux Capital — Physical Intelligence (Seed, A, B)
Google / CapitalG — Physical Intelligence Series B (lead)
Sequoia / OpenAI / Founders Fund — Physical Intelligence
Связь с Project Prometheus / Jeff Bezos
Project Prometheus — AI-компания Джеффа Безоса, запущенная в ноябре 2025 года с $6.2B+ капитала. Первый проект Безоса с операционной ролью со времён Amazon.
Project Prometheus — это не просто ещё один AI-стартап. Безос занял в нём операционную роль впервые с 2021 года. Компания в stealth mode фокусируется на “world models” — AI-моделях, понимающих физический мир: гравитацию, движение, причинно-следственные связи. ~120 сотрудников наняты из OpenAI, Anthropic, xAI, Nvidia, DeepMind.
Приобретение General Agents
В ноябре 2025 Prometheus приобрёл General Agents — стартап, основанный бывшим исследователем Google DeepMind Sherjil Ozair. Компания разрабатывала Video-Language-Action модель — технологию напрямую применимую к робототехнике. Это добавило VLA-экспертизу в экосистему Prometheus.
Философия: миры + действия
Project Prometheus и Physical Intelligence — две стороны одной медали. Prometheus создаёт world models (понимание физики мира), а Physical Intelligence — action models (преобразование понимания в движение). Вместе они формируют полный стек Physical AI: от симуляции до физического действия.
Безос как архитектор экосистемы
Безос участвует во всех ключевых раундах VLA-стартапов и одновременно строит собственную компанию в этом пространстве. Это не диверсификация — это стратегическое создание экосистемы. Илон Маск назвал Безоса “copycat” из-за сходства между Prometheus и xAI/Tesla Optimus — лучшего подтверждения конкурентности технологии не найти.
Риски
Честный разбор — без розовых очков. Каждая технология имеет ограничения, и VLA не исключение.
⚠ Нет выручки
Physical Intelligence — самый дорогой стартап сектора ($11B+) — не имеет коммерческого продукта или дохода. Figure AI и Skild AI только начинают генерировать выручку.
⚠ Технические ограничения
VLA-модели всё ещё ошибаются на сложных задачах. Latency при inference ограничивает скорость реакции. Точность до 1 мм достижима только после RL-дообучения.
⚠ Конкуренция гигантов
Google, NVIDIA, OpenAI, Tesla — все развивают собственные VLA/робототехнические платформы. Стартапы могут оказаться между молотом и наковальней.
⚠ Регуляторные риски
Безопасность физического AI, страховые вопросы, ответственность за действия роботов — всё это пока не урегулировано законодательно.
⚠ Bubble risk
PitchBook отмечает: >$2.2B инвестировано в robot foundation models в 2025 — возможно переохлаждение. Оценки $11-39B для компаний без прибыли — это норма для AI, но риск коррекции реален.
⚠ Дефицит данных
Физические данные сложнее собирать, чем текстовые. Open X-Embodiment — ~1M траекторий. Для сравнения: GPT-4 обучался на триллионах токенов. Робототехнике нужно на порядки больше данных.
Выводы
Пять ключевых тейкауэя для инвестора, который дочитал до конца.
- VLA — фундаментальная архитектура Physical AI
Объединение зрения, языка и действий в единую end-to-end модель — определяющий технологический прорыв 2024-2026. Это не hype, это новая парадигма. - Скорость оценок беспрецедентна
Physical Intelligence: $2.4B → $11B+ за 4 месяца. Figure AI: $39B за 3 года. Skild AI: $14B за 2.5 года. Такого не было даже в золотую эпоху SaaS. - Безос — центральная фигура экосистемы
Участие во всех ключевых раундах + собственный Project Prometheus на $6.2B+ делают его архитектором Physical AI. Следите за его движениями — и за конкуренцией с Musk. - “Software brain” побеждает hardware
Чистые software-игроки (PI, Skild) получают более высокие оценки и маржи, чем производители железа. Покупайте лопаты, а не золотодобытчиков. - Рынок труда — конечный TAM
Глобальный рынок труда — десятки триллионов. Даже 1% автоматизации создаёт триллионную возможность. Цена гуманоида падает с $160K к $40K — точка перелома близка.
Катализаторы на горизонте (2025-2026)
✓ π0.6 RL Tokens — 15-минутное обучение робота (2025)
✓ Gemini Robotics 1.5 — production-grade VLA с reasoning (2025)
✓ π 1.0 Release — первый коммерческий продукт PI (2026)
✓ Project Prometheus — $6.2B+ от Безоса
✓ NVIDIA Blackwell — более мощные GPU для inference

