Какие компании лидируют в разработке VLA-моделей?

Ключевые игроки: Physical Intelligence (оценка $11B+, модель π0), Google DeepMind (RT-2, Gemini Robotics), Figure AI (оценка $39B, модель Helix), Skild AI (оценка $14B+), NVIDIA (GR00T N1, open-source).

Какой объём инвестиций в VLA и робототехнику?

В 2025 году в робототехнику инвестировано $27.6B (удвоение с 2024). Более $2.2B направлено в robot foundation models. Physical Intelligence привлекла >$2B, Figure AI — >$1.9B, Skild AI — $1.83B.

Как VLA-модели связаны с Project Prometheus Джеффа Безоса?

Project Prometheus ($6.2B seed) приобрёл General Agents — стартап с VLA-технологией от ex-DeepMind. Bezos инвестировал в Physical Intelligence (3 раунда), Figure AI и Skild AI, охватив всю экосистему Physical AI.

Какой потенциал рынка VLA-моделей?

Рынок робототехники вырастет с $50B (2025) до $111-205B (2030) при CAGR 13-15%. Рынок гуманоидных роботов — с $0.07B до $4-15B (2030), CAGR до 138%. Software для роботов — $24.5B к 2030.

VLA-модели: как AI научил роботов видеть, думать и действовать | 2026

Deep Research / Physical AI

VLA-модели: как AI научил роботов видеть, думать и действовать

Q: Что такое VLA-модели?

VLA (Vision-Language-Action) — это мультимодальные AI-модели, которые принимают изображения с камер робота и текстовую инструкцию, а на выходе генерируют команды для управления роботом. Это end-to-end архитектура, устраняющая традиционный конвейер восприятие-планирование-контроль.

Разбираем технологию, которая превращает языковые модели в физический интеллект — и создаёт рынок на триллионы долларов

15 мая 2026 · 15 мин чтения · Project Prometheus Research

Что такое VLA-модели

VLA (Vision-Language-Action) — это класс мультимодальных AI-моделей, которые принимают на вход изображения с камер робота и текстовую инструкцию на естественном языке, а на выходе напрямую генерируют команды для управления роботом. Без отдельных модулей восприятия, планирования и контроля — одна модель решает всё.

Представьте себе, как работает человеческий мозг. Вы видите кофейную чашку на столе (vision), слышите просьбу “подай, пожалуйста, кофе” (language), и ваша рука тянется к чашке, захватывает её и протягивает собеседнику (action). Три разные системы — зрительная, языковая и моторная — работают как единое целое. VLA-модели делают именно это для роботов.

До появления VLA робототехника была похожа на конвейер на фабрике: отдельный модуль компьютерного зрения распознавал объекты, отдельный планировщик строил траекторию, отдельный контроллер управлял моторами. Каждый этап добавлял ошибку и задержку. VLA заменяет этот трёхэтапный конвейер одной нейросетью — end-to-end, от пикселей к моторам.

Технологический прорыв случился в 2023 году, когда Google DeepMind представила RT-2 — первую модель, которая перенесла веса предобученной языковой модели (PaLI-X, 55 млрд параметров) в мир физических действий. Результат: робот стал лучше справляться с задачами, которые он никогда раньше не видел — скачком с 44% до 62% успешности на новых объектах. С тех пор сектор вырос в десятки раз: стартапы привлекают миллиарды, а оценки растут в геометрической прогрессии.

VLA — это не просто новый тип AI-модели. Это фундаментальная архитектура для Physical AI, объединяющая зрение, язык и действия в единую систему. — Google DeepMind, RT-2 paper (2023)

Вход и выход VLA-модели

Вход: Изображения с камер робота + текстовая инструкция + данные с датчиков (глубина, положение суставов)
Модель: Трансформер или мультимодальный бэкбон (RT-2, π0, Gemini Robotics)
Выход: Action tokens — позиция захвата, скорости суставов, состояние gripper

Как это работает

Три модуля — зрение, язык, действие — сливаются в единую нейросеть, которая превращает “возьми красный куб” в движение моторов.

👁

Vision

Камеры робота

→

💬

Language

Текстовая инструкция

→

⚙

Action

Моторные команды

Три модальности — одна модель

VLA-модели объединяют три потока данных через механизм cross-attention. Vision-энкодер (DINOV2, SigLIP) обрабатывает изображения с камер. LLM-бэкбон (Llama, PaLM, Gemini) кодирует текстовую инструкцию. Данные о состоянии робота (положение суставов, силы) интегрируются в единое представление. На выходе — команды для моторов.

Action Tokens: когда движение становится текстом

Ключевая инновация RT-2 — представление робот-действий как токенов, аналогичных текстовым. Непрерывные параметры (позиция, ориентация, состояние gripper) дискретизируются и кодируются как строки чисел. Модель генерирует их так же, как слова в предложении. Это позволяет использовать масштабные предобученные веса LLM и обучаться на смешанных данных — веб-данные плюс робот-траектории.

Flow Matching: следующий уровень

Модель π0 (pi-zero) от Physical Intelligence пошла дальше — вместо дискретизации использует flow matching, диффузионный подход для генерации плавных непрерывных траекторий. Результат: более естественные движения, лучшая работа с хрупкими предметами, генерация действий на высокой частоте. Это позволяет π0 складывать бельё, собирать коробки и готовить кофе — задачи, требующие точного контакта.

Сравнение: традиционная робототехника vs VLA

Параметр	Традиционная робототехника	VLA-модели
Архитектура	Конвейер: восприятие → планирование → контроль	End-to-end: один трансформер
Программирование	Ручное кодирование каждого движения	Естественно-языковые инструкции
Обобщение	Только на знакомых объектах/сценах	Генерализация на новые задачи
Задержка	Высокая (каскад модулей)	Одно inference-прохождение
Накопление ошибок	Да — ошибка на каждом этапе	Нет — единая оптимизация
Масштабирование	Линейное с усложнением	Субъективно экспоненциальное с данными

Ключевые VLA-модели

От RT-2 до GR00T N2 — как менялся ландшафт robot foundation models за три года.

Каждая из этих моделей решает фундаментальную проблему: как перевести визуальное восприятие и языковое понимание в физические действия. Но подходы различаются кардинально — от открытых академических разработок до закрытых коммерческих систем.

Модель	Организация	Параметры	Открытый код	Ключевая особенность
RT-2	Google DeepMind	55B	Нет	Первый VLA на базе VLM; веб-знания для роботов
OpenVLA 7B	Berkeley / Stanford	7B	Apache 2.0	Лучший для fine-tuning; 970K эпизодов
π0 (pi-zero)	Physical Intelligence	3B	Частично	Flow matching; декс-манипуляции
Gemini Robotics 1.5	Google DeepMind	—	API	Agentic reasoning; cross-embodiment
GR00T N2	NVIDIA	—	Apache 2.0	Гуманоидное управление всем телом
Octo	Berkeley / Stanford / CMU	27M / 93M	Apache 2.0	Быстрый inference; 9 роботов из коробки

RT-2: первопроходец

RT-2, представленный Google DeepMind в 2023 году, стал первой моделью, доказавшей, что веса предобученной VLM можно адаптировать для управления роботом. Успешность на новых объектах выросла с 44% (RT-1) до 62%. Ограничение: робот может выполнять только те физические навыки, которые видел при обучении — pick, place, push.

OpenVLA: демократизация доступа

OpenVLA — полностью открытая модель на базе Llama-2 с 7 млрд параметров, обученная на 970K эпизодах из датасета Open X-Embodiment (27 роботов). Показывает 85% на OXE задачах и 74% после fine-tuning на Franka Panda. Для инвестора важно: открытые модели ускоряют эксперименты и снижают барьер входа.

π0: магия flow matching

Флагман Physical Intelligence использует диффузионный подход вместо дискретизации — генерирует плавные траектории, что позволяет работать с деформируемыми объектами: складывать бельё, мять тесто, мыть посуду. Успешность 73% на LIBERO-90. π0.6 (ноябрь 2025) добавил RL Tokens — после 15 минут автономного обучения робот достигает точности 1 мм.

Gemini Robotics 1.5: мышление перед действием

Базируясь на Gemini 2.0, эта модель “думает” перед действием — показывает процесс рассуждения. В более чем 2 раза превосходит другие VLA-модели по метрике generality. On-Device версия работает локально на роботе и адаптируется к новым задачам за 50-100 демонстраций.

GR00T N2: NVIDIA для гуманоидов

State-of-the-art модель от NVIDIA для целостного управления гуманоидным телом. Полностью открытая (Apache 2.0), что ускоряет разработку в экосистеме.

Open X-Embodiment

Проект Google DeepMind (2024) объединил данные 22 роботов, 21 института, 527 навыков и ~1M траекторий. RT-X, обученный на этих данных, в среднем на 50% превосходил специализированные модели — доказательство силы кросс-эмбодиментного обучения.

Ключевые игроки

Пять компаний, которые определяют будущее Physical AI — от “software brain” до гуманоидных роботов.

Physical Intelligence

Сан-Франциско, 2024

Создает “software brain” для роботов — НЕ производит роботов, а модели, работающие на любой платформе. Основана Каролом Хаусманом (ex-Google DeepMind) и Сергеем Левиным (UC Berkeley).

Оценка

$11B+

>$2B привлечено за 2 года

π0 / π0.5 / π0.6 Flow matching

Figure AI

Сан-Хосе, 2022

Гуманоидный робот Figure + AI-платформа Helix. CEO Бретт Адкок — 15x рост оценки за год. План: 100,000 роботов за 4 года. Партнёрства с BMW, OpenAI, NVIDIA.

Оценка

$39B

>$1.7B привлечено

Figure 02 Helix

Skild AI

Питтсбург, 2023

Skild Brain — unified foundation model, работает на любых роботах: гуманоиды, квадрупеды, манипуляторы. Выручка $30M за несколько месяцев 2025-го. Основатели — ex-CMU.

Оценка

$14B+

>$1.83B привлечено

Omni-body Skild Brain

Google DeepMind

Лондон / Маунтин-Вью

Лидер фундаментальных исследований. RT-2, Gemini Robotics, Open X-Embodiment. Партнёрства с Apptronik, Boston Dynamics, Agility Robotics, Universal Robots.

Статус

Подразделение Alphabet

CapitalG инвестирует в PI

RT-2 Gemini Robotics RT-X

Apptronik

Остин, 2016

Гуманоид Apollo: 175 см, 73 кг, подъём 25 кг, 4 часа на батарее. Партнёры: Google DeepMind, Mercedes-Benz, Jabil, GXO Logistics, NASA. Роботы собирают роботов.

Оценка

$5B+

$935M Series A

Apollo NASA

Финансирование: крупнейшие раунды

Январь 2026
Skild AI Series C — $1.4B при оценке $14B+ (SoftBank, NVIDIA, Bezos Expeditions)

Сентябрь 2025
Figure AI Series C — >$1B при оценке $39B (Parkway VC, NVIDIA, Intel Capital)

Апрель 2026
Physical Intelligence Series C — ~$1B при оценке $11B+ (Founders Fund, Lightspeed, Thrive)

Ноябрь 2025

Physical Intelligence Series B — $600M при оценке $5.6B (CapitalG, Bezos, Thrive)

Февраль 2025

Apptronik Series A Extension — $520M (B Capital, Google, Mercedes-Benz)

Ноябрь 2024

Physical Intelligence Series A — $400M при оценке $2.4B (Bezos, OpenAI, Sequoia)

Июль 2024

Skild AI Series A — $300M при оценке $1.5B (Bezos, Lightspeed, Coatue)

Март 2024

Figure AI Series B — $675M при оценке $2.6B (Microsoft, OpenAI, NVIDIA)

Инвестиционная картина

Physical AI стал лидером венчурной активности в 2025 году. Более 50% всех венчурных долларов ушло в AI — и значительная часть в робототехнику.

$27.6B

Инвестиции в робототехнику 2025

$2.2B+

В robot foundation models

50%+

Венчурных долларов в AI

Инвестиции в робототехнику, $ млрд

2021

$13.1B

2024

$13.7B

2025

$27.6B

Источник: PitchBook Q4 2025, Crunchbase

Рынок: цифры и прогнозы

Сегмент	2025	2030	CAGR
Общий рынок робототехники	$50B	$111–205B	13–15%
Рынок гуманоидов	$0.07–2.9B	$4–15.3B	17–138%
ПО для робототехники	—	$24.5B	—
Глобальный рынок труда (TAM)	Десятки триллионов долларов

Источники: ABI Research, GlobalData, MarketsandMarkets

Цена гуманоида падает

Ещё один важный тренд — снижение стоимости гуманоидных роботов с ~$160K в 2024 году до прогнозируемых <$40K к 2030-му. Это открывает массовый рынок и делает роботов экономически конкурентоспособными с человеческим трудом в развитых странах.

Почему это интересно инвестору

Пять инвестиционных тезисов, которые объясняют, почему крупнейшие инвесторы мира концентрируют капитал в Physical AI.

1. TAM измеряется триллионами

Глобальный рынок труда оценивается в десятки триллионов долларов. Даже частичная автоматизация — 1-2% — создаёт возможность для компаний с капитализацией в триллион. Сравнение: весь рынок cloud computing — ~$600B. Рынок труда — на порядок больше.

2. Дефицит рабочей силы ускоряется

В развитых странах население стареет, а рождаемость падает. В Японии уже не хватает рабочих рук для базовых задач. В США дефицит рабочей силы в логистике и производстве растёт каждый год. Роботы — не роскошь, а необходимость.

3. Software brain > hardware body

Как LLM изменили текст, VLA изменяют физический мир. Но ключевой инсайт — ПО имеет SaaS-маржинальность, железо — нет. Physical Intelligence и Skild AI продают “мозг”, а не робота — повторяемые лицензии с маржой 70-80%. Это как продавать Android вместо смартфонов.

Software eats robotics. Компании, создающие software-интеллект, получают более высокие оценки, чем производители железа. — Инвестиционный тезис Prometheus Research

4. Data moat защищает лидеров

Ранние игроки накапливают данные физических взаимодействий, которые невозможно синтезировать или купить. Physical Intelligence обучается на реальных траекториях манипуляций — каждый новый эпизод делает модель лучше. Это классический data network effect: больше данных → лучше модель → больше клиентов → ещё больше данных.

5. Bezos + SoftBank + NVIDIA = консенсус умных денег

Когда три крупнейших технологических инвестора концентрируют капитал в одном секторе — это сигнал. Джефф Безос инвестирует в Physical Intelligence (3 раунда), Figure AI, Skild AI. SoftBank вложил $1.4B в Skild AI. NVIDIA поддерживает всех ключевых игроков. Их due diligence — ваш due diligence.

Ключевые инвесторы в VLA-экосистему

Jeff Bezos / Bezos Expeditions — Physical Intelligence (3 раунда), Figure AI, Skild AI
SoftBank / Vision Fund — Skild AI Series C ($1.4B)
NVIDIA / NVentures — Figure AI, Skild AI, Apptronik
Thrive Capital / Lux Capital — Physical Intelligence (Seed, A, B)
Google / CapitalG — Physical Intelligence Series B (lead)
Sequoia / OpenAI / Founders Fund — Physical Intelligence

Связь с Project Prometheus / Jeff Bezos

Project Prometheus — AI-компания Джеффа Безоса, запущенная в ноябре 2025 года с $6.2B+ капитала. Первый проект Безоса с операционной ролью со времён Amazon.

Project Prometheus — это не просто ещё один AI-стартап. Безос занял в нём операционную роль впервые с 2021 года. Компания в stealth mode фокусируется на “world models” — AI-моделях, понимающих физический мир: гравитацию, движение, причинно-следственные связи. ~120 сотрудников наняты из OpenAI, Anthropic, xAI, Nvidia, DeepMind.

Приобретение General Agents

В ноябре 2025 Prometheus приобрёл General Agents — стартап, основанный бывшим исследователем Google DeepMind Sherjil Ozair. Компания разрабатывала Video-Language-Action модель — технологию напрямую применимую к робототехнике. Это добавило VLA-экспертизу в экосистему Prometheus.

Советники Project Prometheus — Ashish Vaswani и Jakob Uskoreit, авторы легендарной статьи “Attention Is All You Need” (2017), на которой построены все современные LLM. — The Information

Философия: миры + действия

Project Prometheus и Physical Intelligence — две стороны одной медали. Prometheus создаёт world models (понимание физики мира), а Physical Intelligence — action models (преобразование понимания в движение). Вместе они формируют полный стек Physical AI: от симуляции до физического действия.

Безос как архитектор экосистемы

Безос участвует во всех ключевых раундах VLA-стартапов и одновременно строит собственную компанию в этом пространстве. Это не диверсификация — это стратегическое создание экосистемы. Илон Маск назвал Безоса “copycat” из-за сходства между Prometheus и xAI/Tesla Optimus — лучшего подтверждения конкурентности технологии не найти.

$6.2B

Стартовый капитал Prometheus

+$10B

В планах

~120

Сотрудников

Риски

Честный разбор — без розовых очков. Каждая технология имеет ограничения, и VLA не исключение.

⚠ Нет выручки

Physical Intelligence — самый дорогой стартап сектора ($11B+) — не имеет коммерческого продукта или дохода. Figure AI и Skild AI только начинают генерировать выручку.

⚠ Технические ограничения

VLA-модели всё ещё ошибаются на сложных задачах. Latency при inference ограничивает скорость реакции. Точность до 1 мм достижима только после RL-дообучения.

⚠ Конкуренция гигантов

Google, NVIDIA, OpenAI, Tesla — все развивают собственные VLA/робототехнические платформы. Стартапы могут оказаться между молотом и наковальней.

⚠ Регуляторные риски

Безопасность физического AI, страховые вопросы, ответственность за действия роботов — всё это пока не урегулировано законодательно.

⚠ Bubble risk

PitchBook отмечает: >$2.2B инвестировано в robot foundation models в 2025 — возможно переохлаждение. Оценки $11-39B для компаний без прибыли — это норма для AI, но риск коррекции реален.

⚠ Дефицит данных

Физические данные сложнее собирать, чем текстовые. Open X-Embodiment — ~1M траекторий. Для сравнения: GPT-4 обучался на триллионах токенов. Робототехнике нужно на порядки больше данных.

Более 50% всех венчурных долларов в 2025 ушло в AI. Когда капитал концентрируется так плотно, коррекция неизбежна — вопрос в том, кто выживет. — PitchBook, Q4 2025

Выводы

Пять ключевых тейкауэя для инвестора, который дочитал до конца.

VLA — фундаментальная архитектура Physical AI
Объединение зрения, языка и действий в единую end-to-end модель — определяющий технологический прорыв 2024-2026. Это не hype, это новая парадигма.
Скорость оценок беспрецедентна
Physical Intelligence: $2.4B → $11B+ за 4 месяца. Figure AI: $39B за 3 года. Skild AI: $14B за 2.5 года. Такого не было даже в золотую эпоху SaaS.
Безос — центральная фигура экосистемы
Участие во всех ключевых раундах + собственный Project Prometheus на $6.2B+ делают его архитектором Physical AI. Следите за его движениями — и за конкуренцией с Musk.
“Software brain” побеждает hardware
Чистые software-игроки (PI, Skild) получают более высокие оценки и маржи, чем производители железа. Покупайте лопаты, а не золотодобытчиков.
Рынок труда — конечный TAM
Глобальный рынок труда — десятки триллионов. Даже 1% автоматизации создаёт триллионную возможность. Цена гуманоида падает с $160K к $40K — точка перелома близка.

Катализаторы на горизонте (2025-2026)

✓ π0.6 RL Tokens — 15-минутное обучение робота (2025)
✓ Gemini Robotics 1.5 — production-grade VLA с reasoning (2025)
✓ π 1.0 Release — первый коммерческий продукт PI (2026)
✓ Project Prometheus — $6.2B+ от Безоса
✓ NVIDIA Blackwell — более мощные GPU для inference