VLA-модели: как AI научил роботов видеть, думать и действовать

В избранное
В избранном

VLA-модели: как AI научил роботов видеть, думать и действовать | 2026
Deep Research / Physical AI

VLA-модели: как AI научил роботов видеть, думать и действовать

Разбираем технологию, которая превращает языковые модели в физический интеллект — и создаёт рынок на триллионы долларов

15 мая 2026 · 15 мин чтения · Project Prometheus Research
Часть серии Изучаем идею Project Prometheus ⟵ Вернуться к основной статье
🔗
Основная статья серии
Project Prometheus — $6.2B стартап Джеффа Безоса, который строит world models для промышленности
Читать ⟶

Что такое VLA-модели

VLA (Vision-Language-Action) — это класс мультимодальных AI-моделей, которые принимают на вход изображения с камер робота и текстовую инструкцию на естественном языке, а на выходе напрямую генерируют команды для управления роботом. Без отдельных модулей восприятия, планирования и контроля — одна модель решает всё.

Представьте себе, как работает человеческий мозг. Вы видите кофейную чашку на столе (vision), слышите просьбу “подай, пожалуйста, кофе” (language), и ваша рука тянется к чашке, захватывает её и протягивает собеседнику (action). Три разные системы — зрительная, языковая и моторная — работают как единое целое. VLA-модели делают именно это для роботов.

До появления VLA робототехника была похожа на конвейер на фабрике: отдельный модуль компьютерного зрения распознавал объекты, отдельный планировщик строил траекторию, отдельный контроллер управлял моторами. Каждый этап добавлял ошибку и задержку. VLA заменяет этот трёхэтапный конвейер одной нейросетью — end-to-end, от пикселей к моторам.

Технологический прорыв случился в 2023 году, когда Google DeepMind представила RT-2 — первую модель, которая перенесла веса предобученной языковой модели (PaLI-X, 55 млрд параметров) в мир физических действий. Результат: робот стал лучше справляться с задачами, которые он никогда раньше не видел — скачком с 44% до 62% успешности на новых объектах. С тех пор сектор вырос в десятки раз: стартапы привлекают миллиарды, а оценки растут в геометрической прогрессии.

VLA — это не просто новый тип AI-модели. Это фундаментальная архитектура для Physical AI, объединяющая зрение, язык и действия в единую систему. — Google DeepMind, RT-2 paper (2023)

Вход и выход VLA-модели

Вход: Изображения с камер робота + текстовая инструкция + данные с датчиков (глубина, положение суставов)
Модель: Трансформер или мультимодальный бэкбон (RT-2, π0, Gemini Robotics)
Выход: Action tokens — позиция захвата, скорости суставов, состояние gripper

Как это работает

Три модуля — зрение, язык, действие — сливаются в единую нейросеть, которая превращает “возьми красный куб” в движение моторов.

👁
Vision
Камеры робота
💬
Language
Текстовая инструкция
Action
Моторные команды

Три модальности — одна модель

VLA-модели объединяют три потока данных через механизм cross-attention. Vision-энкодер (DINOV2, SigLIP) обрабатывает изображения с камер. LLM-бэкбон (Llama, PaLM, Gemini) кодирует текстовую инструкцию. Данные о состоянии робота (положение суставов, силы) интегрируются в единое представление. На выходе — команды для моторов.

Action Tokens: когда движение становится текстом

Ключевая инновация RT-2 — представление робот-действий как токенов, аналогичных текстовым. Непрерывные параметры (позиция, ориентация, состояние gripper) дискретизируются и кодируются как строки чисел. Модель генерирует их так же, как слова в предложении. Это позволяет использовать масштабные предобученные веса LLM и обучаться на смешанных данных — веб-данные плюс робот-траектории.

Flow Matching: следующий уровень

Модель π0 (pi-zero) от Physical Intelligence пошла дальше — вместо дискретизации использует flow matching, диффузионный подход для генерации плавных непрерывных траекторий. Результат: более естественные движения, лучшая работа с хрупкими предметами, генерация действий на высокой частоте. Это позволяет π0 складывать бельё, собирать коробки и готовить кофе — задачи, требующие точного контакта.

Сравнение: традиционная робототехника vs VLA

ПараметрТрадиционная робототехникаVLA-модели
АрхитектураКонвейер: восприятие → планирование → контрольEnd-to-end: один трансформер
ПрограммированиеРучное кодирование каждого движенияЕстественно-языковые инструкции
ОбобщениеТолько на знакомых объектах/сценахГенерализация на новые задачи
ЗадержкаВысокая (каскад модулей)Одно inference-прохождение
Накопление ошибокДа — ошибка на каждом этапеНет — единая оптимизация
МасштабированиеЛинейное с усложнениемСубъективно экспоненциальное с данными

Ключевые VLA-модели

От RT-2 до GR00T N2 — как менялся ландшафт robot foundation models за три года.

Каждая из этих моделей решает фундаментальную проблему: как перевести визуальное восприятие и языковое понимание в физические действия. Но подходы различаются кардинально — от открытых академических разработок до закрытых коммерческих систем.

МодельОрганизацияПараметрыОткрытый кодКлючевая особенность
RT-2Google DeepMind55BНетПервый VLA на базе VLM; веб-знания для роботов
OpenVLA 7BBerkeley / Stanford7BApache 2.0Лучший для fine-tuning; 970K эпизодов
π0 (pi-zero)Physical Intelligence3BЧастичноFlow matching; декс-манипуляции
Gemini Robotics 1.5Google DeepMindAPIAgentic reasoning; cross-embodiment
GR00T N2NVIDIAApache 2.0Гуманоидное управление всем телом
OctoBerkeley / Stanford / CMU27M / 93MApache 2.0Быстрый inference; 9 роботов из коробки

RT-2: первопроходец

RT-2, представленный Google DeepMind в 2023 году, стал первой моделью, доказавшей, что веса предобученной VLM можно адаптировать для управления роботом. Успешность на новых объектах выросла с 44% (RT-1) до 62%. Ограничение: робот может выполнять только те физические навыки, которые видел при обучении — pick, place, push.

OpenVLA: демократизация доступа

OpenVLA — полностью открытая модель на базе Llama-2 с 7 млрд параметров, обученная на 970K эпизодах из датасета Open X-Embodiment (27 роботов). Показывает 85% на OXE задачах и 74% после fine-tuning на Franka Panda. Для инвестора важно: открытые модели ускоряют эксперименты и снижают барьер входа.

π0: магия flow matching

Флагман Physical Intelligence использует диффузионный подход вместо дискретизации — генерирует плавные траектории, что позволяет работать с деформируемыми объектами: складывать бельё, мять тесто, мыть посуду. Успешность 73% на LIBERO-90. π0.6 (ноябрь 2025) добавил RL Tokens — после 15 минут автономного обучения робот достигает точности 1 мм.

Gemini Robotics 1.5: мышление перед действием

Базируясь на Gemini 2.0, эта модель “думает” перед действием — показывает процесс рассуждения. В более чем 2 раза превосходит другие VLA-модели по метрике generality. On-Device версия работает локально на роботе и адаптируется к новым задачам за 50-100 демонстраций.

GR00T N2: NVIDIA для гуманоидов

State-of-the-art модель от NVIDIA для целостного управления гуманоидным телом. Полностью открытая (Apache 2.0), что ускоряет разработку в экосистеме.

Open X-Embodiment

Проект Google DeepMind (2024) объединил данные 22 роботов, 21 института, 527 навыков и ~1M траекторий. RT-X, обученный на этих данных, в среднем на 50% превосходил специализированные модели — доказательство силы кросс-эмбодиментного обучения.

Ключевые игроки

Пять компаний, которые определяют будущее Physical AI — от “software brain” до гуманоидных роботов.

Physical Intelligence

Сан-Франциско, 2024

Создает “software brain” для роботов — НЕ производит роботов, а модели, работающие на любой платформе. Основана Каролом Хаусманом (ex-Google DeepMind) и Сергеем Левиным (UC Berkeley).

Оценка
$11B+
>$2B привлечено за 2 года
π0 / π0.5 / π0.6 Flow matching

Figure AI

Сан-Хосе, 2022

Гуманоидный робот Figure + AI-платформа Helix. CEO Бретт Адкок — 15x рост оценки за год. План: 100,000 роботов за 4 года. Партнёрства с BMW, OpenAI, NVIDIA.

Оценка
$39B
>$1.7B привлечено
Figure 02 Helix

Skild AI

Питтсбург, 2023

Skild Brain — unified foundation model, работает на любых роботах: гуманоиды, квадрупеды, манипуляторы. Выручка $30M за несколько месяцев 2025-го. Основатели — ex-CMU.

Оценка
$14B+
>$1.83B привлечено
Omni-body Skild Brain

Google DeepMind

Лондон / Маунтин-Вью

Лидер фундаментальных исследований. RT-2, Gemini Robotics, Open X-Embodiment. Партнёрства с Apptronik, Boston Dynamics, Agility Robotics, Universal Robots.

Статус
Подразделение Alphabet
CapitalG инвестирует в PI
RT-2 Gemini Robotics RT-X

Apptronik

Остин, 2016

Гуманоид Apollo: 175 см, 73 кг, подъём 25 кг, 4 часа на батарее. Партнёры: Google DeepMind, Mercedes-Benz, Jabil, GXO Logistics, NASA. Роботы собирают роботов.

Оценка
$5B+
$935M Series A
Apollo NASA

Финансирование: крупнейшие раунды

Январь 2026
Skild AI Series C — $1.4B при оценке $14B+ (SoftBank, NVIDIA, Bezos Expeditions)
Сентябрь 2025
Figure AI Series C — >$1B при оценке $39B (Parkway VC, NVIDIA, Intel Capital)
Апрель 2026
Physical Intelligence Series C — ~$1B при оценке $11B+ (Founders Fund, Lightspeed, Thrive)
Ноябрь 2025
Physical Intelligence Series B — $600M при оценке $5.6B (CapitalG, Bezos, Thrive)
Февраль 2025
Apptronik Series A Extension — $520M (B Capital, Google, Mercedes-Benz)
Ноябрь 2024
Physical Intelligence Series A — $400M при оценке $2.4B (Bezos, OpenAI, Sequoia)
Июль 2024
Skild AI Series A — $300M при оценке $1.5B (Bezos, Lightspeed, Coatue)
Март 2024
Figure AI Series B — $675M при оценке $2.6B (Microsoft, OpenAI, NVIDIA)

Инвестиционная картина

Physical AI стал лидером венчурной активности в 2025 году. Более 50% всех венчурных долларов ушло в AI — и значительная часть в робототехнику.

$27.6B
Инвестиции в робототехнику 2025
$2.2B+
В robot foundation models
50%+
Венчурных долларов в AI
Инвестиции в робототехнику, $ млрд
2021
$13.1B
$13.1B
2024
$13.7B
$13.7B
2025
$27.6B
$27.6B

Источник: PitchBook Q4 2025, Crunchbase

Рынок: цифры и прогнозы

Сегмент20252030CAGR
Общий рынок робототехники$50B$111–205B13–15%
Рынок гуманоидов$0.07–2.9B$4–15.3B17–138%
ПО для робототехники$24.5B
Глобальный рынок труда (TAM)Десятки триллионов долларов

Источники: ABI Research, GlobalData, MarketsandMarkets

Цена гуманоида падает

Ещё один важный тренд — снижение стоимости гуманоидных роботов с ~$160K в 2024 году до прогнозируемых <$40K к 2030-му. Это открывает массовый рынок и делает роботов экономически конкурентоспособными с человеческим трудом в развитых странах.

Почему это интересно инвестору

Пять инвестиционных тезисов, которые объясняют, почему крупнейшие инвесторы мира концентрируют капитал в Physical AI.

1. TAM измеряется триллионами

Глобальный рынок труда оценивается в десятки триллионов долларов. Даже частичная автоматизация — 1-2% — создаёт возможность для компаний с капитализацией в триллион. Сравнение: весь рынок cloud computing — ~$600B. Рынок труда — на порядок больше.

2. Дефицит рабочей силы ускоряется

В развитых странах население стареет, а рождаемость падает. В Японии уже не хватает рабочих рук для базовых задач. В США дефицит рабочей силы в логистике и производстве растёт каждый год. Роботы — не роскошь, а необходимость.

3. Software brain > hardware body

Как LLM изменили текст, VLA изменяют физический мир. Но ключевой инсайт — ПО имеет SaaS-маржинальность, железо — нет. Physical Intelligence и Skild AI продают “мозг”, а не робота — повторяемые лицензии с маржой 70-80%. Это как продавать Android вместо смартфонов.

Software eats robotics. Компании, создающие software-интеллект, получают более высокие оценки, чем производители железа. — Инвестиционный тезис Prometheus Research

4. Data moat защищает лидеров

Ранние игроки накапливают данные физических взаимодействий, которые невозможно синтезировать или купить. Physical Intelligence обучается на реальных траекториях манипуляций — каждый новый эпизод делает модель лучше. Это классический data network effect: больше данных → лучше модель → больше клиентов → ещё больше данных.

5. Bezos + SoftBank + NVIDIA = консенсус умных денег

Когда три крупнейших технологических инвестора концентрируют капитал в одном секторе — это сигнал. Джефф Безос инвестирует в Physical Intelligence (3 раунда), Figure AI, Skild AI. SoftBank вложил $1.4B в Skild AI. NVIDIA поддерживает всех ключевых игроков. Их due diligence — ваш due diligence.

Ключевые инвесторы в VLA-экосистему

Jeff Bezos / Bezos Expeditions — Physical Intelligence (3 раунда), Figure AI, Skild AI
SoftBank / Vision Fund — Skild AI Series C ($1.4B)
NVIDIA / NVentures — Figure AI, Skild AI, Apptronik
Thrive Capital / Lux Capital — Physical Intelligence (Seed, A, B)
Google / CapitalG — Physical Intelligence Series B (lead)
Sequoia / OpenAI / Founders Fund — Physical Intelligence

Связь с Project Prometheus / Jeff Bezos

Project Prometheus — AI-компания Джеффа Безоса, запущенная в ноябре 2025 года с $6.2B+ капитала. Первый проект Безоса с операционной ролью со времён Amazon.

Project Prometheus — это не просто ещё один AI-стартап. Безос занял в нём операционную роль впервые с 2021 года. Компания в stealth mode фокусируется на “world models” — AI-моделях, понимающих физический мир: гравитацию, движение, причинно-следственные связи. ~120 сотрудников наняты из OpenAI, Anthropic, xAI, Nvidia, DeepMind.

Приобретение General Agents

В ноябре 2025 Prometheus приобрёл General Agents — стартап, основанный бывшим исследователем Google DeepMind Sherjil Ozair. Компания разрабатывала Video-Language-Action модель — технологию напрямую применимую к робототехнике. Это добавило VLA-экспертизу в экосистему Prometheus.

Советники Project Prometheus — Ashish Vaswani и Jakob Uskoreit, авторы легендарной статьи “Attention Is All You Need” (2017), на которой построены все современные LLM. The Information

Философия: миры + действия

Project Prometheus и Physical Intelligence — две стороны одной медали. Prometheus создаёт world models (понимание физики мира), а Physical Intelligence — action models (преобразование понимания в движение). Вместе они формируют полный стек Physical AI: от симуляции до физического действия.

Безос как архитектор экосистемы

Безос участвует во всех ключевых раундах VLA-стартапов и одновременно строит собственную компанию в этом пространстве. Это не диверсификация — это стратегическое создание экосистемы. Илон Маск назвал Безоса “copycat” из-за сходства между Prometheus и xAI/Tesla Optimus — лучшего подтверждения конкурентности технологии не найти.

$6.2B
Стартовый капитал Prometheus
+$10B
В планах
~120
Сотрудников

Риски

Честный разбор — без розовых очков. Каждая технология имеет ограничения, и VLA не исключение.

⚠ Нет выручки

Physical Intelligence — самый дорогой стартап сектора ($11B+) — не имеет коммерческого продукта или дохода. Figure AI и Skild AI только начинают генерировать выручку.

⚠ Технические ограничения

VLA-модели всё ещё ошибаются на сложных задачах. Latency при inference ограничивает скорость реакции. Точность до 1 мм достижима только после RL-дообучения.

⚠ Конкуренция гигантов

Google, NVIDIA, OpenAI, Tesla — все развивают собственные VLA/робототехнические платформы. Стартапы могут оказаться между молотом и наковальней.

⚠ Регуляторные риски

Безопасность физического AI, страховые вопросы, ответственность за действия роботов — всё это пока не урегулировано законодательно.

⚠ Bubble risk

PitchBook отмечает: >$2.2B инвестировано в robot foundation models в 2025 — возможно переохлаждение. Оценки $11-39B для компаний без прибыли — это норма для AI, но риск коррекции реален.

⚠ Дефицит данных

Физические данные сложнее собирать, чем текстовые. Open X-Embodiment — ~1M траекторий. Для сравнения: GPT-4 обучался на триллионах токенов. Робототехнике нужно на порядки больше данных.

Более 50% всех венчурных долларов в 2025 ушло в AI. Когда капитал концентрируется так плотно, коррекция неизбежна — вопрос в том, кто выживет. — PitchBook, Q4 2025

Выводы

Пять ключевых тейкауэя для инвестора, который дочитал до конца.

  1. VLA — фундаментальная архитектура Physical AI
    Объединение зрения, языка и действий в единую end-to-end модель — определяющий технологический прорыв 2024-2026. Это не hype, это новая парадигма.
  2. Скорость оценок беспрецедентна
    Physical Intelligence: $2.4B → $11B+ за 4 месяца. Figure AI: $39B за 3 года. Skild AI: $14B за 2.5 года. Такого не было даже в золотую эпоху SaaS.
  3. Безос — центральная фигура экосистемы
    Участие во всех ключевых раундах + собственный Project Prometheus на $6.2B+ делают его архитектором Physical AI. Следите за его движениями — и за конкуренцией с Musk.
  4. “Software brain” побеждает hardware
    Чистые software-игроки (PI, Skild) получают более высокие оценки и маржи, чем производители железа. Покупайте лопаты, а не золотодобытчиков.
  5. Рынок труда — конечный TAM
    Глобальный рынок труда — десятки триллионов. Даже 1% автоматизации создаёт триллионную возможность. Цена гуманоида падает с $160K к $40K — точка перелома близка.

Катализаторы на горизонте (2025-2026)

π0.6 RL Tokens — 15-минутное обучение робота (2025)
Gemini Robotics 1.5 — production-grade VLA с reasoning (2025)
π 1.0 Release — первый коммерческий продукт PI (2026)
Project Prometheus — $6.2B+ от Безоса
NVIDIA Blackwell — более мощные GPU для inference

Источники и ссылки

© 2026 Project Prometheus. Все материалы предоставлены в образовательных целях и не являются инвестиционной рекомендацией.

Посмотрите все проекты из индустрий

проекты из индустрий

интересное

аналитика