Physical AI. Физический ИИ на пороге прорыва

Технологии искусственного интеллекта выходят на новый уровень. Чаты – уже прошлое. Теперь задача “вывести” ИИ в реальный мир. Ведь полностью логично, что робот должен “понимать” наш мир, а не читать о нем текстом. Пока это малозаметный тренд, но он кардинально изменит технологии нашей цивилизации.

КАК ОБЪЯСНИТЬ ВАЖНОСТЬ ЭТОГО ВСЕГО ОДНОЙ КАРТИНКОЙ?

Посмотрите на этот скрин. Это видео, где крышка падает в воду и где зеркальный шар катится и показывает отражение. Это и есть самое неочевидное – нейронная сеть ДОСТРАИВАЕТ и ПРЕДУГАДЫВАЕТ физические изменения в среде. Волны от падения внутри прозрачной чашки моделируются как реальные. Отражение на зеркальном шаре – фотореалистичны. Это и есть СИМУЛЯЦИЯ законов реального мира внутри ИИ. Это следующий этап в развитии искусственного интеллекта.

Информация о спикере

Jim Fan (范麟熙) — исследователь и руководитель направления воплощённого ИИ (embodied AI) в NVIDIA.
Ключевые факты:

Должность: Руководит группой Generalist Embodied Agent Research (GEAR) в NVIDIA — занимается созданием универсальных ИИ-агентов, которые могут действовать в физическом мире.
Образование: PhD из Стэнфорда (лаборатория Fei-Fei Li), специализация — компьютерное зрение и робототехника.
Опыт в OpenAI: Работал в OpenAI на раннем этапе, был свидетелем/участником запуска первого DGX-1 (система NVIDIA для ИИ-обучения).

Робототехника входит в финальную фазу («endgame»), и сценарий развития уже известен. Он повторит путь больших языковых моделей (чаты с ИИ), но с заменой ключевых компонентов: мировые модели вместо языковых, эгоцентрическое видео вместо телеуправления, а World Action Models (WAM) заменят концепцию VLA.

Ключевые тезисы

«Давайте помолчим минуту в память о нашем дорогом друге VLA. Они хорошо послужили нам. Покойтесь с миром. Да здравствуют World Action Models.»
«Если видео-предсказание работает — действие работает.»
«Вычисления = среда = данные» — новая эквивалентность в физическом ИИ.
Видео как универсальный мост: пиксели объединяют разные роботизированные платформы (cross-embodiment).
Scaling law в робототехнике: впервые показана предсказуемая зависимость масштаба человеческих данных и качества робота.

Важно понимать, что технические возможности уже достаточны для того, что мы видим в фантастических фильмах. Следущий апгрейд должен быть в програмном обеспечении.

Робототехника следует тому же скрипту, что и LLM, но с заменой фундаментальных концепций:

Language Models → World Models (модели мира предсказывают физическую динамику, а не текст)
Text data → Egocentric video (первичный сигнал — видео от первого лица, а не размеченный текст)
VLA → World Action Models (парадигма Vision-Language-Action уступает место совместному моделированию мира и действий)

Этап развития LLM	Что происходит в робототехнике
Pre-training	Предобучение на массивных данных физической динамики
Reasoning	Рассуждение и планирование в физическом пространстве
Automated exploration	Автоматический сбор данных и самообучение агентов

Выступление от NVIDIA о дорожной карте развития индустрии. Что нас ждет?

Видео доступно с автоматическим переводом. Если у вас не открывается, то ниже подробная расшифровка выступления. Или по прямой ссылке

Robotics’ End Game: Nvidia’s Jim Fan

Расшифровка выступления

01:42 — The Great Parallel («Великая параллель»). Путь будет аналогичен LLM-треку.

Пока технология в самом начале экспоненты развития.

03:31 — Финальная фаза робототехники / Почему VLA недостаточно

Проблема VLA (Vision-Language-Action):

Хороши для семантической генерализации, но плохо справляются с незнакомыми физическими движениями в новых средах.
Требуют огромного количества повторяющихся демонстраций для каждой задачи.
Переход: Нужна новая парадигма, которая изучает физику мира напрямую, а не через прямую карту «наблюдение → действие».

04:32 — Video World Models (Видео-модели мира)

Идея: Базовая модель предсказывает будущие кадры видео, изучая физику, геометрию и динамику среды.
Преимущество: Видео — плотное представление того, как эволюционирует мир. Пиксели становятся универсальным мостом между разными роботами (cross-embodiment).
Тезис: «Если модель мира может правильно „представить“ (dream) будущее в пикселях, то робот сможет выполнить действие в моторах».

06:09 — ОЧЕНЬ КРУТОЙ КОНЦЕПТ! DreamZero: World Action Models (Модели мира и действий)

Что такое DreamZero от Nvidia: Первая масштабированная World Action Model (WAM) на базе видео-диффузии (14B параметров, архитектура Wan 2.1). Совместно денойзит (предсказывает) будущие видеокадры и действия робота в одном процессе.

Почему это важно? То, что мы считаем генерацией смешных мемов оказалось мощным инструментом для работы в реальном мире. ИИ видит чашку и ее надо переставить. И он просто генерит видео +1 секунда от текущего состояния, где он передвигает чашку…и следует результату в реальном мире. Модель сначала видит “сон”, а потом уже его реализует в реальном мире. Пока оценивается как GPT2. Это самый начальный уровень.

Принцип: Моторные действия — это высокомерные непрерывные сигналы, похожие на пиксели. Поэтому их можно генерировать совместно.

Корреляция: «Если видео-предсказание работает — действие работает. Если видео галлюцинирует — действие проваливается.»
Zero-shot generalization: Способность выполнять задачи и глаголы, никогда не встречавшиеся в обучении.

Скорость: Через оптимизации (DreamZero-Flash) 14B модель работает в реальном времени — 7 Гц замкнутого цикла (150 мс латентность на GB200).

Cross-embodiment: Адаптация к новому роботу за 30 минут игровых данных, сохраняя zero-shot генерализацию.

07:46 — Масштабирование сбора данных

Телеобучение (чере VR-шлем) отходит на второй план. Это рабочая схема, но слишком медленная на масштабе. Еще есть UMI – интерфейс в виде руки робота, которым люди делают задачи.

Почему это важно? Телеуправление ограничено конечным временем на одного робота 24 часами в сутки. И это физическое ограничение для софтверной задачи.

Тезис: «Вычисления теперь равны среде и данным» (compute = environment = data).
Проблема: Роботические данные традиционно собираются через телеоперацию — это дорого и медленно.
Решение: Отказ от телеоперации в пользу массового сбора эгоцентрического видео (видео от первого лица от человека).
Данные: Разнообразие важнее повторений. WAM лучше учатся из гетерогенных данных, чем VLA из тысяч повторов одной задачи.

Автопилот TESLA, который более популярен в СМИ, собирает информацию точно таким же способом. Водитель едет, а система собирает и обрабатывает данные о процессе вождения.

11:06 / 12:22 — EgoScale и законы масштабирования

Проект EgoScale: изучает видео записи от первого лица. И это позволяет ускорить точность работы робота и повысить скорость. Эти данные добавляются в существующие датасеты, но тенденция очевидна – телеуправление скоро станет ненужным.

Обучение на 20 854 часах эгоцентрического человеческого видео (в 20+ раз больше предыдущих датасетов).
9 869 сцен, 6 015 типов задач, 43 237 объектов.

Scaling Law: Обнаружена лог-линейная зависимость между объемом человеческих данных и валидационным лоссом (R² ≈ 0.9983).
Loss коррелирует с реальным роботом: Предсказуемое улучшение метрики напрямую переносится на физическую манипуляцию.

Почему это важно? Чем больше набор данных для обучения, тем больше эффективность. Это совпадает с историей развития обычных GPT-моделей. поэтому, так важны данные. И это запускает импульс на технологии “цифровых двойников”.

Проект «Прометей». Следующий шаг развития ИИ

Transfer:Предобучение на человеческих данных + 50 часов выровненных человек-робот данных + 4 часа робот-данных.

Результат: +54% к успешности на 22-степенной роботизированной руке.
One-shot adaptation: Обучение новой задаче по одной демонстрации.

15:39 / 16:55 — DreamDojo и дорожная карта развития робототехники

DreamDojo: Платформа/концепция для автоматизированного исследования и самообучения роботов (аналог автоматического исследования в LLM).

Physical Turing Test: Jim Fan утверждает, что мы пройдем физический тест Тьюринга (робот неотличим от человека в физических задачах) через 2–3 года.

Почему это поколение: «Наше поколение родилось в нужное время, чтобы решить проблему робототехники» — вычислительные ресурсы, данные и алгоритмы созрели одновременно.

Physical AI. Физический ИИ на пороге прорыва

КАК ОБЪЯСНИТЬ ВАЖНОСТЬ ЭТОГО ВСЕГО ОДНОЙ КАРТИНКОЙ?

Информация о спикере

Ключевые тезисы

Выступление от NVIDIA о дорожной карте развития индустрии. Что нас ждет?

Расшифровка выступления

проекты из индустрий

Xai – компания разработчик ИИ (теперь SpaceX)

AI Index Fund. Фонд ИИ-технологий

Canva ИИ-графический дизайн

DataBricks центры данных для ИИ

Яндекс – гордость айти РФ

Сбербанк

интересное

Anthropic. Большое видео о компании от Bloomberg

Claude. Разбор различных моделей ИИ и лидерства Anthropic.

World Models: как AI учится понимать физический мир

VLA-модели: как AI научил роботов видеть, думать и действовать

80% стартапов в Америке выбирают Китайский ИИ?

Если вы хотите задуматься над нашим будущем…помедитируйте на это

IBM. Гибрид из квантового компьютера и 152 000 обычных...

Роботы. Стартер-пак для того, кто пока не в теме

Почему Китай не может просто скопировать технологию производства чипов?

Как NASA планирует строить город на луне. Невероятный план

Новая ракета «Союз-5». Распаковка

Neuralink. Возврат зрения. Следующий шаг технологии BlindSight

BBI. BrainNet. Соединить мозг несколько человек в единую сеть.

Какие есть тех.варианты для выхода на орбиту?

Figure. Штаб квартира и процесс производства. Большой обзор

аналитика

SpaceX. Темные тайны IPO

Kimi AI. Как масштабируется ИИ-модель с открытым кодом. Интеллект...

Неоклауды. Рынок 2026 (дополняется)

Отчет по электромобилям 2026. Как люди оценивают роботакси?

Презентация для инвесторов + конферец-колл с топами B2B-RTS

Токенизация реальных активов. Требование к индустрии и ключевым участникам

Рынки прогнозов. Факторы риска для индустрии

Big Ideas 2026 от ARC

Финансы + ИИ. 5 трендов на 2026 от DELOITTE.