#исследования Хорошее дополнение к прошлому посту — выступление https://scholar.google.com/citations?hl=ru&user=q0lIfCEAAAAJ (его канал —
https://t.me/complete_ai) «Можно ли научить модель text-to-video физике?».
Он разбирает https://arxiv.org/abs/2411.02385 «How Far is Video Generation from World Model: Physical Law Perspective» от команды Bytedance (китайский холдинг, который владеет TikTok). Ребята сделали также хороший https://phyworld.github.io/ для публикации и https://github.com/phyworld/phyworld.
Исследователи пытаются понять, насколько генеративные модели способны «ухватить» законы физики и качественно их воспроизводить в дальнейшем. Даже передовые модели вроде Sora до сих пор не могут похвастаться этим.
Для этого они написали простейший двумерный симулятор физики. И сгенерировали большую выборку коротких видеороликов, на которых происходят элементарные физические взаимодействия, вроде столкновений, падений и т.д.
Модель ожидаемо демонстрирует самые общие закономерности, но постоянно ошибается, галлюцинирует и показывает полное «непонимание» даже самых простых законов, вроде поступательного движения или постоянства объектов, спонтанно разворачивая катящийся при горизонтальном движении круг в обратном направлении или превращая круг в квадрат и обратно.
Генеративные модели потрясающе себя показали на статичных изображениях, но видео — это переход «zero to one», т.к. у нас появляется компонента времени, то есть проявление причинно-следственных связей, продиктованных законами физики. И для этого модели нужно иметь хотя бы возможность перемещения в среде, если мы говорим о трехмерном пространстве. А это уже сенсомоторное действие, т.к. каждый акт движения изменяет проекцию сцены и понимание положения в пространстве. И далее — взаимодействовать с объектами. Как это делает, к примеру, команда https://thousandbrains.org/.
Мы с детства начинаем разбираться в модели мира не потому что «сидим в углу комнаты» и наблюдаем, а через сенсомоторное взаимодействие. Мы понимаем «смысл» веса и инерции через приложение к предметам разных усилий. Каким образом, к примеру, без этого можно понять «по видео» как некий шар соударится с другим при одинаковых размерах, если вы не «попробовали покатать или поднять их»?