🤔 Сегодня ночью решил поэкспериментировать по теме AI-видео для продвижения YouTube канала. В англоязычном сегменте это набирает обороты. Стратегия заключается в том, чтобы про текстовому описанию (промту) генерировать видео (сразу цельное или два-три по 5-10 секунд и сшивать их вместе). Люди рассказывают, что удается добиться гиперреалистичности и за счёт этого быстро довести канал до монетизации. Сегодня решил попробовать. Нашел в интернетах криповое видео, взял оттуда скриншот и сделал первичную обработку в картинку с хорошим разрешением. На базе этой картинки хотел попробовать сгенерировать 10 секундный ролик...
Если бы вы знали, как я намучился. Несколько часов, слито примерно 1000 руб. на подписки на платные нейронки, но результат меня вообще не устроил. Я пробовал писать самые различные промты, большие, маленькие, на английском языке, на русском языке — результат плохой. Либо появляются артефакты, либо главный герой видео не двигается, либо двигается сильно медленно.
Были испробованы нейро-модели: Kling 3.0, Luma (Ray3), Veo 3.1, Runway ML
🔍 Исходя из сегодняшнего опыта, я узнал, что:
1. Нейросети не могут гладко сгенерировать видео большее 10 секунд.
2. Нейросети сильно путаются даже в подробном промте.
3. Если нейросеть обучалась на реальных моделях, то ей очень тяжело сделать что-то нереалистичное, например кота, который ходит на задних лапах как человек.
4. Гиперреалистичное видео очень трудно создать (либо я пока не понимаю как это сделать). В итоге получается плачевный результат, который вряд ли будут смотреть.
Что получилось у меня:
https://www.youtube.com/shorts/ZY6hgWbRzz0
Давайте честную оценку: на сколько реалистично и страшно от 0 до 10 ?
И вот еще одно, но это с первой попытки:
https://www.youtube.com/shorts/zzpobF51nGc
Такое чувство, что сегодня у меня сработал тот самый принцип Парето: «20% усилий дают 80 % результата, а остальные 80 % усилий — лишь 20 % результата». Потому что видео, на которое потрачено 5 минут выглядит лучше, чем попытка сделать horror-shorts за несколько часов. Потратил время и деньги, получил слабый результат. Лучше бы большую пиццу купил себе.
🔹 Ошибки при создании реалистичных AI-видео:
▪️Шаг 1. Image-to-Video, а не Text-to-Video. Профессионалы используют не одну, а 2-3 референсные картинки. ( первая — поза и композиция, вторая — стиль и освещение, третья — текстуры и детали)
▪️Шаг 2. Motion Intensity — ваш главный инструмент. В Kling 3.0 есть параметр, который я не использовал: Motion Intensity от 0.1 до 1.0 ( статика, естественное движение, динамическое движение)
▪️Шаг 3. Отрицательные промты — это не опция. То, что не запрещаешь, модель может сделать. Профессионалы не генерируют 10 секунд. Они делают 4-5 секунд, а потом собирают сцену в монтаже. В теории это даст больше контроля.
▪️Шаг 4. Короткие клипы (4-6 секунд) и склейка.
▪️Шаг 5. Референсная анимация (Kling 3.0 Omni / Veo 3.1). Есть подозрение, что это секрет топовых каналов. В Kling 3.0 Omni и Veo 3.1 есть возможность загрузить видео-референс — модель скопирует движение из вашего видео, но заменит персонажей и окружение Снять себя на телефон —> заменить себя другим существом, загрузив исходное видео как референс.
Что в итоге. Гиперреалистичные видео делаются не за 5 минут и не с одной попытки-промта. За одним таким видео стоит 20-50 генераций, 3- 4 часа обработки, профессиональный пайплайн (референсы, отрицательные промты, настройки модели), да еще и качественный финальный монтаж. То есть то, что говорят некоторые блогеры с ютуба — это обман, чтобы продать курс "заработай с AI за 5 минут". Не получится. Очень много нюансов, которые я сегодня осознал. В итоге сам ИИ ничего не сделает. Нужны знания, навыки CapCut/Premiere, опыт, да еще и деньги. Окупится ли это или нет — большой вопрос.
#AI #нейросети #youtube #IT #алгоритмы #генерация
//