Большие модели для видео упираются не только в архитектуру. Очень часто всё решает то, какие данные вы им скармливаете.
👉 AI-компания строит набор real-time моделей, которые расширяют границы выразительности, личности и реализма. По сути оживляют персонажей и меняют то, как люди создают, общаются и рассказывают истории.
Их флагманская social AI платформа только начало, дальше планируется целая экосистема.
👋Сейчас мы ищем Data ML Engineer - человека, который возьмёт ownership за полный жизненный цикл training data для больших моделей генерации видео: от сырого инжеста до чистых, готовых к обучению датасетов, которые напрямую влияют на качество модели.
Это роль на стыке data engineering и ML research, где важно не просто “гонять джобы”, а выстраивать повторяемые, масштабируемые и надёжные workflows.
‼️В задачах много практики:
• построение и поддержка пайплайнов для больших видео-датасетов (ingestion, parsing, filtering, preprocessing, curation) на AWS-стеке вроде S3 и DynamoDB,
• настройка и запуск пайплайнов разметки (например, через MTurk/Prolific) с контролем качества и валидацией лейблов,
• также обучение/оценка небольших вспомогательных моделей для фильтрации, ранжирования и оценки качества.
Идеально, если у вас 3+ года в applied ML / ML engineering / data pipelines, сильный Python, опыт подготовки данных для обучения на масштабе (парсинг, фильтрация, курирование, QC), и вы не боитесь video/vision/multimodal или generative video.
Нужен опыт с Kubernetes для распределённых нагрузок и базовое владение PyTorch, чтобы читать, дебажить и ускорять research-код, который используется в препроцессинге.
Плюсом будет опыт с разметкой (крауд/вендоры) и fine-tuning небольших моделей под фильтрацию/оценку качества.
📎Формат: remote (U. S. или Europe)
Отправляйте CV в Telegram:
https://t.me/dariiyah
🔗 https://luckyhunter.io/vacancies/tpost/vlpu8mouf1-data-ml-engineer?utm_source=telegram&utm_medium=vacancy&utm_campaign=data-ml-engineer