🔹🔹🔹🔹🔹мы создаем суверенный ИИ: а где взять данные для обучения моделей для кибербезопасности в масштабе всей страны?
Много говорят на мероприятиях про Суверенный ИИ. Но почти никто не задаёт базовый вопрос: на чём он будет обучаться?
> ИИ не программируется напрямую: он обучается на примерах. Чтобы система могла выявлять атаки, нужны реальные данные: сетевой трафик, телеметрия с устройств, образцы вредоносного кода, фишинг, сценарии атак. И главное — размеченные инциденты, где понятно, что именно произошло и почему это считается атакой.
В России такие данные частично существуют.
✅ Работает https://gossopka.ru/ — она даёт оперативную картину инцидентов.
✅ Вендоры собирают телеметрию.
✅ Есть киберполигоны и исследования угроз.
✅ Государство развивает платформу обезличенных данных.
Это реальные шаги вперёд.
Но при этом данные для обучения ИИ остаются разрозненными. Они находятся в разных системах, в разных форматах и с разной детализацией. Не потому что система не работает, а потому что задача их объединения и превращения в обучающий датасет для ИИ пока не выделена как отдельная функция на уровне государства.
В результате нет единой базы, пригодной для системного обучения моделей. Каждый участник отрасли работает со «своим фрагментом реальности». Редкие и сложные атаки НЕ накапливаются в «общей системе», а значит — НЕ усиливают её.
Это не только технический вопрос.
Есть барьеры: данные слишком чувствительны, и ими неохотно делятся из-за рисков и конкуренции, нет единого стандарта описания инцидентов и нет организационной структуры, которая отвечает именно за преобразование данных из инцидентов в обучающие датасеты.
В стране уже есть почти всё необходимое: сбор, анализ, экспертиза. Но отсутствует ключевое звено — контур, который объединяет, очищает, размечает и превращает данные в основу для обучения ИИ-систем в кибербезопасности.
Что с этим делать
🔹 Нужен единый контур работы с данными: сбор → очистка → разметка → обучение моделей, с закреплённым ответственным оператором на стыке ФСБ, ФСТЭК и Минцифры.
🔹 Нужен единый машиночитаемый стандарт описания инцидентов и атак.
🔹 Нужен юридически защищённый механизм обмена данными в рамках действующего законодательства, который снижает риски для добросовестных участников.
🔹 Нужна экономическая модель участия: мотивация за предоставление данных через доступ к моделям, аналитике и вычислительным ресурсам.
🔹🔹🔹🔹🔹нужен отдельный государственный контур разметки данных как постоянной функции кибербезопасности, без которой обучение качественных ИИ-моделей невозможно.
Начинать логично с 1–2 отраслей, где уже есть зрелые процессы и достаточный поток инцидентов.
Если это сделать, появится возможность использовать реальные российские данные об угрозах для обучения систем, которые понимают локальный ландшафт атак лучше любых внешних решений.
Я готов отдельно разработать полноценный документ-инициативу, который можно рассматривать как основу для межведомственного проекта: с архитектурой, ролями, экономикой и моделью реализации.
Сегодня много обсуждают ИИ. Важно понимать, что в кибербезопасности преимущество определяется не алгоритмами, а тем, какие данные доступны для обучения моделей.
Именно такая единая база данных определяет практическую возможность развития ИИ в кибербезопасности.
UPD: Подробнее https://safebdv.blogspot.com/2026/05/blog-post.html
в и https://max.ru/id504802256135_biz
#ИИ