AI VK Hub

Public

Просмотреть канал

Не можете присоединиться? @aihubvk

2.3k Участники

Обновлено: May 26, 2026 at 9:34 PM

AI VK Hub

Рассказываем и показываем AI в VK 🔉

@aihubvk offers specialized information about Нетворкинг for subscribers interested in Нетворкинг

Рейтинг

Глобальный рейтинг

#17844Без изменений

Рейтинг по языку

#13324Без изменений

Рейтинг по категории

#420Без изменений

Рост участников (Последние 16 дней)

Всего: 2.3K

Рост за 24ч: +0 0%

Последние посты

AI VK Hub

16 мая 2026 г., 03:48

📷 Photo

27-летний баг TCP SACK в OpenBSD пережил все ревью за историю проекта. 16-летний дефект в FFmpeg прошёл 5 млн прогонов автотестов. Эти и другие уязвимости https://red.anthropic.com/2026/mythos-preview/ модель Claude Mythos в рамках https://www.anthropic.com/glasswing.

➡️ Project Glasswing

Glasswing — консорциум Anthropic для защитного сканирования критической инфраструктуры с участием более 50 организаций: AWS, Apple, Google, Microsoft, NVIDIA, Broadcom, Cisco, CrowdStrike, Palo Alto. Каждый партнёр сканирует свою инфраструктуру: AWS и Google работают с облачными сервисами, Microsoft с Windows и Azure, Apple с iOS и macOS, Linux Foundation с ядром и OSS-проектами. Anthropic получает результаты и формирует сводную картину.

Техническую основу обеспечивает Claude Mythos Preview. Модель показала эмерджентные способности к анализу уязвимостей без специального обучения:
🟣на бенчмарке CyberGym выбила 83.1% эксплойтов с первой попытки (66.6% у Opus 4.6);
🟣при тестировании Firefox обнаружила 181 работающий эксплойт (Opus 4.6 – 2 эксплойта);
🟣в тесте на OSS-Fuzz модель вызвала 595 аварий уровней 1–2 и 10 случаев полного захвата потока исполнения (уровень 5) — статистика, сопоставимая с действиями опытных экспертов по безопасности.

➡️ Инфраструктура и доступ

Glasswing работает через закрытый доступ. Участники получают Mythos через API на платформах AWS Bedrock, Google Vertex AI и Microsoft Foundry по $25/$125 за миллион токенов входа/выхода. Anthropic выделила $100 млн на вычисления внутри инициативы, общедоступного релиза Mythos не планируется. Отдельно компания направила $4 млн в OpenSSF, Apache и другие организации безопасности open source и привлекла более 40 команд разработчиков критичных OSS-проектов.

Публично подтверждён только один CVE: https://github.com/califio/publications/tree/main/MADBugs/CVE-2026-4747, удалённое исполнение кода в NFS FreeBSD, остальные находки Anthropic держит закрытыми до выпуска патчей. Mythos построила цепочку из четырёх уязвимостей браузера для обхода песочницы и объединила несколько ошибок ядра Linux (use-after-free, race-condition) для получения root-доступа на патченных системах.

➡️ Критика и ограничения

Glasswing вызывает вопросы. Брюс Шнайер https://www.schneier.com/blog/archives/2026/04/on-anthropics-mythos-preview-and-project-glasswing.html пиар-кампанию Anthropic «супер удачным ходом» и указал, что СМИ не проверяют заявления компании. Проект ProMarket https://www.promarket.org/2026/04/22/the-antitrust-risks-of-anthropics-project-glasswing-and-the-ai-avengers/: закрытый консорциум с эксклюзивным доступом к данным об уязвимостях подпадает под антимонопольное законодательство, так как Google и Microsoft могут патчить свои системы до того, как остальные участники рынка узнают об угрозах.

Сводный отчёт Anthropic опубликует через 90 дней, ориентировочно в июле 2026. OpenAI также анонсировала аналогичную модель https://openai.com/index/scaling-trusted-access-for-cyber-defense/ в рамках проекта Trusted Access for Cyber.

#aivk #projectglasswing

341

AI VK Hub

16 мая 2026 г., 03:48

Пользователи VK Видео стали больше смотреть контент с интересными им персонами

Среднее время просмотра видео с теми же героями из блока «Смотрите также» выросло на 10%. Это результат работы технологий глубокого понимания контента Discovery.

Технология распознавания известных персон построена на двух моделях машинного обучения: одна анализирует обложку и видеоряд с частотой один кадр в секунду и находит персон, а вторая идентифицирует популярных героев, которых определила первая модель. Это позволяет рекомендательной системе учитывать не только реакции пользователей, тематику и содержание контента, но и присутствие в роликах любимых персон.

➡️ Подробнее о том, как работает технология: https://team.vk.company/discovery-tech/

#discovery #aivk

1,060

AI VK Hub

16 мая 2026 г., 03:48

📷 Photo

За месяц DataCopilot – ИИ-ассистент для работы с DWH – помог 731 сотруднику внутри VK, retention составил 68%.

Команда перешла от классического RAG к мультиагентной архитектуре Swarm на LangGraph: четыре специализированных агента вместо одного универсального.

➡️ Подробный разбор читайте в нашей https://habr.com/ru/companies/vk/articles/1029088/ на Хабре

#datacopilot #aivk

669

AI VK Hub

16 мая 2026 г., 03:48

📷 Photo

🟣Alibaba выпустила https://qwen.ai/blog?id=qwen3.5-omni
Мультимодальная модель: текст, изображения, аудио, видео на входе, текст и речь на выходе. Версия Plus обогнала Gemini 3.1 Pro, контекст 256k токенов.

🟣Google выпустила https://blog.google/innovation-and-ai/technology/ai/veo-3-1-lite/
Нейросеть для генерации видео по тексту и изображениям. Вдвое дешевле Veo 3.1 Fast при той же скорости, 720p/1080p, ролики 4–8 секунд.

🟣 https://suno.com/blog/v5-5 обновилась до v5.5
Появилась функция Voices для клонирования голоса по аудиофрагменту от 15 секунд до 4 минут. ИИ генерирует музыку с голосом владельца аккаунта.

🟣Samsung выпустил https://news.samsung.com/global/samsung-takes-its-browser-beyond-mobile-extending-agentic-ai-across-devices для Windows
ИИ-агент на базе Perplexity анализирует страницы, пересказывает текст и ищет по вкладкам. Пока доступен только в Южной Корее и США.

🟣Alibaba выпустила https://www.aibase.com/news/26759
Модель генерации изображений с поддержкой до 9 референсных изображений. Точный подбор цветов по кодам, редактирование фрагментов, удаление фона без потери качества.

🟣Google представила https://blog.google/innovation-and-ai/technology/developers-tools/build-with-gemini-3-1-flash-live/
Голосовая модель для агентов: отделяет речь от шума, распознаёт интонацию и темп, 90+ языков. Доступна в Google AI Studio через Live API.

🟣В Telegram появился https://telegram.org/blog/ai-editor-mighty-polls-and-more
Встроенный ИИ-редактор: исправляет грамматику, переводит и переписывает текст. Open-source модель, обработка без доступа к данным, Premium-подписка.

🟣Anthropic планирует https://www.bloomberg.com/news/articles/2026-03-27/claude-ai-maker-anthropic-said-to-weigh-ipo-as-soon-as-october?srnd=homepage-europe&sref=Y0jVLcFo
Компания рассчитывает привлечь свыше $60 млрд, переговоры ведутся с Goldman Sachs, JPMorgan Chase и Morgan Stanley. Окончательное решение не принято.

📍 Новые статьи от VK на Хабр:
🟣 https://habr.com/ru/companies/vk/articles/1020964/
🟣 https://habr.com/ru/companies/vk/articles/1023662/
🟣 https://habr.com/ru/companies/vk/articles/1029088/

📍 Другие материалы от инженеров AI VK:
🟣 https://www.sostav.ru/publication/ekonomika-vnimaniya-kak-rabotat-s-sistemami-rekomendatsij-sotssetej-82987.html
🟣 https://arxiv.org/abs/2604.13273

#дайджест #aivk

AI VK Hub

16 мая 2026 г., 03:48

📷 Photo

🔁 Generative retrieval с коллаборативными Semantic ID: как обновлять токены без полного переобучения

https://t.me/ducks_recs, ведущий исследователь в AI VK и коллеги из https://t.me/itmoru выяснили, что наивное обновление Semantic ID в generative retrieval может ухудшить качество рекомендаций — и предложили способ это исправить. https://arxiv.org/abs/2604.13273 принята в SIGIR '26.

1️⃣ Контекст

Двустадийные GR-системы — в том числе OneRec и PLUM — работают так: сначала обучается токенизатор, который строит дискретные идентификаторы (Semantic ID) для каждого айтема по контентным признакам и коллаборативному сигналу из логов. Затем retriever учится генерировать эти идентификаторы по истории пользователя.

Коллаборативный сигнал дрейфует: меняются интересы пользователей, популярность айтемов, структура взаимодействий. Нужно периодически пересчитывать SID на свежих логах. Но пересчёт порождает новые токены, несовместимые с выученным выходным пространством ретривера.

Инженер оказывается перед выбором из двух плохих опций. Или оставить устаревшие SID и дообучать retriever на новых данных, но тогда коллаборативная семантика отстаёт от реального поведения. Или пересобрать SID и переобучить retriever с нуля, но это затратно по ресурсам.

Авторы предложили выравнивать SID и показали, что такой подход лучше существующих опций. Сравнение проводилось на примере 3 датасетов: Amazon Beauty, https://huggingface.co/datasets/deepvk/VK-LSVD и Yambda.

2️⃣ Решение

Предложенный подход выравнивает новые токены под старое пространство перед дообучением retrieval модели.

Для каждой позиции кодбука на пересечении айтемов из старой и новой токенизации строится матрица совстречаемости. По ней решается задача биективного матчинга с помощью жадного или венгерского алгоритма. Обновлённые SID отражают свежую коллаборативную структуру и совместимы с существующим чекпоинтом, поэтому retriever может быть дообучен на них с уменьшением дрейфа коллаборативного сигнала.

3️⃣ Результаты

Без выравнивания пересчёт SID на новых логах работает нестабильно. Retriever вынужден одновременно адаптироваться к новым данным и переучивать маппинг между старым и новым пространством токенов. После выравнивания метрики на новых логах устойчиво растут, а вычислительные затраты сокращаются.

В эксперименте с тремя последовательными обновлениями подход с сохранением устаревших SID деградирует с каждым шагом, в то время как обновление с выравниванием держится на уровне полного переобучения.

Открытым остаётся вопрос динамического расширения словаря: как поведёт себя метод, когда в новых логах появляются айтемы, которых не было в старом кодбуке.

#обзорстатьи #AIVKResearch

AI VK Hub

16 мая 2026 г., 03:48

📷 Photo

📢 Релиз Claude Opus 4.7

16 апреля Anthropic выпустила https://www.anthropic.com/news/claude-opus-4-7. Контекст 1 млн токенов и output 128к, а цена прежняя – $5 за 1 млн входных и $25 за 1 млн выходных токенов. Усилили кодинг и агентные сценарии, но убрали ручную настройку temperature, top-p и top-k. Модель уже доступна через API Anthropic, AWS Bedrock, Google Vertex AI и Microsoft Foundry.

1️⃣ Технические изменения

Новый токенизатор может увеличить расход токенов до 35% в зависимости от структуры контента. Модель стала мощнее, но часть задач обходится дороже. Изображения обрабатываются с разрешением до 2576 px / 3.75 мегапикселя, покоординатный маппинг упрощает computer-use сценарии. Введены adaptive thinking, уровень effort xhigh и task budgets. Бюджетные механизмы для extended-thinking убрали, а переопределение sampling-параметров больше не поддерживается.

2️⃣ Бенчмарки

Anthropic называет Opus 4.7 сильнейшей публичной моделью для сложного рассуждения и агентного кодинга. Согласно выпущенным материалам, модель показывает улучшения по SWE-bench Pro, GPQA и enterprise-eval бенчмаркам в доменах coding, finance, legal. Неофициальные замеры сообщают о преимуществе над GPT-5.4 в части coding-тестов, но точные цифры варьируются. Модель стала более буквальной в интерпретации запросов, делает по умолчанию меньше вызовов тулов и ведёт себя прямолинейнее Opus 4.6.

3️⃣ Mythos и уровень безопасности

Параллельно Anthropic упоминает Mythos Preview — более мощную систему, не выпущенную публично из-за рисков безопасности. Opus 4.7 стал первой моделью для тестирования кибер-защит в рамках Project Glasswing. 4.7 выступает коммерчески безопасным мостом к архитектуре, которую Anthropic пока не готова открывать.

4️⃣ Реакция разработчиков

Мнения на Reddit и Hacker News разделились. Одни отмечают улучшения в агентных сценариях и Claude Code, другие жалуются на потерю прозрачности: скрытый по умолчанию thinking и убранные sampling-параметры делают модель менее управляемой. На практике Opus 4.7 лучше проявляет себя в агентных сетапах, чем в свободном чате. В кодинге строгое поведение помогает, в то время как в потребительских сценариях оно может мешать.

5️⃣ Слухи без подтверждения

В сообществе циркулируют нарративы, не подтверждённые Anthropic, что Opus 4.7 – это https://www.reddit.com/r/ClaudeCode/comments/1sn715u/opus_47_is_out_dont_panicswitch_your_apis_yet/ с https://www.reddit.com/r/ClaudeAI/comments/1sn8ovi/opus_47_is_50_more_expensive_with_context/ и https://www.reddit.com/r/ClaudeCode/comments/1s8nnql/i_think_i_know_what_mythos_is_cc_source_analysis/. Эксперты же дают куда более правдоподобную оценку и говорят, что значительная часть прироста новой модели связана с post-training, harness-инженерией и data curation. Отдельный кластер слухов касается дизайн-инструмента Anthropic, якобы нацеленного на конкуренцию с Figma и Adobe.

Насколько Opus 4.7 — самостоятельная модель или точка на кривой между публичными релизами и внутренним фронтиром Anthropic, станет яснее после появления Mythos.

#обзоринструмента

AI VK Hub

16 мая 2026 г., 03:48

📷 Photo

📱 Спецификация, автономное выполнение, долговременная память, оркестрация — 4 слоя агентской разработки, каждый из которых закрывается отдельным open-source инструментом.

Обзор https://github.com/github/spec-kit, https://github.com/aaif-goose/goose, https://github.com/gastownhall/beads и https://github.com/BloopAI/vibe-kanban, которые покрывают разные участки одного workflow.

#aivkhub #aitools #opensource

1,020

AI VK Hub

16 мая 2026 г., 03:48

📷 Photo

🧠 MLR-Bench — на пути автоматизации научных исследований

Идея автоматизации науки давно витает в воздухе — и постепенно становится предметом системного исследования. В этой https://openreview.net/forum?id=JX9DE6colf&referrer=[theprofileofYueLiu](/profile?id=~Yue_Liu10) авторы представляют MLR-Bench — бенчмарк для оценки качества научных работ, сгенерированных LLM и агентными системами.

Бенчмарк включает:
🟣201 научную задачу (на основе анализа публикаций топ-конференций за последние 3 года);
🟣MLR-Judge — систему оценки по критериям новизны, значимости и последовательности;
🟣MLR-Agent — агента, способного генерировать идеи, планировать исследования, писать и запускать код, а также оформлять текст статьи.

Агент может работать в двух режимах: end-to-end или пошагово (идея → план → эксперименты → текст).

Авторы статьи показывают, что MLR-Bench даёт довольно хорошие результаты при оценке работ.

Сравнение с 10 ML-экспертами показывает, что распределение различий между экспертами ≈ различиям между LLM и экспертами. Помимо этого, оценки MLR-Judge во многих случаях напрямую согласуются с экспертными.

Кроме того, авторы отмечают ряд закономерностей в поведении агентов при написании работ. Во-первых, действительно новые идеи встречаются редко — чаще это комбинации существующих подходов. При этом моделям сложно убедительно объяснить значимость и полезность предложенного метода.

Во-вторых, заметны проблемы с кодом. Частая ситуация: код не запускается (например, из-за зависимостей), но агент при этом генерирует правдоподобные результаты и аккуратные графики, как будто всё отработало корректно. И это не полностью исправляется даже явными инструкциями.

Общий вывод авторов довольно сдержанный:
➡️ пока рано говорить об автоматизации научных исследований

Во многом из-за непрозрачности процесса — не всегда понятно, как получен результат и можно ли ему доверять. Авторы позиционируют работу как один из первых шагов к повышению доверия к AI-исследованиям.

Как вам кажется: мы движемся к автоматизации науки — или к росту числа «красивых, но сомнительных» результатов?

И главный вопрос: долго ли продержится классическая наука в текущем виде? 👇

Обзор статьи подготовлен командой https://t.me/aihubvkhttps
#обзорстатьи

AI VK Hub

6 апр. 2026 г., 16:21

📷 Photo

⚙️ AutoResearchClaw — попытка автоматизировать исследовательский пайплайн

В последнее время заметен сдвиг от отдельных моделей к агентным системам, способным решать сложные многошаговые задачи. Репозиторий https://github.com/aiming-lab/AutoResearchClaw/tree/main предлагает подход к частичной автоматизации научного процесса: исследователь задаёт идею, а система берёт на себя значительную часть рутинной работы — от экспериментов до оформления https://github.com/aiming-lab/AutoResearchClaw/blob/main/docs/showcase/SHOWCASE.md.

1️⃣ Основной результат

Система реализует итеративный исследовательский цикл. На вход подаётся идея (например, в виде короткого описания задачи), после чего система:
🟣формализует постановку;
🟣собирает контекст и related work;
🟣предлагает метод;
🟣проводит эксперименты;
🟣анализирует результаты и оформляет текст.

Ключевая особенность — это не линейный pipeline, а замкнутый цикл с возвратами, где результаты экспериментов используются для улучшения гипотезы.

2️⃣ Техническая реализация (как устроен цикл)

AutoResearchClaw представляет собой иерархическую агентную систему с оркестратором.

На верхнем уровне находится контроллер, который хранит состояние исследования (гипотеза, код, результаты, текст) и управляет переходами между шагами. Ниже — специализированные агенты: генерация метода, код, запуск экспериментов, анализ и написание текста. Все они взаимодействуют через общее состояние (shared memory).

Цикл работы системы можно описать так:
гипотеза → код → эксперимент → анализ → обновление гипотезы → ...

При этом важна именно стадия обновления гипотезы. После каждого эксперимента система формирует контекст (метрики, ошибки, сравнение с baseline) и с помощью LLM предлагает модификации:
🟣изменение архитектуры или pipeline;
🟣добавление регуляризации или новых признаков;
🟣корректировку training-стратегии.

Эти изменения применяются к коду, после чего цикл повторяется. Таким образом реализуется итеративный поиск в пространстве решений, где гипотеза постепенно уточняется.

3️⃣ Условие выхода из цикла

Остановка процесса задаётся эвристически. Обычно используется комбинация:
🟣достижение приемлемого качества (по метрикам),
🟣отсутствие значимого улучшения на нескольких итерациях,
🟣ограничение по числу запусков или времени.

После этого система переходит к финальному этапу — сборке текста статьи на основе накопленных результатов.

4️⃣ Заключительные замечания

Сильная сторона подхода — в том, что он делает явным исследовательский цикл и переносит рутинные этапы (эксперименты, код, текст) на агентную систему. Это может существенно ускорить проверку гипотез и построение baseline-решений.

Ограничения при этом остаются: качество сильно зависит от прокси-метрик, новизна часто носит композиционный характер, а интерпретация результатов по-прежнему требует участия исследователя. В этом смысле система выступает скорее как инструмент-ассистент, чем автономный «учёный».

Как вы думаете, если такие системы станут зрелыми, как изменится роль исследователя — и где пройдёт граница между идеей и её реализацией?

Обзор инструмента подготовлен командой
#обзоринструмента

AI VK Hub

6 апр. 2026 г., 16:21

📷 Photo

🟣OpenAI выпустила GPT-5.4 ( https://openai.com/index/introducing-gpt-5-4/ | https://habr.com/ru/news/1007102/)
Флагман с сильным кодингом и reasoning, 1M контекста и сниженной стоимостью; добавлен Tool Search. Запущена интеграция ChatGPT в Excel.

🟣Huawei выходит на глобальный рынок AI-инфраструктуры ( https://www.huawei.com/en/news/2026/3/mwc-service-solution | https://servernews.ru/1137751)
Huawei начала продажи AI-ЦОД решений за пределами Китая с быстрым развёртыванием кластеров. Усиливается конкуренция в hardware-стеке.

🟣Google представил Gemini Embedding 2 ( https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/ | https://postium.ru/google-predstavila-gemini-embedding-2/)
Мультимодальные эмбеддинги (текст + изображения) с поддержкой 100+ языков. База для unified retrieval и мультимодального RAG.

🟣NVIDIA выпустила Nemotron 3 Super ( https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/ | https://3dnews.ru/1138150/nvidia-vipustila-nemotron-3-super-120b-otkrituyu-llm-dlya-iiagentov-s-pyatikratnim-prirostom-skorosti#:~:text=КомпанияNvidia)
MoE-модель с Mamba + Transformer, оптимизированная под агентные задачи и ограниченные ресурсы. Фокус на эффективности для production. Модель на https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8.

🟣OpenAI представила Codex Security ( https://openai.com/index/codex-security-now-in-research-preview/ | https://3dnews.ru/1137929/openai-predstavila-iiagenta-codex-security-kotoriy-sam-nahodit-i-zakrivaet-diri-v-po)
ИИ-агент для поиска и фикса уязвимостей в коде. Усиливает тренд на AI-driven AppSec.

🟣Anthropic добавила Claude Code Review ( https://claude.com/blog/code-review | https://3dnews.ru/1138038/anthropic-zapustila-ii-dlya-poiska-bagov-v-programmnom-kode-napisannom-ii)
Автоматический анализ PR с фокусом на логические и критические ошибки. Шаг к автономному code review.

🟣Amazon фиксирует рост инцидентов из-за AI-кода ( https://www.cnbc.com/2026/03/10/amazon-plans-deep-dive-internal-meeting-address-ai-related-outages.html | https://news.rambler.ru/tech/56156777-amazon-provodit-vstrechu-inzhenerov-posle-sboev-svyazannyh-s-ispolzovaniem-ii/)
Сбои связали с использованием генеративных инструментов и отсутствием best practices. Растёт запрос на контроль AI в разработке.

🟣OpenAI покупает Promptfoo ( https://openai.com/index/openai-to-acquire-promptfoo/ | https://3dnews.ru/1138025/bezopasnost-iiagentov-stanet-vstroennoy-openai-poglotila-startap-promptfoo)
Инструменты evals и red teaming интегрируют в платформу Frontier. Безопасность и тестирование становятся core-частью AI-стека.

📍 Статья от инженеров VK на Хабр:
https://habr.com/ru/companies/vk/articles/990514/

#дайджест #aivk

AI VK Hub

6 апр. 2026 г., 16:21

📷 Photo

Рекомендательные системы — один из ключевых механизмов, на которых держатся современные продукты. Они помогают пользователям находить контент, товары и сервисы, а бизнесу — повышать вовлеченность и качество пользовательского опыта. Вместе с Владимиром Байкаловым, ведущим исследователем AI VK, разбираем главные тренды в рекомендациях и последние значимые работы.

🔗 Список статей

Масштабирование
🟣 https://arxiv.org/abs/2402.17152
🟣 https://arxiv.org/abs/2507.15994
🟣 https://arxiv.org/abs/2601.20083

Lifelong Recommendations
🟣 https://arxiv.org/abs/2506.02267?utm_source=chatgpt.com
🟣 https://arxiv.org/abs/2407.16357?utm_source=chatgpt.com
🟣 https://arxiv.org/abs/2505.04421?utm_source=chatgpt.com
🟣 https://dl.acm.org/doi/10.1145/3746252.3761564

Generative Retrieval
🟣 https://arxiv.org/abs/2202.06991
🟣 https://arxiv.org/pdf/2305.05065
🟣 https://arxiv.org/pdf/2503.02453

Semantic IDs
🟣 https://arxiv.org/abs/2504.02137
🟣 https://arxiv.org/pdf/2502.13581
🟣 https://arxiv.org/pdf/2405.07314
🟣 https://arxiv.org/pdf/2602.16375

End to End Рекомендации
🟣 https://arxiv.org/abs/2502.18965
🟣 https://arxiv.org/pdf/2512.22386
🟣 https://arxiv.org/pdf/2505.17549

LLMxRecSys
🟣 https://arxiv.org/abs/2510.07784
🟣 https://arxiv.org/abs/2510.11639
🟣 https://arxiv.org/abs/2512.21257

#aivk #recsys

AI VK Hub

6 апр. 2026 г., 16:21

📷 Photo

Compresr — каждый токен на счету

Длинные агентные сессии в Claude Code и Cursor быстро упираются в контекстный лимит. История диалога, результаты тулов, прочитанные файлы — всё это забивает окно и ухудшает качество ответов. Стандартная компакция Anthropic решает проблему, но при срабатывании /compact пользователь вынужден ждать минуту‑две, пока модель суммаризирует историю.

https://compresr.ai/ предлагает альтернативу — локальный прокси Context Gateway, который сжимает контекст заранее и делает компакцию мгновенной.

Принцип работы
Context Gateway развёртывается на машине пользователя и садится между агентом и LLM‑провайдером. Прокси отслеживает размер истории и при достижении порога запускает фоновую суммаризацию. К моменту, когда агенту нужна компакция, она уже готова. Кроме истории, gateway сжимает tool outputs и управляет tool discovery — вместо показа всех инструментов он выбирает подмножество, релевантное текущему запросу.

Два уровня сжатия
🟣Token-level compression — алгоритмический выбор наиболее важных токенов с сохранением смысла, используется для системных промптов, RAG‑контекста и длинных документов
🟣Chunk-level filtering — удаление нерелевантных блоков целиком, применяется для предфильтрации результатов ретривера перед композицией промпта

Три модели
🟣Espresso — agnostic compression, не требует query, используется для системных промптов и статической документации
🟣Latte — query-aware compression, требует явного запроса пользователя, применяется в RAG и Q&A сценариях
🟣Coldbrew — chunk-level filtering, отбирает релевантные чанки без изменения текста

Характеристики
Заявленный диапазон сжатия — от 2x до 100x в зависимости от избыточности контента. В публичном демо Compresr снижает задержку на 25% и экономит 20% токенов. На бенчмарке FinanceBench модель Latte при ~10x сжатии даёт точность 74.5% против 72.3% в бейзлайне.

Способы поставки
🟣Context Gateway — CLI‑бинарь на Go
🟣SDK — библиотека на Python
🟣VS Code‑расширение — для сжатия http://CLAUDE.md/ файлов

Compresr особенно интересен для длинных код‑сессий и RAG‑пайплайнов с большими документами — именно там, где стандартная компакция становится узким местом.

Как тебе такое, Александр?

«Compresr интересен тем, что он решает одну из самых актуальных проблем современных LLM-систем — управление контекстом.

В большинстве агентных фреймворков контекст растёт почти бесконтрольно: история диалога, результаты инструментов, куски кода... В какой-то момент всё это начинает не только упираться в лимиты токенов, но и ухудшать качество ответов модели.

Compresr предлагает довольно радикальное решение — вынести управление контекстом в отдельный инфраструктурный слой. Gateway фактически становится «операционной системой» для контекста: он решает, какие данные вообще попадут в окно модели.

Особенно интересна идея chunk-level filtering. По сути, это дополнительный этап между retriever и prompt construction. В RAG-системах именно там часто появляется шум: ретривер возвращает слишком много слабосвязанных фрагментов, которые просто занимают место в контексте.

С другой стороны, агрессивная компрессия — это всегда компромисс. Слабые сигналы, второстепенные детали и длинные логические цепочки могут теряться. Поэтому заявленные коэффициенты сжатия в десятки раз стоит воспринимать скорее как демонстрацию возможностей, чем как реальный production-режим.

Но сама тенденция выглядит важной: по мере роста агентных систем всё больше оптимизаций происходит не внутри модели, а на уровне orchestration-слоя. И инструменты вроде Compresr — хороший пример того, как начинает формироваться новая инфраструктура вокруг LLM», — отметил Александр Тараканов, исследователь AI VK.


Насколько, на ваш взгляд, жизнеспособен вынос управления контекстом в отдельный gateway — это новая норма или временный workaround? Готовы ли вы жертвовать частью информации ради latency и стоимости? И где сегодня основной bottleneck в RAG: retriever, prompt construction или уже сам контекст? Обсудим 👇

#aivk #compresr

AI VK Hub

6 апр. 2026 г., 16:21

📷 Photo

Inference Platform — как ML-модели попадают в продукт

Продолжаем серию постов о компонентах Discovery-платформы VK. Ранее мы разобрали компоненты , , , и .

Сегодня разберем Inference Platform. Это звено, которое связывает ML-разработку с другими компонентами Discovery-платформы.

#discovery #inferenceplatform #aivk

999

AI VK Hub

6 апр. 2026 г., 16:21

📷 Photo

🔧 Code2Prompt — инструмент для «контекстной инженерии» кода

В последнее время растёт интерес к использованию LLM и агентных систем для работы с кодом. Мотивация здесь понятна: LLM позволяют быстрее разобраться в работе больших проектов. Кроме того, во многих случаях сформулировать требования к программе на языке, близком к естественному, и затем сгенерировать код оказывается проще, чем писать большое количество строк вручную.

Команда https://code2prompt.dev/ использовала принципы context engineering (грубо говоря: больше контекста — лучше результат) для создания инструмента, предназначенного для работы с большими кодовыми базами. Основная задача Code2Prompt — конвертация репозитория в структурированный prompt для LLM.

В качестве контекста для модели используется файловая структура проекта и содержимое выбранных файлов. Это снижает число галлюцинаций, помогает модели лучше понимать организацию проекта и позволяет решать задачи вроде поиска багов, проведения code review или генерации документации. Кроме того, в Code2Prompt реализован контроль размера prompt, что важно при работе с ограничениями на размер контекста у LLM.

Важно, что Code2Prompt — не AI-ассистент для программирования. Он не генерирует код и не работает внутри IDE. Его задача — подготовить качественный контекст для модели или агентной системы. Инструмент работает с целым репозиторием и может использоваться как CLI-утилита, SDK для автоматизации или MCP-сервер для AI-агентов.

Конечно, это не панацея. Большие проекты всё равно могут не помещаться в контекст модели, а качество результата во многом зависит от prompt-шаблонов. Для сложных сценариев по-прежнему требуются дополнительные техники — например RAG, агентные системы или tool-use.

Тем не менее такие инструменты отражают важный тренд в LLM-инженерии: всё чаще производительность системы определяется не только моделью, но и тем, как организован контекст задачи. Именно поэтому всё больше говорят о новой дисциплине — context engineering.

Обзор инструмента подготовлен командой https://t.me/aihubvkhttps
#обзоринструмента

AI VK Hub

6 апр. 2026 г., 16:21

📷 Photo

Feature Flow — потоковый расчёт контентных эмбеддингов

Продолжаем разбирать компоненты Discovery-платформы. Ранее мы разбирали: , и .
Теперь Feature Flow: он связывает инфраструктуру потоковой обработки данных и инфраструктуру сервинга ML-моделей Inference Platform, позволяя автоматически считать контентные фичи.

#discovery #featureflow #aivk

1,150

AI VK Hub

25 мар. 2026 г., 09:55

📷 Photo

⚙️ Как тренируют большие языковые модели: инженерный playbook frontier-training

Про обучение больших моделей часто пишут в двух жанрах: либо «мы сделали 120B и вот графики», либо «всё решает масштаб и больше GPU».

Недавно попался редкий текст — http://djdumpling.github.io/2026/01/31/frontier_training.html про frontier-training, который устроен иначе. Это не отчёт о достижениях и не теоретический обзор. Это попытка аккуратно разобрать как именно сегодня тренируют большие модели.

Материал интересно почитать, потому что в центре внимания — процесс, а не результат. Автор не обсуждает «кто кого обогнал». Вместо этого он агрегирует практики из отчётов разных открытых моделей и фактически собирает инженерный playbook: выбор attention-механизмов, работа с длинным контекстом, плотные vs MoE-архитектуры. Фокус смещён с метрик на методологию.

Кроме того, большая часть текста посвящена не эффектным идеям, а «скучным» деталям: стабилизация логитов, борьба со spike’ами лосса, аккуратный multi-stage schedule, контроль норм. Именно это и есть реальная работа frontier-команд — удерживать систему в рабочем режиме на экстремальном масштабе.

➡️ Почему этот текст важен?

Он показывает, что frontier-training — это не магия и не «секретный трюк», а системная инженерия. Архитектура, данные, оптимизация и расписание обучения должны быть согласованы как единый механизм.

Если пытаться сформулировать выжимку: сегодня выигрывают не те, у кого просто больше вычислений, а те, кто умеет проектировать процесс обучения как целостную систему.

Такие тексты полезны именно потому, что делают неявное инженерное знание явным.

Обзор кейса подготовлен командой https://t.me/aihubvkhttps
#обзоркейса

AI VK Hub

25 мар. 2026 г., 09:55

📷 Photo

Продолжаем серию постов о компонентах Discovery-платформы. Мы уже разобрали , и . Пришло время рассказать о Discovery Runtime.

#discovery #discoveryruntime #aivk

1,040

AI VK Hub

25 мар. 2026 г., 09:55

📷 Photo

За последний год LLM всё активнее заходят в разработку — от автокомплита до полуавтономных coding-агентов вроде Claude Code. Но что если LLM — это не ассистент, а часть самого языка программирования?

Команда, включающая Андрея Бреслава (один из создателей Kotlin), представила альфа-версию нового языка — https://codespeak.dev/, который позиционируется как следующий шаг в эволюции программирования.

Детали

1. Новый уровень абстракции

Идея CodeSpeak — работать не с кодом напрямую, а с формализованным техническим описанием:
🟣текст, напоминающий спецификацию класса или метода, конвертируется в полноценный код;
🟣возможен обратный процесс — существующий Python-код переводится в формат CodeSpeak;
🟣заявляется сжатие кода в 5–10 раз за счёт устранения бойлерплейта.

Фактически — меньше императивной рутины, больше декларативного описания.

2. Как меняется процесс разработки

Вместо редактирования исходников разработчик редактирует спецификацию:
🟣компактное и более читаемое описание логики;
🟣изменения вносятся через правку спецификации;
🟣возможна конвертация существующего кода;
🟣постепенная интеграция в текущие проекты.

Это уже не «LLM как помощник», а попытка встроить LLM в саму модель программирования.

3. Техническая сторона

В текущей альфа-версии генерация основана на моделях Anthropic (по сути — Claude через API).

Команда активно работает над ограничением генеративной природы LLM:
🟣детерминированность и воспроизводимость;
🟣контроль за отсутствием «лишнего» кода;
🟣прозрачность изменений при редактировании;
🟣поддержка тестового покрытия.

Без этих свойств подобные системы рискуют остаться прототипами, поэтому фокус на воспроизводимости здесь критичен.

Почему это важно

Если IDE + Copilot — это «LLM как ассистент», то CodeSpeak — это шаг к LLM как части языка программирования.

Проект курирует Андрей Бреслав, что придаёт инициативе дополнительный вес.

Пока это альфа-версия, но направление выглядит стратегически интересным: переход от написания кода к управлению спецификациями и генерацией воспроизводимых реализаций.

Если команде удастся обеспечить строгую предсказуемость и контроль, это может стать заметным этапом в эволюции разработки.

Обзор подготовлен командой
#обзорязыка

AI VK Hub

23 мар. 2026 г., 17:26

📷 Photo

🟣Alibaba выпустила Qwen 3.5 ( https://www.cnbc.com/2026/02/17/china-alibaba-qwen-ai-agent-latest-model.html | https://www.iphones.ru/iNotes/vyshla-besplatnaya-ii-model-qwen-35-ona-v-8-raz-bystree-rabotaet-s-bolshimi-dannymi-a-v-testah-obhodit-gemini-3-pro)
Alibaba представила новое поколение мультимодальных моделей Qwen 3.5: флагман Qwen3.5-397B-A17B заявлен на уровне GPT-5.2, Claude 4.5 Opus и Gemini 3 Pro, работает в 8 раз быстрее предшественника, поддерживает 201 язык и agent-style выполнение действий в приложениях. Облачная https://chat.qwen.ai/ модели Qwen3.5-Plus получила 1M токенов контекста, а Qwen3.5-397B-A17B выложена на https://huggingface.co/collections/Qwen/qwen35.

🟣Anthropic представила Claude Sonnet 4.6 ( https://www.anthropic.com/news/claude-sonnet-4-6 | https://3dnews.ru/1137015/menshe-gallyutsinatsiy-i-millionniy-kontekst-anthropic-predstavila-sonnet-46-i-ona-uge-dostupna-besplatno-v-claude)
Обновлённый Sonnet усилили в кодинге, long-context reasoning и следовании инструкциям; контекст расширен до 1 млн токенов. Внутри Claude Code пользователи выбирали 4.6 вместо 4.5 примерно в 70% случаев — апдейт ориентирован на практическое использование.

🟣Google представил Gemini 3 Deep Think ( https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/ | https://3dnews.ru/1136813/google-predstavila-gemini-3-deep-think-moshchniy-ii-dlya-nauki-kotoriy-vsyo-eshchyo-podgonyaet-zadachi-pod-otvet)
Версия Gemini для научных и исследовательских задач с акцентом на продвинутый reasoning; на её базе создан агент Aletheia для проверки гипотез на естественном языке. Модель набрала 48,4% на Humanity’s Last Exam и 84,6% на ARC-AGI-2 — один из лучших результатов в задачах на обобщённое мышление.

🟣MiniMax выпустила M2.5 ( https://www.aibase.com/news/25536 | https://habr.com/ru/news/995978/)
MoE-модель на 229B (10B active) с контекстом 204k токенов, оптимизированная под кодинг и tool use. В тестах сопоставима с Claude Opus 4.5 и местами превосходит 4.6 при сопоставимой скорости; доступна на https://huggingface.co/MiniMaxAI/MiniMax-M2.5.

🟣В ChatGPT появился Lockdown Mode ( https://openai.com/index/introducing-lockdown-mode-and-elevated-risk-labels-in-chatgpt/ | https://3dnews.ru/1136999/v-chatgpt-poyavilsya-regim-blokirovki-i-markirovka-povishennogo-riska-dlya-zashchiti-vagnih-dannih)
OpenAI добавила режим защиты от prompt injection и утечек: чат работает с сохранёнными копиями сайтов без выхода в интернет, часть инструментов можно отключить. Функция ориентирована на enterprise-сценарии и доступна в корпоративных тарифах.

🟣Китай усиливает регулирование AI-контента ( https://www.globaltimes.cn/page/202602/1355269.shtml)
Регулятор удалил более 543 тыс. публикаций и заблокировал 13 тыс. аккаунтов за вредоносный и непомеченный ИИ-контент — сигнал о дальнейшем ужесточении требований к генеративным моделям и маркировке.

#дайджест #aivk

Showing 19 of 19 posts

No more posts

Рейтинг

Требуется вход

Отзывы пользователей (0)

Пока нет отзывов. Будьте первым, кто поделится своим опытом!

AI VK Hub

AI VK Hub

Рейтинг

Рост участников (Последние 16 дней)

Последние посты

Рейтинг

Отзывы пользователей (0)

Похожие каналы Telegram

Random Open Science

Сердце 🧡 Сообщества

Чат для общения

Студия Никитина | event | нейросети

Прокси тут

Techlead Russia

Помощь подключение

Градостроительный комплекс Москвы

Похожие каналы Telegram

Random Open Science

Сердце 🧡 Сообщества

Чат для общения

Студия Никитина | event | нейросети

Прокси тут

Techlead Russia

Помощь подключение

Градостроительный комплекс Москвы

Отзывы пользователей (0)

Последние посты