Всеволод Викулин | AI разбор

Public

Просмотреть канал

Не можете присоединиться? @vikulin_ai

4.6k Участники

Обновлено: May 4, 2026 at 2:03 AM

Всеволод Викулин | AI разбор

Объясняю, как сделать AI системной бизнес-функцией, а не чередой бессмысленных пилотов. По вопросам — @seva_batareika

@vikulin_ai is a dedicated channel for seva_batareika with regular updates in Кодинг и программирование

Рейтинг

Глобальный рейтинг

#456

Рейтинг по языку

#45

Рейтинг по категории

#23

-1

Рост участников (Последние 3 дней)

Всего: 4.6K

Рост за 24ч: +0 0%

Последние посты

Всеволод Викулин | AI разбор

28 апр. 2026 г., 18:39

Учёные создали AI, который экономит страховщикам 2,42 секунды. И тут я не выдержал

Разговоров про ИИ много — выхлопа мало. И все уже начинают от этого уставать. https://www.gartner.com/en/newsroom/press-releases/2025-06-25-gartner-predicts-over-40-percent-of-agentic-ai-projects-will-be-canceled-by-end-of-2027 что более 40% проектов с ИИ-агентами закроются к 2027 году — из-за раздутых ожиданий и банального непонимания, нужен ли там вообще агент.

На днях я https://arxiv.org/pdf/2601.09715 где британские ученые создали «умного» чат-бота для страховых агентов. Он экономит 2.5 секунды на запрос. Две. Секунды. С половиной. Авторы называют это «трансформацией страховой индустрии». У меня накипело. Давайте сейчас разберёмся, кто виноват и что делать.

AI-помощник в каждый дом

Все просто обожают внедрять AI-помощников. Есть человек, он что-то делает, а ему ещё AI помогает. Допустим даже, что человек рад этой помощи. Но делает человек. AI может суммаризовать встречу, подсказать текст письма, поискать в интернете. Но делает человек. Эта схема очень удобная, потому что не растит риски. Человек сам отвечает за свое делание. Ошибся — сам дурак, AI не при делах.

Если AI помогает непрерывно во всём рабочем потоке — это может быть полезно. Но чаще всего делают решение для какой-нибудь микро-пуська-задачи. Вот в той самой статье про помощника страховщика бот решал задачу — поиск информации — и ускорял её на 2,4 секунды. Пусть у страховщика даже сотня таких поисков в день — это плюс 4 минуты. Его лучшие 4 минуты за рабочий день!

Я знаю один успешный кейс связки агента и человека: разработка. Он успешный потому, что человек и агент работают в одном интерфейсе непрерывно. Разработчик не скидывает агенту одну микро-задачу — они пишут код бок о бок, весь день, на каждом этапе. AI видит контекст, понимает, что происходит. Только так работает.

Нужно поднимать ставки

Важно понять. Основная польза агента — не в качестве одного конкретного ответа. Как бы качественно ты ни суммаризовал совещания, эффект будет ограниченным. Настоящая ценность агента — в принятии решений. И чем больше решений агент принимает сам, тем больше операционной нагрузки он снимает с человека.

Это сразу Агент начинает отвечать за часть бизнес-процесса. Естественно, он может ошибиться. Но мы и не перепроверяем каждое его действие человеком — мы вводим правила контроля. Всё как с людьми: вы же не проверяете каждое решение сотрудника, но при этом контролируете, как он справляется.

Как контролировать агентов

Самое главное: не пытайтесь оптимизировать сразу все важные бизнес-процессы. Не получится, и вы только расстроитесь. Возьмите один — самый простой, самый понятный — и полностью перестройте его на AI-агентах. Так вы снимете главный риск: откусить больше, чем можете прожевать.

Помимо этого, есть методы локального контроля:

- метрики качества и observability, чтобы наблюдать, что всё ок ()

- guardrails — проверка ответов другой моделью ()

- human-in-the-loop — подключение человека в определённых случаях ( https://vikulin.ai/library/tpost/av8584vbn1-12-pravil-razrabotki-proektov-s-llm#etap8).

- контроль доступов, чтобы агент не лез куда не надо ( https://vikulin.ai/library/tpost/ai_agent_architecture#rule5)

Взяли один бизнес-процесс, перестроили его, обвешались системами контроля — работает. Выдохнули, пошли делать следующий. Вся

Резюме

Есть два мира:

Первый — пластмассовый мир AI-пилотов. В нём миллион внедрений, каждое оптимизирует что-то нерискованное, всё красиво отрисовано на слайдах, но никто не может честно сказать, что понимает, зачем это нужно.

Второй — мир риска, пота и реальных денег. В нём мы берём реально важный для компании процесс, перестраиваем его и обвешиваем контролем, чтобы быть уверенными, что всё работает. Вытираем пот, собираем деньги и идём оптимизировать следующий. Шаг за шагом.

Я выбрал второй мир. Предлагаю вам присоединиться ко мне — работы там ещё очень много.

4,370

106

Всеволод Викулин | AI разбор

28 апр. 2026 г., 18:39

Друзья, опубликовал подробный https://vikulin.ai/library/tpost/ai_agent_architecture В нем собрал:

- из каких компонентов состоит агент и как они друг с другом взаимодействуют
- какие бывают типы оркестрации у агентов
- как правильно собирать контекстное окно
- какие есть угрозы безопасности и как с ними бороться
- и много чего еще другого

Если останутся вопросы, как вам собирать надежных AI-агентов, напишите в комментариях или в личных сообщениях https://t.me/seva_batareika

11,200

119

Всеволод Викулин | AI разбор

28 апр. 2026 г., 18:39

📷 Photo

Модель управляемого риска: подбираем AI-агента под свои нервы

В разработке агентов, как и в инвестициях, есть связка риск/профит. За потенциальную выгоду мы платим риском, который берем на себя.

У AI-агентов обе величины сильно зависят от автономности. Система, где LLM в один промпт суммаризует диалог с клиентом — низкая автономность. Это и не очень рискованно, но профит ограничен. Автономный агент с доступом к CRM и возможностью отправить клиентам email — это уже совсем другая история. Потенциальный эффект выше, но и риск резко возрастает. Это удобно визуализировать на графике риск/профит (см. картинку).

Разберем, как разные архитектуры агентов ложатся в эту кривую — и как по этому графику выбрать архитектуру под вашу задачу. Начнем с архитектур.

Контролируемый рост риска (LLM-workflow)

Самый предсказуемый вариант — фиксированная цепочка промптов, то есть оркестрация LLM-workflow ().

Все шаги прописаны заранее, у системы почти нет свободы “уйти не туда”. Каждую ветку можно отдельно отладить и измерить. Такая система прозрачна и контролируема. На этом участке кривой можно довольно предсказуемо наращивать ценность: добавлять новые узлы в граф, расширять логику, улучшать покрытие кейсов. Риск тоже растет, но управляемо.

Взрыв риска (автономный агент)

Но бесконечно растить workflow не получится: в какой-то момент сложность начинает съедать команду разработки. Тогда возникает соблазн перейти к автономному агенту () — и дать ему набор ограниченных инструментов.

В этот момент потенциальная ценность и риск одновременно подскакивают.И вместе с этим подскакивает нагрузка на команду, потому что теперь нужно управлять новым классом рисков: контроль доступов к тулам, защита от prompt injection, observability и тд). Иначе разработка быстро превращается в гадание на таро (долбанет, или пронесет?).

Граница текущей технологии (переизбыток тулов)

Дальше наступает момент, когда дополнительная автономность перестает окупаться. Инструментов становится все больше, они сложнее, контекст длиннее, а модель начинает чаще тупить и галлюцинировать. Вы подходите к границе, которую текущие LLM еще могут выдержать. Вселенная как будто говорит: “Остановись”.

Автономность вредит (агент из телеграм-каналов)

Модель настолько тупит, что с ростом автнономности качество уже деградирует. Надо было послушать вселенную в прошлом пункте.

Концепция интересная, делать то что?

Самое важное: архитектуру AI-системы нужно подбирать под риск, который вы способны контролировать, а не под максимальный профит, который она теоретически может дать. Второе: каждая новая капля автономности требует дополнительных усилий на контроль риска.

Отсюда универсальное правило: начинайте с минимальной автономности, которая может решить задачу. Например: один вызов к LLM → затем цепочка промптов → затем агент → затем новые инструменты.

И на каждом шаге задавайте два вопроса:

1) Сильно ли растет качество?
Если нет — значит, вы уже уперлись в предел, и дальше усложнять систему нет смыла. Хорошая новость, что во многих задачах низкорисковой архитектуры вполне достаточно. Не везде нужен мега-агент.

2) Хватает ли у вас ресурсов контролировать этот риск? Оценивать качество, дебажить сбои, безопасно поддерживать продукт в работе. У разных компаний разная терпимость к риску. Если вы дикий стартап, у которого завтра кончатся деньги, вы более толерантны к риску. Тогда вам нужно меньше инфры для контроля.

Я легко могу собрать демку агента с полным доступом к компьютеру, чтобы он мне создавал регулярные напоминалки полить цветы. Но я потом буду плохо спать по ночам.

И тут возникает логичный вопрос: а оно того стоило?

Всеволод Викулин | AI разбор

28 апр. 2026 г., 18:39

📷 Photo

Когда молчание агента — золото. Кейс компании DoorDash.

DoorDash — крупнейшая компания по доставке еды в США, где с заказами часто что-то идет не так: ресторан не выдает еду, суп пролился по дороге, клиент не отвечает. Все эти кейсы летят в поддержку, и отвечать на них нужно быстро. Для этого в DoorDash https://careersatdoordash.com/blog/large-language-modules-based-dasher-support-automation/, которая сама отвечает на вопросы курьеров.

И здесь ошибка агента — это уже не ха-ха, смешная галлюцинация. Это реальные операционные и финансовые потери от неправильного действия курьера.

В таких системах важно не только качество ответа, но и умение агента вовремя заткнуться, чтобы не наговорить того, в чем не разбирается. Как развить у агентов такие навыки осознанности, поговорим в этом посте.

Архитектура системы

Архитектура строится :

1. LLM суммаризирует кейс.
Она берет обращение курьера, метаданные заказа и историю диалога, выделяет суть проблемы и готовит компактное представление кейса.

2. Ищем релевантные инструкции.
Поиск идет по базе прошлых обращений и связанных с ними верифицированных статей. Сами прошлые ответы не являются источником истины — они нужны только для поиска. Ответ строится на основе проверенных инструкций.

3. Проверяем качества поиска.
Новый LLM-вызов оценивает, действительно ли найденные документы подходят под запрос. Если нет — кейс сразу уходит человеку, а затем эксперты дополняют базу новой информацией. Этот LLM-вызов обычно называется LLM-guardrail. Далее мы подробнее это разберем.

4. Только теперь LLM генерирует ответ.
LLM получает найденные инструкции в контекст и формирует ответ на их основе (вот теперь ).

5. Проверяем сам ответ.
Вторая LLM-guardrail оценивает:
- нет ли галлюцинаций;
- действительно ли он отвечает на вопрос;
- корректен ли язык.

6. Решаем, отвечаем или нет.
Если все ок, ответ уходит курьеру. Дальше уже поверх этого считаются метрики качества через LLM-as-a-judge. Если что-то guardrail не понравилось — отправляем на человека. Не рискуем.

Почему это хорошая архитектура

Во многих бизнес-задачах не нужно автоматизировать 100% обращений. Нужно надежно автоматизировать самые частые и понятные кейсы — и уже этого достаточно, чтобы получить заметный эффект. Закон Парето: 80/20.

Самые частые 80% кейсов хорошо документированы, а вот оставшиеся 20% редкие, плохо формализованные. Именно на этих 20% попытка додавить становится очень дорогой и опасной.

Поэтому зрелая система не героически отвечает в любой ситуации, а умеет вовремя отказаться. Нужно не всегда действовать, а понимать границы, где действие уже перестает быть адекватным . Себе тоже возьму на заметочку.

Подробнее про guardrails

Guardrail — это как раз механизм, который помогает разделить эти 80% и 20%. Эта LLM по ответу пытается предсказать, все ли хорошо в ответе с качеством. Если есть намек, что качество плохое, — сразу на человека.

Это может быть , которую мы используем для метрик качества. Только считаем мы ее в рантайме, а не.

Да, тогда теряется возможность стримить ответ сразу: сначала нужно дождаться всех проверок. Но действительно хорошие вещи стоит и подождать.

Резюме

На своих занятиях по внедрению AI я часто сравниваю два мира.

В B2C все любят показывать “вау-агентов”: модные мультиагентные системы (), которые соревнуются друг с другом по объему сжирания токенов.

В B2B агентские системы часто выглядят гораздо менее эффектно: сделай это, проверь поиск, проверь ответ, если есть сомнение — сразу на человека.

Но это не потому, что B2B отстает. Просто риск ошибки несет уже не пользователь, а компания. Если в B2C AI обманул, ответственность на пользователе: надо было проверить. Если в B2B агент наврал при общении с клиентом, последствия — уже деньги компании и клиентский опыт. Поэтому ценится не максимальная автономия, а контролируемая автономия.

И очень часто тут самый ценный навык агента — не сказать что-то умное, а вовремя заткнуться.

Всеволод Викулин | AI разбор

28 апр. 2026 г., 18:39

Контекст — всему голова. Почему In-Context Learning — единственный способ строить надежные AI-продукты

Я ненавижу галлюцинации. Я хочу их все уничтожить. Но чтобы победить врага, мне нужно научиться его определять.

Сама LLM сгаллюцинировала дала такое определение галлюцинаций: «Феномен, при котором LLM генерирует уверенные, но фактически неверные, вымышленные ответы». Мне это совсем не помогает. Что значит «фактически неверный» в вакууме? Где источник правды, что есть верные факты?

Но мы можем уточнить правила работы с LLM: всегда давать контент и требуем отвечать строго по нему. Тогда враг становится осязаемым: галлюцинация — это любой ответ, который не строится на выданном тексте. А если мы знаем, как искать врага, мы сможем его уничтожить. И сейчас я покажу как.

Что такое In-Context Learning

Мы закладываем все ожидаемое поведение LLM (то есть обучаем) прямо в контекстное окно (промпт). Без классического обучения.

- Нужно, чтобы модель узнала информацию? Закинули RAG в контекст.
- Модель делает ошибку? Написали в промпте корнер-кейс (от души прошу, не делай так»).
- Нужно рассуждение? Просто попросили подумать шаг за шагом.
- Модель тупит? Почистили контекст от мусора.

Это в разы быстрее и дешевле, чем дообучать саму модель. Скорость итераций взлетает. А главное — это легко оценивать и контролировать.

Как теперь мы уничтожаем галлюцинации

Как только мы зафиксировали чудовище, его очень просто победить. Алгоритм прямолинейный:

1. Мы делаем строгую метрику, которая автоматически детектирует: модель взяла ответ из выданного текста или выдумала его из своих «весов»? (вот https://vikulin.ai/library/tpost/llm_metrics)

2. Мы начинаем мочить модель, чтобы она не отвечала из весов. Как обычно, 3-мя способами: промтинг, раг, дообучение (тут особенно круто раскрывается методы Reinforcment Learning)

Минусы подхода очевидны. Придется строить инфраструктуру, чтобы этот контекст собирать. Ходить в нужные системы, доставать информацию и пихать ее в промпт. Контекст будет «пухнуть», а модели на больших объемах данных могут терять фокус. Благо, с каждым днем https://epoch.ai/data-insights/context-windows Тренд играет за нас.

LLM — движок рассуждений, а не энциклопедия

Эта логика в будущем сможет уменьшить размеры базовых моделей. LLM такие L (большие), потому что тащат в свои веса и нужное и всякий мусор. Посмотрите на бенчмарки: LLM знают кучу энциклопедических знаний, который любой инженер посмотрит в любимом справочнике. Они кодируют все эти знания в веса, чтобы хорошо предсказывать следующее слова.

Для моих кейсов не важно, чтобы LLM знала анатомию горилл. Можно, пожалуйста, не платить за горилл стоимостью инференса?

Я верю, что модели должны стать исключительно процессорами информации. Запомнить базовое — да. Всё остальное делать только логическими операциями на основе доверенных источников (но не стоит брать за источник правды текущие LLM, иначе весь этот схематоз развалится)

Нудное резюме

Хотите делать надежные AI-продукты? Нудно, системно и последовательно собирайте информацию, которая будете скармливать моделям нужный контекст.

Да, вам придется хорошенько подумать, какую именно информацию и когда вставлять. Зато, если не подумаете вы, LLM с радостью «подумает» за вас. И эта галлюцинация вам точно не понравится.

Всеволод Викулин | AI разбор

28 апр. 2026 г., 18:39

📷 Photo

Вправляем мозги AI-агенту: 3 закона успешного LLM-инференса

Недавно мы Сегодня детально поговорим про один из главных ингредиентов — LLM (мозг агента). А точнее, про инференс: как заставить этот мозг работать так, чтобы агент был надежным, безопасным и не стоил вам как крыло самолета?

1. Запрос к LLM должен идти через Gateway (Шлюз)

Нельзя пускать компоненты агента напрямую к моделям. Все запросы — неважно, к внешней API или к вашей внутренней модели — должны проходить через единый прокси-сервис (Gateway). Клиент общается только с ним. Что должно быть «под капотом» у шлюза:

- Аналитика: логируем, какую модель вызвали, сколько токенов съели и как долго она отвечала. Без этого вы не посчитаете ни health-статус системы, ни юнит-экономику, ни качество.

- Безопасность: здесь мы прячем шифрование персональных данных, аутентификацию и проверку входного промпта на prompt injection.

- Кэширование: сохраняем популярные ответы, чтобы не гонять модели вхолостую.

- Контролируемая деградация: GPU неизбежно выходят из строя, а резервировать железо х2 — удел AI-мажоров. Шлюз должен уметь перехватывать ошибки отвалившегося сервера и бесшовно переводить запрос на модель поменьше (или в код, или в модель в облаке ). Пусть агент временно деградирует, но сама система продолжает решать задачу бизнеса (с контролиуремо меньшим качеством).

Кстати, хороший пример такого Gateway можно https://www.uber.com/en-LT/blog/genai-gateway/

2. Стоимость инференса — KPI отдельной команды

Выжимать максимум из своих LLM — это отдельное искусство. Алгоритмы батчинга, квантизации, кэширования непрырвно обновляются в разных фреймворках ( https://arxiv.org/abs/2505.01658 например, коллеги перечислили все 100500 примочек для инференса).

Эти методы не универсальны и сильно зависят от задачи. У вас должна быть выделенная ML-инфра команда, которая будет разбираться во всех нюансов инференса LLM. Их прямой KPI — удешевлять и ускорять генерацию токенов для разных продуктов компании. Чем больше потребение LLM в вашей компании, тем мощнее будет ROI этой команды.

3. Понимайте потребление LLM в вашей компании

В зависимости от того, как ваши продукты потребляют мощности, выбирается архитектура инференса.

- Единый LLM-сервис на всю компанию

Одна команда развернула сервис с LLM. Все продукты ходят в эту одну общую «розетку».

Плюсы: эффективная утилизация железа и проще сделать надежную и стабильную архитектуру (она ведь всего одна).
Минусы: больно кастомизировать инференс под специфические хотелки конкретных бизнес-юнитов. А это важно, потому что смотри пункт 2. И чем больше потребления, тем более важно. Ну и нельзя разворачивать дообученные модели, разве что через LORA,
Вердикт: Всегда начинайте с этого. Идеально для старта и для продуктов с низкой или средней частотой запросов.

- Выделенный LLM-инференс под продукт

Продукт физически забирает сервера с картами и разворачивает инференс сугубо под себя.

Плюсы: можно тонко настроить инференс под конкретного потребителя и выжать максимум скорости.
Минусы: если дать эту свободу всем подряд, вы получите зоопарк из сотни инференсов, где на каждом дорогущем сервере H100 будет обрабатываться по одному запросу в час.
Вердикт: Делать только для гигантских потребителей, и строго после первого варианта. И еще нужно будет создавать AI-полицию, которая ходит и проверяет, что этот большой продукт реально использует все карты. Ну и отнимает их, если что.

Резюме

Инференс LLM — это самый дорогой и капризный ингредиент в вашем AI-торте. Если пустить его в продакшн без присмотра, он сожрет весь бюджет и бесценные нервы (я не люблю просыпаться по ночам, когда инференс сломался). Готовьте агентов системно: продумайте архитектуру, платформизируйте компоненты и не экономьте на команде оптимизации.

Всеволод Викулин | AI разбор

28 апр. 2026 г., 18:39

📷 Photo

Оркестратор AI-агента. 5 типов и инструкция по их применению.

В мы разобрали, из каких ингредиентов состоят агенты. Сегодня поговорим про оркестратор, который управляет процессом решения задачи и связывает все компоненты воедино.

От выбора оркестратора зависит, будет ли агент вашим надежным другом или галлюцинирующим кошмаром. Мы разберем 5 базовых типов (см. 5 картинок), которые нужно применять к разным задачам.

1. LLM-Workflow (Детерминированное исполнение)

Самый надежный и распространенный вариант в продакшене. Порядок действий жестко задан разработчиком в коде. LLM здесь используется как функция внутри жесткого графа: например, суммаризует ответ, извлекает сущности или классифицирует тексты.

Плюсы: надежно, предсказуемо, дешево.
Минусы: нужно этот граф написать руками. Для творческих процессов не подходит совсем.
Когда использовать: для процессов с высокими рисками и понятным регламентом. Например, ответы на вопросы клиентов.

2. ReAct (Рассуждение и выбор действия)

Базовый вариант автономного агента. Процесс заранее не зафиксирован. Модель работает в цикле: "Подумал → Выбрал инструмент → Получил результат". Здесь уже сама LLM решает, какой инструмент вызвать и когда остановиться.

Плюсы: гибкость. Может выбирать разные действия под ситуацию.
Минусы: часто ломается в долгих задачах (застревает в цикле или забывает цель).
Когда использовать: для простых коротких задач с небольшим числом инструментов (например, «найди курс валюты и отправь в Slack»).

3. Reflexion (Рефлексия)

Умная надстройка над ReAct. В цикл добавляется этап "Рефлексии". Агент получает результат от инструмента, но не бежит дальше, а оценивает: "А то ли я сделал?". Если нет — пересматривает ответ. И так может делать несколько раз для одного действия. Мой любимый паттерн, я тоже мнительный :)

Плюсы: критически поднимает качество в задачах, где результат можно валидировать (код, математика).
Минусы: мнительность ест много токенов и замедляет работу.
Когда использовать: когда фидбек инструмента максимально полезен. Например, программирование, где фидбек — ошибка выполнения программы.

4. Plan-and-Execute (Планирование и исполнение)

Сначала LLM составляет план, затем шаг за шагом другой оркестратор (например, Reflexion) этот план исполняет. Всё работает в едином контекстном окне. Как только план выполнен, LLM проверяет: задача решена или нужно составить новый план?

Плюсы: рабочий вариант решения долгих задач без LLM-Workflow.
Минусы: страдает от "распухания" контекста. В истории накапливается столько мусора, что модель ломается.
Когда использовать: для длинных цепочек действий, где шаги жестко зависят друг от друга (любая последовательная аналитика).

5. Plan-and-Execute + Мультиагентность

План создается как в прошлом пункте, но каждую задачу изолированно решает отдельный оркестратор (субагент). У каждого субагента — своя узкая задача и только необходимая для неё информация, они не делятся контекстом.

Плюсы: мощь планирования + надежность исполнения
Минусы: можно использовать только для узкого класса задач
Когда использовать: всегда, когда задачу можно разбить на независимые блоки. Например, написание большого отчета ().

Резюме

Это 5 базовых паттернов. На практике мы их комбинируем. Ваш «агент мечты» может выглядеть как надежный LLM-Workflow, в узлах которого вызываются более автономные агенты для сложных задач.

Главное правило выбора: берите самую простую архитектуру, способную решить вашу задачу. Если вы можете написать детерминированный Workflow — напишите и забудьте. За каждую каплю автономности вы платите надежностью и рисками.

Всеволод Викулин | AI разбор

28 апр. 2026 г., 18:39

📷 Photo

Испечь AI-агента и не сжечь продакшн. Разбор ингредиентов

При масштабировании агентов не стоит придумывать с нуля архитектуру для каждой новой задачи. Разработка агентов — новейшая область, у вас огромный риск, что эксперимент провалится. Процесс должен быть похож на выпечку торта по бабушкиному рецепту: мука, яйца, шоколад, а лучше побольше шоколада...

Сегодня мы разберем эти ингредиенты и способы их замеса в шикарный, предсказуемый агентский торт (весь пост удачно проиллюстрирован картинкой).

Из каких компонентов состоят агенты

5 кубиков агентской системы:

1) Оркестратор. Сердце (душа?) агента

Это runtime-движок, который управляет бесконечным циклом работы агента. Оркестратор запускает все компоненты с нужными аргументами, обрабатывает их выходные данные и ошибки, если они случились. Он работает по определенному шаблону, вроде ReAct (подумай, потом сделай), Plan-Execute (составь план и иди строго по нему) и т. д. Физически это Python-код, реализованный, например, на базе LangGraph/LangChain. Но можно написать это и с нуля.

2) LLM. Мозг агента

Оркестратор собирает промпт и отправляет его в LLM, чтобы «мозг» решил, что делать дальше. Можно использовать разные модели под разные задачи: дорогие — для редких и сложных, модели попроще — для массовых операций. Физически это либо API к облачному провайдеру, либо API к LLM на ваших серверах.

3) Инструменты. Руки агента

Любые программы, которые агент может вызывать для решения задачи. Удобно использовать какой-то протокол, например, MCP. Инструментом может быть и другой агент, тогда получится мультиагентная система.

4) Контекстное окно. Память агента

Управление контекстным окном — одна из сложнейших задач. Нужно, чтобы в каждый момент запуска LLM в контексте была ровно та информация, которая необходима для решения текущей проблемы. Чем больше мусора в контексте, тем выше шанс, что «мозг» сломается. Физически это реализуется через различные методы работы с памятью: сжатие, вытеснение старых данных во внешнюю память и т. д.

5) Внешняя информация. Знания агента

Здесь лежат данные, которые не нужны в контексте прямо сейчас, но могут потребоваться позже. Физически это базы знаний или файлы. Доступ к ним происходит через RAG или инструменты поиска (вроде командной строки grep).

Как компоненты взаимодействуют

Всё взаимодействие идет через оркестратор. Но чтобы агент был прозрачным и безопасным, мы делаем это не напрямую, а через специальные прокси-сервисы — Gateways (шлюзы). У них две цели:

- Аналитика. Нужно логировать всё, что запустил оркестратор, чтобы потом собирать метрики и строить дашборды. Подробнее мы обсуждали это в

- Безопасность. Каждое действие оркестратора должно проходить проверку. Это контроль доступов к файлам, анализ контекста на prompt injection, проверка безопасности инструментов, шифрование персональных данных и т. д.

Заключение

Следуя этому рецепту, вы сможете не просто выпекать более надежных агентов, но и делать это каждый раз все качественнее и быстрее.

Улучшение любого компонента автоматически улучшает всех агентов компании. А каждый новый инструмент может быть переиспользован в будущих проектах.

Это та самая рецептура масштабного внедрения AI в компании, которую я каждому желаю освоить. Не все же нам дошираки заваривать?

Всеволод Викулин | AI разбор

28 апр. 2026 г., 18:39

Observability в агентах. Почему прозрачность важнее технологичности.

LLM не славятся надежностью. Галлюцинации — https://retool.com/blog/state-of-ai-h1-2024 для внедрения их в бизнес. Еще мы дали LLM кучу инструментов, разрешили ей планировать, добавили мультиагентность для души. Можно ли этот коктейль спроектировать так, чтобы всё это работало без сбоев? Нет. Обязательно что-то сломается.

Но что мы должны спроектировать — так это механизмы быстрого анализа того, где и что сломалось. Для этого есть инструменты, которые называются observability. Сегодня обсудим, что это и почему без этого невозможно использовать агентов в продакшене.

Что такое observability

В обычной разработке всё прозрачно: код — источник правды. При любой ошибке можно разобраться, что пошло не так.

В AI-разработке код ничего не объяснит. Источник правды — только история: какие были входные данные и какие действия совершила модель. Набор методов для эффективного анализа этой истории и есть observability. Это:

1. Сбор трейсов. Каждый новый запуск агента получает уникальный идентификатор, к которому привязываются все действия агента в рамках этого запуска. В итоге получается цепочка действий, которая называется трейс. Его дальше и анализируют.

2. Логирование. Все инструменты (тулы) должны логировать входные данные, промежуточные состояния, ошибки и финальный ответ. Тогда тулы в трейсе можно отдебажить.

3. Метрики качества (). В рамках одного трейса нужно обязательно оценить финальный ответ агента и, желательно, все его промежуточные действия. Разметить всё это вручную нереально, чаще используется LLM-as-a-judge ()

4. Дашборды. Помимо метрик качества, там должны быть технические метрики: скорость ответа, среднее число токенов и т. д.

Самые известные observability-библиотеки — это Langfuse и Arize Phoenix.

Как это работает вместе

- Вы мониторите состояние агентов на дашборде по техническим метрикам и метрикам качества.

- Если произошло падение метрик, выбираете трейсы, где аномально плохое качество, и дебажите: в какой момент времени и что именно сломалось.

- Во время дебага смотрите на прокси-метрики действий агента (через LLM-as-a-judge), проверяете все тулы. Благо для этого мы заранее настроили логирование.

Без этого пайплайна разбор любой ошибки агента будет занимать вечность. И ваш проект так и останется на слайдах пилоте.

Резюме

Черные технологичные ящики — это прикольно на презентации. Для инвесторов и начальников. Об этом прикольно рассказывать коллегам и друзьям. Но их очень не прикольно масштабировать и держать в продакшене. Любая поломка черного ящика — всю ночь будете разбирать причину. Лучше сделайте эти ящики прозрачными и спите спокойно.

Друзья, если у вас есть вопрос, как сделать AI более прозрачным, пишите мне https://t.me/seva_batareika. Разберем его отдельно.

Всеволод Викулин | AI разбор

28 апр. 2026 г., 18:39

AI-агент рекрутер. Кейс компании LinkedIn

Рекрутер создает описание вакансии, агент уточняет детали, запускает поиск по базе из миллионов кандидатов, показывает только самых подходящих. Это не автоматизация, это другой подход к поиску кандидатов. Кому, как не LinkedIn, пришло в голову https://www.linkedin.com/blog/engineering/ai/how-we-engineered-linkedins-hiring-assistant Мы разберем устройство этого агента и найдем причины успеха продукта. Может, они не из-за AI-агента? Но давайте по порядку.

Архитектура

Агент построен на классической https://arxiv.org/abs/2305.04091 Это простой, наглядный и итеративный процесс.

1) Главный субагент получает задачу от рекрутера. Смотрит на историю сообщений. Пытается понять, что рекрутер хочет сделать, насколько он явно выразил мысль, достаточно ли информации. Все рассуждения преобразует в план.

2) План превращается в список конкретных задач для будущих исполнителей. На этом этапе важно дать исполнителю ровно ту информацию, которая ему нужна для решения задачи, но не больше. Все как с людьми: важно все объяснить, но не перегрузить лишними деталями. Это называется https://www.philschmid.de/the-rise-of-subagents — основной сейчас.

3) Задачи отправляются субагентам-исполнителям. Их великое множество. Ровно столько, сколько есть разных задач в рекрутменте:
— один собирает у рекрутера дополнительную информацию;
— второй формулирует множество запросов в поиск;
— третий оценивает, насколько кандидат подходит.
...

У каждого субагента есть только свой список тулов, которыми он может пользоваться. Это тоже изоляция, не надо давать кому угодно пользоваться чем угодно. Сломает или потеряет.

4) После того как все субагенты отработали, главный проверяет их результаты. Если цель не выполнена, переформулирует план, отправляет новые задачи. Может спросить совета у рекрутера, если есть вопросы ().

Что здесь на самом деле сложно

Вот такую архитектуру мы с вами можем собрать за 3 часа на n8n и ему подобных. HR-тех мы так не перевернем. Главный актив, над которым команда инженеров LinkedIn работала 99,9% времени — структурированные знания, которыми агент может пользоваться.

Это описания кандидатов, вакансий и успешных историй поиска, где нашли и наняли сотрудника. Это огромный массив данных, который где-то хранится, быстро обновляется и по которому могут быстро искать агенты и люди.

Хранить его просто в текстовом индексе крайне неэффективно. Сейчас все важнее становятся графовые базы данных, https://neo4j.com/product/neo4j-graph-database/ которые позволяют хранить разные зависимости между объектами. Например, в каких компаниях и в каких вузах учились наши лучшие сотрудники.

У самого LinkedIn есть https://economicgraph.linkedin.com/ в которой лежат структурированные данные по рынку труда, и он может ее легко применять в своих агентах.

Резюме

Да, вам нужно выучить паттерны создания надежных AI-продуктов (читая мой канал, конечно же). Иначе все точно развалится. Но правильная архитектура одного агента не сделает чуда.

Вам нужно оцифровать данные на пути, на котором создается ценность для пользователя. Потом сделать инструменты, чтобы агент мог этими данными пользоваться. Тогда агент сможет сам создавать ценность. Автономно, спрашивая вас только тогда, когда что-то непонятно. Тогда агенты действительно будут полезны бизнесу.

Без этого обычно все заканчивается презентацией прототипа. С очень хорошей архитектурой Plan-And-Execute. Но прототипа.

Всеволод Викулин | AI разбор

15 апр. 2026 г., 18:50

Как рождается магия в AI-проектах.

Я обожаю чувствовать волшебство от работы. Когда качество твоей модели, твоего продукта кажется чем-то невозможным.

Но чудеса возникают совсем не так, как все предполагают. Когда команда гениальных инженеров запирается в комнате, заказывает пиццу и неистово обучает модели. Чаще магия рождается на стыке инженерии и бизнеса. Когда гибкие модели управляются жесткими бизнес-правилами. Ну, а теперь по порядку.

Магия R&D проектов

Это, как раз, про инженеров и пиццу. Когда ваша задача настолько непонятна, индустрия с таким не сталкивалась, про это всего 5 статей.

Лучшие инженеры с колоссальной интуицией ищут прорыв. Читают статьи, их имплементируют, проводят сотни экспертов. Большая часть провалится. Иногда один выстреливает. Тогда рождается магия.

За этим обычно и идут заниматься машинным обучением. Но знаете сколько таких проектов? 1 %.

Магия продуктовых проектов

Это задачи, где понятна технология. Классификация, суммаризация, простой чат-бот. Непонятно только одно. Что на самом деле нам нужно сделать?

Какой ответ для нашего продукта хороший? Как должен отвечать бот? Какие аспекты должны быть в суммаризации? К какому классу отнести эту категорию? Как только вы вместе с бизнес-заказчиком ответите, дальше все предельно понятно.

- Выделяем зоны, где гибкость модели действительно нужна, и она не создает экстремальные риски (не пихайте везде AI, пожалуйста).

- Делаем

- Подстраиваем под них модель ().

- шаг за шагом, контролируя метрики и психологическое состояние.

И оно заработает. Я вам обещаю. Это самая предсказуемая магия в мире. Когда ты понимаешь, что нужно сделать, у тебя есть нужная технология и голова на плечах, тебя не остановить.

И таких проектов 99 %.

Вместо резюме

Большинство на старте проекта превращают его в R&D. Архитектуры, данные, функции потерь. И сразу теряют шансы на успех.

Надо начинать AI с общения. С диалога с тем, кто будет этот AI использовать. И тогда обязательно случится магия.

Да, и вот тогда, если остались ресурсы, можете идти делать еще R&D. Вот тогда уже можно.

Всеволод Викулин | AI разбор

15 апр. 2026 г., 18:50

Друзья, привет!

Меня зовут Всеволод, я 9 лет занимаюсь внедрением AI (Yandex, VK, T-Банк). Прошел путь от инженера до руководителя команд разработки.

За 9 лет в индустрии я видел сотни проектов. И успешных, и провальных. Я вывел закономерность. Секрет успеха — не в гениальной архитектуре нейросети и не в тысячах GPU. Успех — это всегда системный подход.

Провальные проекты начинаются с фразы «давайте попробуем тут AI». В AI проще простого собрать демку за пару дней. Но невероятно сложно превратить её в актив, приносящий прибыль. Так рождается «кладбище пилотов»: проекты умирают через год, съев бюджет, потому что никто не подумал про надежность, безопасность и риски.

Успешные проекты выглядят иначе. Они скучные, предсказуемые и следуют простой логике:

1. Стратегия: AI решает важные бизнес-задачи, вытекающие из целей компании. Не всегда нужен AI.

2. Инфраструктура: Мы вкладываемся в технологическую платформу, которую будем переиспользовать годами, снижая стоимость каждого следующего решения.

3. Дисциплина: Все инициативы проходят конкретные стадии, и мы объективно оцениваем их потенциал.

Этот канал — квинтэссенция моего опыта.
Я объясняю, как строить AI как бизнес-функцию: постоянную фабрику решений, а не разовый аттракцион.

Далее — материалы, которыми я горжусь больше всего:

Статьи про методику внедрения AI:

https://vikulin.ai/library/tpost/av8584vbn1-12-pravil-razrabotki-proektov-s-llm

https://vikulin.ai/library/tpost/generative_ai_roi

https://vikulin.ai/library/tpost/llm_metrics

Основные посты про методику:

Кейсы:

Уверен, в следующем году в этом посте будет минимум в 2 раза больше полезных материалов.

Если у вас есть мысли, идеи или вопросы по внедрению AI, всегда можно написать мне https://t.me/seva_batareika

Всеволод Викулин | AI разбор

15 апр. 2026 г., 18:50

Как посчитать профит от LLM. Если, конечно, он у вас есть.

Знаете, в чем феномен рекомендательных систем? Легко посчитать эффект. Обучили новую модель, потратили X денег на команду/железо. Провели АБ эксперимент, получили рост продаж на Y. Сравниваете X и Y. Для бизнеса все супер прозрачно.

В генеративном AI не так, Но не потому что LLM бесполезны. Обычно, LLM в компании делает что-то базово разумное (хотя бывает всякое). Но никто не может эффект от этой разумности посчитать. Почему это сложно, и что нам теперь делать, об этом сейчас поговорим.

В чем основная проблема

Статистика работает, когда данные стремятся к бесконечности. Если у рек. системы сотни тысяч пользователей, вы уже победили. Делаете АБ сплитование, считаете деньги. Команда будет счастливо работать десятки лет.

В LLM все намного сложнее. Допустим, мы делаем копайлот для сотрудника. Нам нужно:

1) АБ-инфраструктура. Уникальный айди, по которому мы можем сотрудников сплитовать, и система, которая оценивает его перфоманс. Перфоманс, кстати, не у всех профессий можно легко замерить.

2) Много сотрудников, чтобы мы могли что-то прокрасить в АБ.

Вывод. Можно надежно посчитать только для распространенных профессий, у которых легко измерить результативность.

Что делать?

Большинство внедрений LLM не подходят под условие выше. Что нам, теперь не вдрять Copilot для 10 программистов? Внедрять. Варианты:

1) Самое смелое — принять риски.
Посчитать через полгода интегральные метрики. Например, сколько вы сделали релизов, как часто пропускали критичные баги и тд.

2) Самое наивное — проводить массовые опросы.
По шкале от 1 до 10 оцени, насколько Copilot делает тебя продуктивным. Это, конечно, шляпа. Никто не скажет, что я не разобрался даже с главным меню и пользовался им 2 раза. Конечно, мой босс купил очень хороший Copilot!

3) Самое сложное — подумать.
Если вы не можете померить эффект, вам нужно создать прокси. Вы не можете оценить перфоманс менеджера, который пишет вам отчеты через LLM-копайлот. Но вы можете проверить, что менеджер хотя бы им нормально пользуется. Логировать все вопросы, (он же этот отчет потом нам покажет!) и оценить, сколько времени требовало бы написать этот отчет (через другие LLM, например). И дальше по пункту 1, но уже более осознанно.

Это затраты на отдельную инфраструктуру, но ее можно использовать во всех AI-проектах внутри компании. Знаю, это гениально, жаль я не придумал это первым :) https://www.larridin.com/ которые делают такую инфраструктуру.

Резюме

Внедрение LLM тормозится не из-за мифической инертности компаний. Никто не будет долго думать, если ты кладешь в коробку рубль, а она выплевывает два. Дайте мне тысячи таких коробок! Проблема, что ты кладешь рубль, а коробка выплевывает AI. И что с этим AI теперь делать?

Мы с вами должны делать более прозрачные, предсказуемые коробки. Тогда наши коробки будут отрывать с руками.

Друзья, с наступающим! Пусть в следующем году профит от ваших проектов будет такой гигантский, что этот пост вам не пригодится. Спасибо, что читали весь этот год. Обещаю, что в 2026-м читать этот канал будет еще интереснее.

Всеволод Викулин | AI разбор

15 апр. 2026 г., 18:50

Друзья, опубликовал https://vikulin.ai/library/tpost/llm_metrics

Он состоит из 7-ми шагов, по которым вы сделаете метрику под вашу LLM-задачу. Там много примеров, наглядных схем, основанных на моей 3-летней практике.

Если после прочтения остались вопросы, как в вашем случае строить метрики качества, https://t.me/seva_batareika — разберем ваш случай отдельно.

4,860

Showing 14 of 14 posts

No more posts

Рейтинг

Требуется вход

Отзывы пользователей (0)

Пока нет отзывов. Будьте первым, кто поделится своим опытом!

Всеволод Викулин | AI разбор

Всеволод Викулин | AI разбор

Рейтинг

Рост участников (Последние 3 дней)

Последние посты

Рейтинг

Отзывы пользователей (0)

Похожие каналы Telegram

Albinasummer

PM работа. Проектные менеджеры

Русский Модный Код

Литературный коД

Компьютерная математика Weekly

AI Projects

ReLab Family

Книги по программированию

Похожие каналы Telegram

Albinasummer

PM работа. Проектные менеджеры

Русский Модный Код

Литературный коД

Компьютерная математика Weekly

AI Projects

ReLab Family

Книги по программированию

Отзывы пользователей (0)

Последние посты