алиса олеговна

Public

Просмотреть канал

2.3K

676

6.3K

Не можете присоединиться? @alisaolega

495 Участники

Обновлено: May 25, 2026 at 1:59 AM

алиса олеговна

Пишу про изучение обработки естественного языка (NLP, Audio, Multimodal). Учу компуктер вести диалоги в духе всем известной Алисы. ML Engineer @ zvuk.com (Research Team) Автор → @textoleg

@alisaolega is a dedicated channel for zvukcom and textoleg with regular updates in Изучение языков

Рейтинг

Глобальный рейтинг

#456

Рейтинг по языку

#45

Рейтинг по категории

#23

-1

Рост участников (Сегодня)

Всего: 495

Последние посты

алиса олеговна

25 мая 2026 г., 02:00

Интересный формат подачи структурированных данных в промпты LLM, обещают снижение кол-ва токенов на ~50%, при этом для многих LLMок качество ответов незначительно страдает или наоборот улучшается!

https://github.com/johannschopplich/toon

(Не проверял лично, цитирую документацию)

#Links@alisaolega #LLM@alisaolega

749

алиса олеговна

25 мая 2026 г., 02:00

Live stream finished (1 hour)

алиса олеговна

25 мая 2026 г., 02:00

📷 Photo

Long Horizon Execution в LLM
...или как агенты тупеют во время разговора

Статья: https://arxiv.org/abs/2509.09677

Итак, проверяют как LLM работают на длинных горизонтах — выполнение задачи, состояние которой развивается и копится в контексте на протяжении большого количества turn («ходов» user/assistant). Замеряют на синтетической задачке, где LLM-ка должна трекать состояние цепочки арифметических операций. На мой вкус вполне репрезентативный тест, если даже на нём проявляется эффект.

TL/DR
При решении задачи модели работают тем хуже, чем длиннее контекст диалога они обрабатывают и/или, если в этом контексте возникали ошибки.

Тезисы

✦ Точность выполнения задач на одном turn (single instruction) зависит от размера модели, но быстро насыщается — модельки начиная с 32B обычно максимизируют эту метрику и дальше от размера идёт diminishing returns

✦ Но размер начинает играть ключевое значение при len(turns) > 1: чем больше моделька, тем бóльшую точность выполнения задачи она поддерживает, и тем медленее это качество решений деградирует

✦ Self-Conditioning: На «длинных» задачах модели деградируют, если в контексте возникают их собственные ошибки — когда, смотря на свои ошибки в прошлом, модель буквально тупеет и начинает их воспроизводить (или теряет мотивацию, я хз)

✦ Размер модели не играет роли в self-conditioning, даже напротив — более крупные модельки быстрее адаптируются под свои ошибки

✦ Thinking mode (обученный reasoning, не CoT) избавляет от self-conditioning и ошибки в прошлом перестают влиять на выполнение задач в будущем — авторы предполагают, что это следствие RL алаймента, где модель становится не просто автодополнятором текста, а task-oriented агентом, которому наоборот — чаще надо игнорировать свои прошлые неудачи

✦ CoT нужен, если в рамках одного turn нужно выполнить более одного действия (считай tool call) — тут хотя бы простое текстовое планирование требуется, иначе даже большие модельки не справляются с более чем одним действием за turn

Мои выводы

☁︎ Context Engineering критически важен! Для слабых моделек лучше убирать из контекста ошибочные вызовы и просто перезапускать их, быть может, отдельной моделькой добавляя не сами действия, а комментарии/подсказки — на что модельке-исполнителю обратить внимание в следующей попытке (очевидно, корректор должен быть сильнее или располагать бóльшим контекстом)

☁︎ Для случаев, когда не хочется заводить отдельную модель-корректора и городить мультиагентность, хотя бы включите Thinking Mode

☁︎ Есть предел шагов, которые модель может выполнить с адекватным качеством, далее оно существенно и быстро деградирует. Значит надо как-то находить точку этой деградации на своей задаче и иметь стратегию fallback/restart

Как это учитывать в агентах

Любопытно, что некоторое время назад очень похожие идеи я встретил в https://www.parlant.io/ Это агентский фреймворк с достаточно свежим взглядом на агентов, где привычный Flow/Finite State Machine можно задавать неявно с помощью https://www.parlant.io/docs/advanced/explainability/ на естественном языке, как бы вы передавали их обычному работнику-человеку. Я бы сказал это такой if/else на LLM стероидах.

Так вот одна из задач, которую фреймворк https://www.parlant.io/blog/how-parlant-guarantees-compliance — сужать контекстное окно решаемой задачи для агентов, ограничивая его небольшим набором инструкций и сообщений. Свой подход они называют https://arxiv.org/abs/2503.03669 (ARQs). Таким образом обещается высокая точность выполнения задач. Разработчики в упомянутом выше блогпосте также ссылались на любопытную https://openreview.net/forum?id=R6q67CDBCH на ту же тему, но судя по Open Review, далеко статья не пошла.

Интересно, что другой популярный практико-ориентированный совет для production LLM систем — максимальное переиспользовать и кешировать контекст. Как эти две идеи дружить друг с другом хз, will see.

#Review #Paper #Agents

Графики из статьи в комментариях

алиса олеговна

25 мая 2026 г., 02:00

Live stream scheduled for Aug 7, 2025 at 16:00

алиса олеговна

25 мая 2026 г., 02:00

Live stream started

алиса олеговна

25 мая 2026 г., 02:00

Live stream finished (1 minute)

алиса олеговна

25 мая 2026 г., 02:00

Live stream started

алиса олеговна

25 мая 2026 г., 02:00

Обсуждение стрима

644

алиса олеговна

25 мая 2026 г., 02:00

📷 Photo

Привет! Небольшой оффтоп. Сейчас нахожусь на Turbo ML Conf от Т-Банка, если есть желание пообщаться между секциями — пишите! А так скоро буду возвращаться с постами и стримами, в т. ч. по результатам интересных выступлений здесь. Мой коллега Ринат выступает в 17:35 в секции NLP с докладом про генерацию плейлистов с помощью LLM.

P. S. если видите человека с вилкой намотанной на руке, это скорее всего я

702

алиса олеговна

25 мая 2026 г., 02:00

Привет! Давно не было апдейтов по проекту голосового ассистента, а они есть!

Что было ранее

На возился с NPU и пытался запустить модельки на нём — выяснилось, что ничего толще 1.5B на него не залазит из-за багов на стороне RKLMM. Нужно было обновить драйвера NPU, поправить код инференса и много чего ещё по мелочи.

По итогу с этим справился и сейчас всё работает и работает неплохо — Qwen3:4B выдаёт 5 токенов в секунду, а Qwen2.5:3B целых 8! Вместо ранее упомянутого rkllama API я решил делать всё прямо на девайсе, а значит никаких серверов и т. п., по крайней мере пока. Получился минимальная приятная обёртка типа:

from api.rkllm import RKLLMModel

# подгружаем модельку
model = RKLLMModel("qwen2.5:3B")
# стримим вывод
for token in model.generate_stream([{"role": "user", "content": "Hello, what's up?"}]):
print(token, end="", flush=True)

Модельки можно напрямую подтягивать с HuggingFace с помощью простого https://github.com/stllfe/salem/blob/e1743900d21a17c686835e5f216cd7787192a56d/opi5/config.yaml, а значит в ближайшее время также смогу конвертировать и складывать туда свои. К примеру, интересно попробовать последние https://t.me/ruadaptnaya и https://t.me/vikhrlabs модельки на базе того же Qwen. Полагаю, мы должны получить более быстрое время ответа при +- тех же tok/sec на русском языке.

Что будет на стриме

Сейчас хочу интегрировать свой класс со smolagents, чтобы весь код агента мог работать уже полностью на девайсе. Для этого нужно посмотреть как корректно форматировать тулзы, т. к. в недавнем обновлении RKLLM их https://github.com/airockchip/rknn-llm/releases/tag/release-v1.2.1 нативно — предвкушаю кучу багов). В целом хочу поделиться некоторыми идеями куда всё идёт!

Так что встречаемся в этот ЧТ в 19:00 по МСК здесь в Телеге, запись, как всегда будет попозже на YouTube 📹

https://github.com/stllfe/salem/tree/main | https://deepwiki.com/stllfe/salem | https://www.youtube.com/@codeolega |

#Petting@alisaolega #Assistant@alisaolega

Showing 10 of 10 posts

No more posts

Рейтинг

Требуется вход

Отзывы пользователей (0)

Пока нет отзывов. Будьте первым, кто поделится своим опытом!

алиса олеговна

алиса олеговна

Рейтинг

Рост участников (Сегодня)

Последние посты

Рейтинг

Отзывы пользователей (0)

Похожие каналы Telegram

Тимуроки: пишем лучше

RadiHola | Испанский язык

Български език с Кристина 🇧🇬

Алтай тил 💙 Altai til

НейроГармония ребенка

два слова

Демонтаж красноречия

Высшая школа перевода МГУ

Похожие каналы Telegram

Тимуроки: пишем лучше

RadiHola | Испанский язык

Български език с Кристина 🇧🇬

Алтай тил 💙 Altai til

НейроГармония ребенка

два слова

Демонтаж красноречия

Высшая школа перевода МГУ

Отзывы пользователей (0)

Последние посты