Compresr — каждый токен на счету
Длинные агентные сессии в Claude Code и Cursor быстро упираются в контекстный лимит. История диалога, результаты тулов, прочитанные файлы — всё это забивает окно и ухудшает качество ответов. Стандартная компакция Anthropic решает проблему, но при срабатывании /compact пользователь вынужден ждать минуту‑две, пока модель суммаризирует историю.
https://compresr.ai/ предлагает альтернативу — локальный прокси Context Gateway, который сжимает контекст заранее и делает компакцию мгновенной.
Принцип работы
Context Gateway развёртывается на машине пользователя и садится между агентом и LLM‑провайдером. Прокси отслеживает размер истории и при достижении порога запускает фоновую суммаризацию. К моменту, когда агенту нужна компакция, она уже готова. Кроме истории, gateway сжимает tool outputs и управляет tool discovery — вместо показа всех инструментов он выбирает подмножество, релевантное текущему запросу.
Два уровня сжатия
🟣Token-level compression — алгоритмический выбор наиболее важных токенов с сохранением смысла, используется для системных промптов, RAG‑контекста и длинных документов
🟣Chunk-level filtering — удаление нерелевантных блоков целиком, применяется для предфильтрации результатов ретривера перед композицией промпта
Три модели
🟣Espresso — agnostic compression, не требует query, используется для системных промптов и статической документации
🟣Latte — query-aware compression, требует явного запроса пользователя, применяется в RAG и Q&A сценариях
🟣Coldbrew — chunk-level filtering, отбирает релевантные чанки без изменения текста
Характеристики
Заявленный диапазон сжатия — от 2x до 100x в зависимости от избыточности контента. В публичном демо Compresr снижает задержку на 25% и экономит 20% токенов. На бенчмарке FinanceBench модель Latte при ~10x сжатии даёт точность 74.5% против 72.3% в бейзлайне.
Способы поставки
🟣Context Gateway — CLI‑бинарь на Go
🟣SDK — библиотека на Python
🟣VS Code‑расширение — для сжатия http://CLAUDE.md/ файлов
Compresr особенно интересен для длинных код‑сессий и RAG‑пайплайнов с большими документами — именно там, где стандартная компакция становится узким местом.
Как тебе такое, Александр?
«Compresr интересен тем, что он решает одну из самых актуальных проблем современных LLM-систем — управление контекстом.
В большинстве агентных фреймворков контекст растёт почти бесконтрольно: история диалога, результаты инструментов, куски кода... В какой-то момент всё это начинает не только упираться в лимиты токенов, но и ухудшать качество ответов модели.
Compresr предлагает довольно радикальное решение — вынести управление контекстом в отдельный инфраструктурный слой. Gateway фактически становится «операционной системой» для контекста: он решает, какие данные вообще попадут в окно модели.
Особенно интересна идея chunk-level filtering. По сути, это дополнительный этап между retriever и prompt construction. В RAG-системах именно там часто появляется шум: ретривер возвращает слишком много слабосвязанных фрагментов, которые просто занимают место в контексте.
С другой стороны, агрессивная компрессия — это всегда компромисс. Слабые сигналы, второстепенные детали и длинные логические цепочки могут теряться. Поэтому заявленные коэффициенты сжатия в десятки раз стоит воспринимать скорее как демонстрацию возможностей, чем как реальный production-режим.
Но сама тенденция выглядит важной: по мере роста агентных систем всё больше оптимизаций происходит не внутри модели, а на уровне orchestration-слоя. И инструменты вроде Compresr — хороший пример того, как начинает формироваться новая инфраструктура вокруг LLM», — отметил Александр Тараканов, исследователь AI VK.
Насколько, на ваш взгляд, жизнеспособен вынос управления контекстом в отдельный gateway — это новая норма или временный workaround? Готовы ли вы жертвовать частью информации ради latency и стоимости? И где сегодня основной bottleneck в RAG: retriever, prompt construction или уже сам контекст? Обсудим 👇
#aivk #compresr