commit history

Public

Просмотреть канал

Не можете присоединиться? @c0mmit

4.2k Участники

Обновлено: May 7, 2026 at 12:55 AM

commit history

история моих коммитов про машинное обучение, карьеру и набитые шишки @ibragim_bad

Join @c0mmit for exclusive ibragim_bad content and discussions in 12

Рейтинг

Глобальный рейтинг

#456

Рейтинг по языку

#45

Рейтинг по категории

#23

-1

Рост участников (Последние 3 дней)

Всего: 4.2K

Рост за 24ч: +0 0%

Последние посты

commit history

27 апр. 2026 г., 11:11

🎥 Video

Серега https://t.me/southfreebird параллельно с работой в Nebius с друзьями сделал крутой open-source проект!

Авторы: https://t.me/southfreebird, https://t.me/Olegbalakhnov и https://t.me/zaringleb.

Ребята обучили и выложили в open-source VLA-модель на базе VLA-0 от Nvidia, только с backbone в 6 раз меньше (0.5B vs 3B в оригинальной работе), которая показывает success rate 94.1% на Libero benchmark (против 94.7% у оригинальной модели).

VLA (Vision-Language-Action) это модель, которая смотрит на картинку, понимает текстовую команду и сразу выдаёт действие для робота, типа «возьми кубик и положи справа».

Вообще порог входа в robotics ML всё ещё достаточно высокий, поэтому у ребят крутая цель: сделать в open-source воспроизводимые рецепты для файнтюна небольших моделей на небольшом количестве демонстраций.

Ссылка на блогпост и модель:
https://robot-learning-collective.github.io/vla-0-smol

Если интересно следить, ребята завели Discord:
https://discord.gg/XcZVY2kxj9

Ну и пишите, если будут вопросы!

12,300

commit history

27 апр. 2026 г., 11:11

Как попробовать Claude Opus 4.5 и другие модели в CLI-агенте бесплатно

За последние полтора года из первого ряда наблюдал как сильно выросли способности моделей в формате кодинг агентов. При этом кто-то еще не пробовал сделать проект просто агентами, без погружения в код, хотя желание есть.

Не у всех есть enterprise-подписка на Codex, Claude или Cursor, либо лишние $100–200 в месяц. При этом $10 в том же Cursor выедаются довольно быстро, если запускать агента на задачах чуть сложнее простых автокомплитов.

Фронтирные модели уже нормально работают в агентских обвязках. На бенчмарках топовые модели идут примерно на одном уровне, на последнем https://swe-rebench.com/ например лидирует Opus. При этом сами агентские скаффолды сходятся к одному и тому же набору инструментов, поэтому можно спокойно пробовать разные cli агенты, не переживая, что они сильно отличаются.

Есть такой очередной агент/обвязка. AMP Code.
Они дают $10 в день, взамен показывают рекламу. Реклама ненавязчивая, просто висит над окном ввода.

Есть плагины почти для всего: VS Code, JetBrains, Neovim. Я пользуюсь CLI-версией.
https://ampcode.com/install

P. S.
Когда появляется такой инструмент, сначала может быть непонятно, что с ним делать. Поэтому для тестового запуска я всегда прошу реализовать браузерный Doom. В школе 21 этот проект раньше был в конце ветки геймдева.

В итоге вышло около $2 из суточных $10 за 1.5 млн токенов.

Тут можно посмотреть, какая траектория получилась:
https://ampcode.com/threads/T-019bcc0d-7ac8-710a-a273-8513be37694e

3,990

commit history

27 апр. 2026 г., 11:11

Открыл сегодня x и увидел пару постов на 100k+ просмотров про статью Recursive Language Models

Суть такая. Вместо того чтобы запихивать всё в контекст, предлагают относиться к проблеме длинного контекста как к software engineering задаче. Дать LLM инструменты вроде поиска по регуляркам, чтобы она сама обрабатывала контекст, плюс инструмент для запросов в LLM, чтобы параллельно гонять сабагентов. Идейно – обычный агент (codex/claude-code/итд) просто теперь вместо репозитория нужно искать агент работает по большому txt. Приложил картинку из статьи, очень наглядная.

Сразу после статьи вышел блогпост от PrimeIntellect (очень бодрые ребята, много делают для agentic rl и хайпуют в x). Они делали эксперименты на эту же тему и показали больше ablations, плюс небольшие улучшения вроде: а давайте инструменты будут доступны только сабагентам, чтобы не раздувать контекст основной LLM.

Мои мысли такие:
1. Мне казалось, что все deep research агенты и так работают примерно так? Саша Абрамов https://t.me/dealerAI вроде писал много про инжиниринг контекста, память итп.
2. По ablations у PrimeIntellect видно, что на двух бенчмарках есть просадка, но это похоже на проблему скаффолдинга, значит лечится обучением.
3. Такой swe-agentic подход хорошо подходит для needle-in-a-haystack задач, когда в массиве текста есть атомарные факты, их нужно найти и обработать. А вот для неявной и глубокой семантики, где на текст нужно смотреть как бы сверху, кажется, уже не очень.
4. Такой swe-agentic подход удобно заводить под rl: есть multi-turn, удобнее суммаризации, инфраструктура для обучения у многих уже есть из-за расцвета RLVR. И в отличие от SWE задач не нужно 100500 разных sandbox-контейнеров под каждую задачу.
5. По названию Recursive Language Models кажется, что это про архитектуру моделей и прочее, а не про простой цикл. Но это мб только для меня так.

сама статья https://arxiv.org/abs/2512.24601v1
блогпост PrimeIntellect https://www.primeintellect.ai/blog/rlm
Твит автора https://x.com/a1zhang/status/2007198916073136152


P. S. Кстати, датасет с траекториями про который я писал на прошлой неделе сидит в первой десятке trending huggingface с >100 лайков.

commit history

27 апр. 2026 г., 11:11

📷 Photo

сейчас будем показывать нашу стенгазету с SWE-rebench, приходите если рядом!

🧩 SWE-rebench: an automated pipeline for task collection & decontaminated evaluation
📍 Dec 4 | 11:00 AM–2:00 PM PST | Hall C/D/E #106

3,430

commit history

27 апр. 2026 г., 11:11

🎄 Релизим 67 074 траектории Qwen3-Coder с OpenHands + 2 RFT чекпоинта.

> Мы выкладываем: 67 000+ траекторий по 3 800 решенным задачам в 1 800+ Python репозиториях.

> Примерно в 3 раза больше успешных траекторий и в 1.5 раза больше репозиториев, чем в нашем https://huggingface.co/datasets/nebius/SWE-agent-trajectories

> Траектории длинные: в среднем 64 шага, до 100 шагов и контекст до 131k токенов.

> RFT на этих данных, SWE-bench Verified:
Qwen3-30B-Instruct: 25.7% → 50.3% Pass@1.
Qwen3-235B-Instruct: 46.2% → 61.7% Pass@1.
Также сильный рост на SWE-rebench September (цифры в блог посте)

> Мы сделали много эвалов.
прогнали OpenHands с лимитом 100 и 500 шагов.
Запускаем на SWE-bench Verified и сентябрьском SWE-rebench.

> Мы отдельно проверяем тесты, которые пишет модель.
Считаем, как часто тесты корректны.
Проверяем, как часто финальный патч модели проходит ее собственные тесты.
В итоге получаем пул данных в том числе для обучения верифаеров.

Полностью Permissive License
Датасет и модели: https://huggingface.co/collections/nebius/openhands-trajectories

Подробный блогпост: https://nebius.com/blog/posts/openhands-trajectories-with-qwen3-coder-480b

Пост в x: https://x.com/ibragim_bad/status/2003423706861936856

P. S. Прошу поддержать пост в x, если у вас есть аккаунт!

View on X (Twitter)

commit history

27 апр. 2026 г., 11:11

Последние месяцы заметно вырос интерес к средам обучения с подкреплением (RL environments) и к сбору проверяемых задач. Вот например, https://techcrunch.com/2025/09/21/silicon-valley-bets-big-on-environments-to-train-ai-agents/ про рост инетереса.

Одна из проблем масштабирования таких задач — у каждого датасета и бенчмарка свой репозиторий с кодом оценки и свой формат. Чтобы запустить агента на любом бенчмарке, приходится разбираться в скриптах, вносить правки и писать адаптеры.

У terminal-bench как раз есть единый удобный формат и готовые адаптеры для популярных наборов задач. Подробности – в разборе Макса, который я репостнул.

Вообще, я рекомендую https://t.me/max_dot_sh Он тоже живёт в Лондоне, занимается кодовыми агентами + у него есть https://t.me/max_dot_sh ml позиции: какие задают вопросы и какие диапазоны офферов.

3,820

commit history

27 апр. 2026 г., 11:11

📷 Photo

Приехал в Сан-Диего на NeurIPS 2025, буду рассказывать про SWE-rebench на постерной сессии.

NeurIPS 2025 - это одна из самых крупных конференций по ИИ и машинному обучению. Много топовых статей были опубликованы здесь, например, легендарный Attention is All You Need (тогда еще на NIPS 2017, но название поменяли из-за токсичных ассоциаций)

Если кто тоже тут, приходите на постерную сессию (позже закину где и когда будет) и пишите - сходим на кофе!

P. S.
Фотку приложил из Нью-Йорка в который заскочили по пути, так как в Сан-Диего прилетели только вечером.

3,240

commit history

27 апр. 2026 г., 11:11

Последние несколько недель плотно работал с https://www.tbench.ai/. За названием кроется сразу очень много вещей. Это и https://www.tbench.ai/registry/terminal-bench-core/head, и https://www.tbench.ai/terminus, и https://github.com/laude-institute/terminal-bench для создания среды, где эти самые агенты могут работать над задачами.

В этом тексте как раз про последнее - про инструменты для создания среды. Сейчас это еще все называют execution harness.

Что это вообще такое? Допустим, у вас есть набор задач, и вы хотите протестировать какого-нибудь готового агента типа Claude Code или Codex (или даже своего) на то, как он справляется с этими задачами.

Чтобы такое дело провернуть, нужно понаписать немалое количество инфраструктурного кода, чтобы:
а) упаковать ваши подготовленные задачи в среду, где их можно будет изолированно решать (как правило, докер-контейнеры);
b) установить нужных агентов и/или предоставить весь необходимый скаффолдинг (если тестируете своего агента);
с) подготовить отдельную среду, в которой будет запускаться решение агента и как-то оцениваться (например, скрытыми автотестами);
d) ну и наконец, нужно хранить все возможные логи, чтобы потом можно было проанализировать все возможные паттерны;
e) а, и конечно, чтобы все это легко запускалось, каждую задачу можно было перезапускать по N раз и в идеале — легко масштабировалось.

С одной стороны, все это можно реализовать самому. Но это довольно долго и с множеством подводных камней.

Поэтому зачем, когда есть terminal-bench? На мой взгляд, у ребят получился простой, элегантный и масштабируемый фреймворк, который просто работает из коробки в несколько команд. С вас только подготовить все запускалки (докерфайлы для создания окружения и скрипты, как тестировать решение). Каждая задача - то вот https://github.com/laude-institute/terminal-bench/tree/main/tasks/accelerate-maximal-square структур. Подробный гайд есть https://www.tbench.ai/docs/task-overview . И https://www.tbench.ai/docs/agent-introduction своего агента, если нужно. Либо взять готовые интеграции из коробки - все популярные агенты уже https://github.com/laude-institute/terminal-bench/tree/main/terminal_bench/agents/installed_agents, подставляйте только API-ключи. Можно и их кастомно переделать под себя.

А потом запускаемся:


tb run \
--dataset terminal-bench-core==head \
--agent claude-code \
--task-id hello-world


Все инструменты для отладки тоже есть; ещё и интерактивные сессии реализованы, если хочется симулировать какое-то определённое поведение пользователя при работе с агентом.

По впечатлениям - восторг. От опенсорсных решений давно такого не было. Все нужды, чтобы гонять своих агентов в режиме SWE-Bench задач (есть issue, просим агента сделать, делает, проверяем юнит-тестами) закрывает. Кстати, некоторое количество популярных бенчей тоже https://www.tbench.ai/registry.

И еще раз: terminal-bench предоставляет среду, чтобы можно было не париться с возней по запуску и логированию. Самое сложное – это подготовить задачи и сценарии. Это уже на вас.

commit history

27 апр. 2026 г., 11:11

📷 Photo

На NeurIPS 2024 я познакомился с https://scholar.google.com/citations?user=zzbWQE4AAAAJ&hl=en из Университета Иллинойса. Он тоже занимается LLM4Code и соавтор нескольких известных в нашей теме статей — например, EvalPlus и agentless. Из свежего — https://ai.meta.com/research/publications/cwm-иan-open-weights-llm-for-research-on-code-generation-with-world-models/

Недавно он позвал меня выступить в их университете и рассказать о нашей работе и пообсуждать кодовых агентов. Я люблю выступать, но не люблю собирать слайды: раньше открывал Google Slides, делал минималистичный дизайн — и всё равно уходила куча времени. В этот раз решил автоматизировать процесс – и мне понравился результат.

Я закинул pdf нашей статьи (39 страниц) в Claude и ChatGPT с задачей «собери презентацию». Обе справились со структурой, но Claude собрал демо-презентацию на TypeScript с артефактом для просмотра прямо в чате. https://claude.ai/public/artifacts/10ca86ad-5f7d-42d1-abf1-fd037d31a6f5

Дальше я создал папку с этим tsx-файлом, добавил скриншоты из корпоративного шаблона презентаций и попросил codex поменять дизайн под корпоративный формат и собрать проект, чтобы я мог запустить его локально. Сделал пару итераций для шлифовки — и всё.

Итог: ни одного слайда руками, текст не правил (хотя при необходимости удобно править прямо в коде). Плюс это обычная вкладка в браузере — во время шеренга удобно переключаться на соседние табы, показывать данные или сайт нашего лидерборда. Для иллюстрации прикрепляю примеры слайдов.

commit history

27 апр. 2026 г., 11:11

📷 Photo

Вот вам пятничная история про статьи и Google Scholar.

В универе у нас была система стипендий: есть набор активностей, за каждую — по +3к ₽. Сдал всё на «5ки» — +3к, творческий диплом — +3к, научная публикация — ещё +3к и т.д. Логика понятная: закрываешь нужный минимум по каждому из ~5 критериев — набегает норм стипа.

Это была одна из причин, почему я начал делать по публикации каждый семестр со своим науч руком. Мы брали междисциплинарные темы с гуманитарными науками, чтобы выбирать из большего числа журналов и потому что там не требовались эксперименты. Потом я медитировал над пачкой статей и выдавал публикацию.

Параллельно я завёл Google Scholar (там до сих пор фото с 5 курса), куда теперь сваливается все мои статьи. В итоге в профиле получился микс: от этики в стоматологии – до RL для кодовых агентов.

Забавно, но те давние статьи цитируют. И до появления SWE-rebench в топе долго оставался абсолютный бэнгер из «Вестника психиатрии Чувашии».

Прикрепляю скрин топа и профиль на https://scholar.google.com/citations?user=s2XylBAAAAAJ&hl=en

2,840

Showing 10 of 10 posts

No more posts

Рейтинг

Требуется вход

Отзывы пользователей (0)

Пока нет отзывов. Будьте первым, кто поделится своим опытом!

commit history

commit history

Рейтинг

Рост участников (Последние 3 дней)

Последние посты

Рейтинг

Отзывы пользователей (0)

Похожие каналы Telegram

CORE-expert Дмитрия Маликова

Илья Федотов-Федоров Мастерская

Бесплатный аккаунт

МамАрт — искусство жить свободно 🎨

Технозаметки Малышева

Курсы тактической медицины

SlivMarket

Учебный центр S.T.I. DENT

Похожие каналы Telegram

CORE-expert Дмитрия Маликова

Илья Федотов-Федоров Мастерская

Бесплатный аккаунт

МамАрт — искусство жить свободно 🎨

Технозаметки Малышева

Курсы тактической медицины

SlivMarket

Учебный центр S.T.I. DENT

Отзывы пользователей (0)

Последние посты