Почему Gemini, ChatGPT и другие не умеют в разработку?
Пост получился слегка базированный, но че поделать)
Давайте разберемся, что такое AI = LLM?
Начнем с того, что это никакой не интеллект. Это софт, который выглядит как чёрный ящик, и главная задача которого - предсказывать следующее слово в предложении.
И хоть визуально всё это выглядит одинаково в интерфейсе чат-бота, та самая точность предсказывания является ключевым параметром, по которому мы можем сказать - оно «умное» или генерит бред и извиняется.
Сам процесс создания этой точности и является главной инновацией сегодняшнего дня.
Три ключевых этапа:
1. Сбор датасета и его структура - это просто текст в огромном количестве. Но главное - что именно это был за текст, насколько он был чистым от шума, какой процент качественных источников (книги, научные статьи) был использован в структуре. Как фильтровали Reddit, YouTube, Википедию.
2. Supervised Fine-Tuning (SFT) - набор текстовых диалогов. Кто их писал? Пакистанец за копейки или эксперт из MIT? Кто проверял качество? Кто ставил задание на формат?
3. RLHF + RLAIF - процесс, когда ответы модели проверяет живой человек, даёт им оценку, а модель получает плюшки за хорошие ответы. Сюда же - использование другой модели по схеме учитель-ученик. Кстати, DeepSeek много сделал, заабузив таким образом ChatGPT, что нарушает условия использования OpenAI.
Формально всё просто: нужно скормить модели правильный текст. Но проблема кроется в масштабе, который необходим, и принципе garbage in - garbage out.
Возьмём на примере разработки: как обучить модель программировать?
Ну, наверное, можно спарсить GitHub. Но там огромная доля низкокачественного кода: заброшенные репозитории, студенческие поделки, копипаста со StackOverflow. Формально датасет есть, но он бесполезен - мусор на входе даёт мусор на выходе.
Логичный вывод: такой датасет надо создать, и сделать это максимально качественно.
Что сделал Anthropic?
Они сделали ставку на качество источников с самого начала. Потом выпустили Claude Code - и получили уникальный фидбек-луп: правильные разработчики используют инструмент, доводят проекты до прода, и это становится данными для улучшения модели.
Результат - критическая масса качественных примеров для SFT и RLHF. Отсюда сначала Opus 4.0, потом 4.5, который решает задачи любой сложности с первого раза.
Попробуйте дать Copilot или Gemini задачу на рефакторинг большого проекта с сохранением контекста между файлами. Copilot начнёт нести и писать бред. Gemini до сих пор не умеет держать контекст, и через 2-3 окна просто забывает что делал в начале. Я поэтому и не хочу снимать обзоры на все эти корпоративные кодексы и антигравити, если они там не могут порешать какие-то базовые проблемы.
К чему этот пост?
На этом канале мы стараемся с вами критически мыслить и оценивать происходящее. Мы должны двигаться в сторону мира без скуфов-гаррипоттеров-левбидва-пхпшников, а как мы к этому придем если скуфы занимаются саботажем? Одни выпускают поделки с бредогенерацией, другие пилят контент и курсы про реплиты, лаваблы и прочие landing-page генераторы для умственно отсталых.
Помните, что между вашей офигенной идеей и счастьем стоят неэффективные скуфы-человеки, которых надо убрать и всё захуячить в соло, а без правильного использования правильных инструментов это довольно сложно.