За сборкой очередного набора лего наконец дослушал книгу Даймонда «Ружья, микробы и сталь».
В книге Даймонд анализирует, почему одни общества — в первую очередь европейские — смогли занять настолько более доминирующее положение в мире, чем другие: народы Новой Гвинеи, племена Австралии и т.д.
Во-первых, книга безумно интересная и невероятно глубокая в своем анализе — боюсь даже представить, сколько времени автору понадобилось для сбора всей фактуры. А он писал ее в 90-е, когда не то что ChatGPT, а даже интернета в его текущем виде не было.
Во-вторых, в ней упоминается тезис, который мне самому приходил на ум каждый раз, когда я слышал утверждения о неспособности языковых моделей изобрести что-либо новое:
Технологии развиваются накопительно, а не через одиночные подвиги гениев
...
Новые технологии и материалы дают возможность получать новые технологии, комбинируя уже имеющиеся элементы
-перевод ChatGPT
То есть новые изобретения — это не что-то, что возникает в вакууме, а плод рекомбинации уже существующих технологий, материалов и идей, который затем проходит через фильтр актуальности и пользы для общества.
Если принять этот взгляд, то способность к инновации — это не обязательно мистическая способность “создать из ничего”. Скорее, это способность производить новые комбинации и проверять, какие из них действительно работают.
Кажется, что ЛЛМки уже неплохо справляются с первой частью — рекомбинацией. Они умеют быстро соединять существующие идеи, подходы и паттерны, хотя часто делают это с меньшими отклонениями от уже существующих эталонов, чем человеческий автор.
А вот успешность второй части — отбора — зависит не только от самой модели, но и от среды вокруг нее: есть ли в конкретной сфере возможность быстро и достаточно объективно оценить плодотворность ее продукта.
Например, сомневаюсь, что в сфере искусств — литературы, живописи, кино — ЛЛМ без участия человека сможет в ближайшем будущем создать что-то действительно стоящее. Если ЛЛМ напишет тысячу книг, нужно, чтобы человечество их прочитало, оценило и оставило в библиотеках действительно стоящие из них.
Можно измерять продажи, дочитывания, лайки, отзывы и премии, но это все равно плохие прокси для художественной ценности. Там нет быстрой и стабильной функции потерь, которая позволила бы автоматически отбирать “лучшие” произведения без участия человеческой аудитории.
В написании кода же — кажется, наиболее успешной на текущий день для ЛЛМ-ок сфере — обратная связь намного дешевле и формальнее. Есть тесты, типы, линтеры, бенчмарки, профилирование, метрики продакшена: завелось или нет, сколько времени выполняется функция, сколько памяти потребляет и т.д.
То есть можно написать энное число версий кода и достаточно безболезненно отфильтровать из них успешные итерации. К тому же, в каждом языке программирования есть понятный набор базовых сущностей, из которых собирается любой код: классы, списки, функции и т.д.
В естественных науках тоже работают над тем, чтобы выстроить связь между выводами ЛЛМ и их эффективностью в реальном мире. Вот https://cdn.openai.com/pdf/5a12a3bc-96b7-4e07-9386-db6ee5bb2ed9/using-a-gpt-5-driven-autonomous-lab-to-optimize-the-cost-and-titer-of-cell-free-protein-synthesis.pdf, где модели давали проектировать эксперименты, передавать их в автоматизированную физическую лабораторию, собирать результаты и автономно планировать следующие итерации.
Таким образом, как и в любой задаче машинного обучения (и, в целом, в любой жизненной задаче) — все сводится к подбору метрики, по которой оценивать результат, и функции потерь.
Ну а дальше — итерации, ошибки и победы.