Обожаю научное сообщество
В самом начале своего
https://youtu.be/13CZPWmke6A?si=GQQ4WJ_ZrYoqKMXj&t=151 Фридман спрашивает его - расскажи, как вообще вы пришли к идее AlexNet?
Илья начал объяснять, что где-то в 2010-2011 году пришло понимание, что можно обучать большие нейросети end-to-end. Он отметил https://www.cs.toronto.edu/~jmartens/docs/Deep_HessianFree.pdf [2010], как статью, после которой у него щёлкнуло в голове.
Он говорит - в ту пору они с Хинтоном были за антихайп. До начала 2010-х никто вокруг не верил, что нейросети работают, и что их можно просто обучать вот так просто.
Может сложиться впечатление, что многослойные сети до этого в принципе не обучались. Вроде как, были Лекун, Хинтон и прочие, которые глубоко в душе верили, что подход, который они считают правильным, когда-нибудь заработает. И вот, в 2012-м, наконец-то, у людей впервые получилось применить эту шарманку.
Очень романтично. Гении, мудрецы, чисто на своей интуиции, пёрли наперекор мэйнстриму.
https://youtu.be/13CZPWmke6A?si=Cn0VraTJxYBvG6oN&t=979 Илья говорит - до AlexNet ML-сообщество недооценивало Deep Learning, потому что не было свидетельств того, что он работает. Он говорит - это задним числом кажется, что все остальные глупцы, но на самом деле нейросети плохо работали на практике, и недооценивать их было рационально.
...
Телепортируемся в 1998-й. Статья Лекуна - http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf Итак, я попытался вчитаться и понять - а какого секретного ингридиента тут не хватает? Она обучается end-to-end градиентным спуском, там 2 свёрточных и 2 полносвязных слоя. 60000 обучаемых весов - больше, чем тренировочных объектов - оверпараметризация налицо. Переобучения почти нет - ошибка на тесте 1%.
В статье буквально изложен дизайн современных DL-фреймворков - они это называют "Graph Transformer Networks". Идея в том, что достаточно определить какое-то количество операций, описать в них forward и backward методы, а дальше можно сцеплять их в виде графа произвольным образом, и это позволяет обучать сложные функции end-to-end.
...
Прошло 14 лет перед тем, как ничем не отличающуюся (помимо совсем уж мелочей типа функции активации) схему применили на масштабе побольше и тем самым совершили "революцию". Раньше бы я подумал - да быть такого не может, чтобы 14 лет абсолютно рабочий метод лежал на полке, и его никто не пытался масштабировать. Но сейчас я всё понимаю.
Хинтон, Лекун и его друзья - не сумасшедшие гении-провидцы, прущие наперекор рациональному научному сообществу. Они были всего лишь единственными, у кого глаза не на жопе. Имея на руках работающий, как часы, метод, они говорили - да вот же, го обучать, я создал. А им отвечали:
- Математики: "Ой мы тут у себя в тетрадке нарисовали ваши нейросети, у них там VC-размерность больше чем 3.14, поэтому доказано, что они не работают"
- Ресёрчеры: "Ой нам тут грантик выдал европейский союз на развитие SIFT-фичей, и ещё дедлайн на конференцию через 3 месяца, у нас нет времени делать что-то такое"
- Прикладные ML-щики: "У нас тут цель на Q1 - увеличить качество на 1%, и поэтому не можем потратить год, чтобы увеличить его сразу на 20%"
Так все сидели и пердели, а за 14 лет компьют и данные развились так сильно, что революцию стало возможно совершить в гараже силами 3-х калек (изобретательных) на 2 видеокартах. А представляете, если бы хоть кто-то из этих исследователей не сидел на нищем пайке своей конторы, а инвестировал бы миллион долларов в разработку где-нибудь в 2005?
...
Самое смешное, что ситуация точь в точь повторяется сейчас. Есть в произвольной постановке ML-задачи (Supervised, RL, Continual и т.д.). Есть несколько статей где подобное успешно применяют на маленьких задачах, и я не видел за всю жизнь ни одного хорошего аргумента против того, что оно будет работать и дальше (в том числе и потому, что эти статьи вообще никто не обсуждает).
Уже 4 года всё это лежит на полке, и у меня есть ещё примерно 10, чтобы применить её где надо и заработать миллиард. Почему я не скрываю свой план? Ну так вы же всё равно не поверите...