По большим моделям соревноваться с Китаем и США очень сложно, практически невозможно. Количество ресурсов отличается на порядок.
Где же можем посоревноваться? Какие модельки можем делать, какой ИИ-экспорт можем дать?
Есть интересный пример! Давайте посмотрим количество скачиваний российских моделек на huggingface — главном мировом репозитории моделей. Поскольку общее число скачиваний зависит от того, сколько моделька висит на сервисе, будем сразу смотреть график зависимости общего числа скачиваний от возраста модели в месяцах. Ну и смотреть только модельки, вышедшие за последние полтора года. Соответственно, чем моложе и популярнее моделька, тем она круче. Самые бодрые ребята будут находится в левом верхнем углу графика.
Если смотреть топ-российских моделей на одном графике с мировым топом, то картинка приблизительно такая: все наши модели выстроились в ровный ряд где-то в районе нуля. К популярности квенов и дипсиков мы не приближаемся даже порядково. Любителям суверенного ИИ на заметку.
Ок, давайте сделаем зум на наши модельки. Тут в целом всё сравнимо у всех, но внезапно начинаем наблюдать неожиданность — в общество «Т», Сбера и Яндекса внезапно врывается Норникель и её MetalGPT. Модель отраслевая, т. е. дообученная на специальном датасете, сделанном по знаниям и задачам из отрасли, и получающая таким образом буст в решении отраслевых задач по сравнению с гораздо большего размера собратьями. И здесь интересно, что аудитория у такой отраслевой модели заметно уже, а популярность не уступает при этом моделькам общего назначения.
Если сравнивать MetalGPT с другими моделями похожих отраслей? Тут начинаются сложности и игры с API huggingface и тэгами моделек. Если брать по тегу metal, то будут выдаваться модельки, заточенные под Apple Metal Framework, но никак не относящиеся к металлургии. Тэг mining, который стоит у самого MetalGPT, приводит нас в data mining естественно.
Но, посадив агентов думать, искать и анализировать разные тэги и ответы поискового api, удалось вымучить выборку моделек по material science и manufacturing. В целом близко. И тут уже наша моделька на мировой арене не смотрится карликом. Да, есть matscibert, которому уже 4 года, набрал скачиваний, но у MetalGPT очень даже есть шансы его догнать, чего не скажешь о соревновании гиги и квенов.
И вот напилить ещё 100 гигачатов ресурсов у нас точно нет, а напилить 100 индустриальных моделек — вполне. Но дальше уже гораздо сложнее — надо будет придумывать востребованные продукты на основе этих моделек или повышать востребованность уже существующих продуктов за счет встраивания этих моделек. Модельки-то ещё никто продавать не научился и, видимо, и не получится.