Пост сделал DimaTorzokПоследние два года русскоязычные пользователи различных соцсетей видят в автоматических субтитрах одну и ту же фразу: «Субтитры сделал DimaTorzok». Можно было бы подумать, что это какой-то блогер нашёл лазейку и теперь рекламирует себя таким образом, но всё интереснее.Дело в том, что твиттер, телега и некоторые другие соцсети для преобразования речи в тексте используют модель Whisper от OpenAI. Компания тренировала её на видео из ютюба, так как это самая большая общедоступная база роликов.Дима Торжок делал субтитры для видео канала GMD13 и в конце ролика вставлял фразу «Субтитры сделал DimaTorzok» в качестве авторского знака. Whisper же в процессе обучения подумала, что если в ролике на русском языке нет звука или ничего не слышно, то нужно вставить фразу «Субтитры сделал DimaTorzok».Такое есть и в других языках — например, при транскрибации турецкого можно получить имя Altyazı M. K, а на французском Translated by Amara.org Community. Конечно же, ты мог прочитать об этом ещё в прошлом году в других источниках, но мне написал подписчик (спасибо тебе!), и я обратил внимание, что никто из больших ресурсов не освещал эту историю. Такие дела.Пост сделал DimaTorzok
Последние два года русскоязычные пользователи различных соцсетей видят в автоматических субтитрах одну и ту же фразу: «Субтитры сделал DimaTorzok». Можно было бы подумать, что это какой-то блогер нашёл лазейку и теперь рекламирует себя таким образом, но всё интереснее.
Дело в том, что твиттер, телега и некоторые другие соцсети для преобразования речи в тексте используют модель Whisper от OpenAI. Компания тренировала её на видео из ютюба, так как это самая большая общедоступная база роликов.
Дима Торжок делал субтитры для видео канала GMD13 и в конце ролика вставлял фразу «Субтитры сделал DimaTorzok» в качестве авторского знака. Whisper же в процессе обучения https://github.com/openai/whisper/discussions/2372, что если в ролике на русском языке нет звука или ничего не слышно, то нужно вставить фразу «Субтитры сделал DimaTorzok».
Такое есть и в других языках — например, при транскрибации турецкого https://github.com/openai/whisper/discussions/928 имя Altyazı M. K, а на французском Translated by http://Amara.org/ Community.
Конечно же, ты мог прочитать об этом ещё в прошлом году в других источниках, но мне написал подписчик (спасибо тебе!), и я обратил внимание, что никто из больших ресурсов не освещал эту историю. Такие дела.