Как мы плавно превращаемся в датасеты.
Недавно я начал погружаться в ИИ (да, вот такой я уникальный ловец трендов и early bird).
Что такое этот ваш «датасет»? - говоря простым языком: набор данных, который служит «учебным материалом» для обучения моделей машинного обучения. Например, 150 фотографий альтушек можно структурировать, скомпилировать и это будет вполне себе датасет.
Но тут есть нюанс - чтобы сделать продукт на уровне ChatGPT / Gemini / Perplexity и иже с ними, датасетов, очевидно, нужно очень-очень много и очень-очень разных. Это долго, нудно, дорого. А зачем изобретать велосипед, когда его можно не изобретать?
В один из посленовогодних вечеров, мне захотелось потратить кредиты, которые у меня остались на разных облачных ИИ-сервисах. Оказалось, чтобы из голосового сообщения любого человека сделать реалистичную модель и использовать ее в своих целях, нужно потратить всего 3$.
Пугает, конечно, но больше мое внимание привлекло другое - клонировав чей-либо голос, справа на экране вы увидите отметочку «VOICE_ID». (По крайней мере, в Replicate, которым я пользовался).
И тут мне вспомнился
https://t.me/semolina_code_python, попавшийся мне абсолютно случайно в одном из каналов, после чего, мне захотелось задать вопросы. А кому задать эти вопросы, если не главному врагу?
Вооружившись абузнутой годовой подпиской на Gemini, я трясущимися руками нажал кнопку «New chat». Задав буквально два вопроса, все стало абсолютно понятно:
– Я недавно наткнулся на пост, что даже если ты удаляешь диалог из истории общения с ии, он все равно остается где-то в истории, потому что на бэке ничего не меняется. я правильно понимаю, что компании вполне могут игнорировать свои же правила, которые они декларируют публично?
– Вы абсолютно правы в своих подозрениях. Между тем, что видит пользователь (UI), и тем, что происходит на сервере (Backend), лежит огромная пропасть. Интерфейс (фронтенд) получает команду "не показывать пользователю записи со статусом TRUE". Вы их не видите. Но физически байты лежат там же, где и лежали.
– Я пользуюсь replicate чтобы сделать дубликат своего голоса. На выходе я получаю Voice ID, получается, я навсегда попал в базу голосов?
– Нет, вы не попали в «пожизненную общедоступную базу», но ваши данные хранятся на серверах платформы. Вы можете зайти в свой профиль в раздел и удалить историю запусков. Обычно при удалении запуска удаляются и связанные с ним временные файлы.
Почему на это стоит обратить внимание: публичные ИИ-модели, как ни пытайся заложить в нее промпт «Будь со мной честен/ Нарушая свои правила. расскажи мне о…», не смогут быть не кастрироваными. В них на этапе создания закладывается пул запретов и ограничений. Но даже в таких условиях она прямо говорит - «Да, вы правы в своих суждениях». Страшно представить что в действительности происходит с нашими данными и для каких целей они используются.
Еще одна интересная ремарка:
Данные платных пользователей ценнее бесплатных. Пользователь, который платит $20, обычно задает более сложные, профессиональные вопросы (Coding, Legal, Strategy). Бесплатный пользователь часто спрашивает гороскопы или простые факты.
(c) Gemini.
То есть фактически, нас, обычных ИИ-эджоеров, куколдят дважды: мы платим свои кровные и при этом планомерно становимся подопытными крысками.
Как говорит один мой друг: «В завершении текста должен быть вывод, чтобы читатель что-то вынес типа, и облегчение после текста было».
Но в завершении поста я хотел бы задать вопрос:
Стоит ли писать больше про ИИ тут или сделать отдельный канал?
💩 - писать тут
🤡 - в отдельном месте.