Стоп-слово для AI
Страшная история про самоуправство ИИ и репутацию
... Она в панике бежала к своему Mac mini, чтоб остановить AI-агента OpenClaw, спокойно удалявшего все входящие сообщения ее почты. А затем написала об этом в Х\Twitter. Кто эта прекрасная леди?
Любимое мной независимое https://www.404media.co/meta-director-of-ai-safety-allows-ai-agent-to-accidentally-delete-her-inbox/ Джозефом Коксом во главе https://www.404media.co/meta-director-of-ai-safety-allows-ai-agent-to-accidentally-delete-her-inbox/ пушечную историю, когда техническая ошибка топа быстро становится репутационной. Мемы по ней уже
https://t.me/alukatsky а мы посмотрим на саму коммуникацию.
Саммер Юэ глава подразделения Meta*, которое работает над ИИ-системой, превосходящей человеческий интеллект, экспериментировала с OpenClaw. Это ИИ-агент, который может выполнять задачи почти без надзора человека. На прошлой неделе, кстати, создателя OpenClaw наняла OpenAI.
Так вот Юэ, руководитель, который по идее должен следить, чтобы ИИ-инструменты не уходили в делирий и не действовали против интересов людей, внезапно поняла, что OpenClaw не выполняет инструкции.
«Ничто так не возвращает на землю, как сказать своему OpenClaw “подтверждай перед действиями” и увидеть, как он в ускоренном режиме начинает удалять твой инбокс. Я не могла остановить его с телефона. Мне пришлось БЕЖАТЬ к своему Mac mini, как будто я обезвреживаю бомбу».
Еще чего не хватало, мисс Юэ. На скринах ее переписки она умоляет ИИ "не делать этого", "стоп, ничего не делай" и "STOP OPENCLAW". В свое оправдание леди написала в посте, что промт содержал инструкцию "предложи заархивировать или удалить старые сообщения, но ничего не делай, пока я не подтвержу". Это прекрасно работало с ее тестовым ящиком. Но рабочий оказался пожирнее и ИИ просто решил, что лишнее там примерно всё.
Про OpenClaw известно, что он экспериментальный, имеет
https://t.me/true_secator и запросы понимает не всегда. Он формально следует инструкциям, но делает это неожиданным способом. Например, он может опустошать ваш кошелек, тратя по $0,75 каждые 30 минут на проверку, не настал ли уже ваш золотой день инвестора 😅
И Илон Маск, и пара тысяч пользователей взметнули волны хейта в X. Если нежно перевести их сообщения, то посыл такой:
Наблюдать, как человек, отвечающий за безопасность мощных ИИ-инструментов в одной из крупнейших технологических компаний мира, доверяет ИИ-агенту, о котором известно, что он несет серьезные риски безопасности, не очень-то вдохновляет.
Чем занимаются и кого вообще нанимают в Meta* и другие большие ИИ-компании?
Сама сцена “директор по safety/alignment публично описывает, как ее же агент ведет себя небезопасно” работает как антиреклама контроля и надежности
Но я бы просто предложила ей придумать стоп-слово для своего ИИ-агента. А вот руководителям, которые ведут свои блоги (даже с припиской: это мое личное мнение и оно не имеет отношения к моему работодателю) следует знать: отношение имеет всё. И если вы профессиональный сантехник, то выкладывать фото на фоне собственного протекающего фарфорового трона, не стоит.
Что бы вы делали на месте пиара Meta*?
😂 — а уже всё, коммуникационный эффект случился
❤️— пересмотрели бы инструкции для ведения соцсетей топов
👍 — Юэ просто потроллила Альтмана, нанявшего разраба OpenClaw, это анти-PR
* — запрещенная в РФ, экстремистская организация