⚫️ Anthropic з'ясували, як мислять нейромережі
Що розумнішими та здібнішими стають великі мовні моделі, то більше їхній шлях до відповіді на будь-який запит стає неочевидним. Усередині "чорної скриньки" LLM відбуваються мільярди обчислень - і навіть розробники не розуміють стратегію, за якою нейромережа приходить до відповіді, зазначають дослідники стартапу Anthropic.
У нових наукових роботах вони змогли наблизитися до опису того, як значення в матрицях всередині нейромережі перетворюються на осмислені для людей фрази. В одній зі статей дослідники порівнюють свій підхід із тим, як нейробіологи створюють "схему електропроводки" мозку живої істоти.
"У міру того як моделі стають дедалі складнішими, стає дедалі менш очевидним, що насправді відбувається в них усередині. Дуже важливо мати можливість простежити внутрішні кроки, які модель може здійснювати у своїй голові",
- зазначає дослідник Anthropic Джек Ліндсі.
Що дізналися Anthropic:
➡️ Claude спілкується десятком мов, але його мислення відбувається універсальною мовою смислів, і лише наприкінці процесу модель перекладає смисли зрозумілою користувачеві мовою.
➡️ Claude планує відповіді на багато ходів уперед. Це проявляється, зокрема, й у написанні віршів: модель не імпровізує, а заздалегідь обирає варіанти рим, що визначають, як буде будуватися весь рядок цілком. При цьому ШІ проявляє гнучкість, якщо промпт змінюється.
➡️ Модель іноді здатна на правдоподібні, але фальшиві міркування, щоб обґрунтувати правильну, на її думку, відповідь. Коли боту ставлять завдання поза компетенцією - наприклад, виконати математичні обчислення, яких його не навчали, він може просто вигадати відповідь. При цьому серед досліджених моделей Claude найменш схильний до галюцинацій.
➡️ Заплутавши модель, можна "зламати" її і змусити видати заборонену інформацію. Наприклад, Claude за звичайних обставин ніколи не напише інструкцію зі створення бомби. Але, коли дослідники попросили його розшифрувати фразу, яка в скороченні утворює слово bomb, він "відволікся" і все-таки видав небезпечні дані.