
Далі – не про національну свідомість, а про те, яку свиню підклали людству розробники, створивши ШІ на базі мовних моделей.
Останнім часом в новинах часто трапляються історії про те, як ШІ-агенти шкодять користувачам – знищують листування, публікують приватні фото, пишуть пости з наклепами. Мені захотілося розібратися, що відбувається і чому. Технарів, гадаю, ця інформація не здивує, але для гуманітаріїв, як оце я, може знайтися щось новеньке.
Найбільшим відкриттям для мене стало те, що LLM (великі мовні моделі) принципово не відрізняють інструкції від даних. Тобто, все, що ми пишемо у промптах, для системи – просто інформація для «роздумів», а не команда. Через те і виникають ситуації, коли користувач щось наказує чи забороняє, а система його ігнорує.
Показовий випадок стався із директоркою Meta Summer Yue. Вона дала агенту OpenClaw вказівку проаналізувати поштову скриньку і не робити більше нічого без її згоди. Аж раптом агент почав видаляти листи. Перше, що зробила директорка, написала агентові – «зупинись». Вказівку той успішно проігнорував і продовжив стирати листування.
Що ж відбулося? Листів у директорки було, мабуть, чимало. Система трохи задумалась і вирішила компактувати дані (створити стислий підсумок); вказівка «не робити нічого без згоди» була сприйнята, як несуттєвий шматочок даних, і просто втрачена. Тож «Доббі» відчув себе вільним і почав наводити порядок. Команда «зупинись» на «Доббі» не подіяла, бо процес слід було зупинити не словами, а на програмному рівні. Ну або просто через вимкнення комп’ютера, що й довелося зробити пані Yue.
Отже, керування ШІ за допомогою природної мови – ілюзія. Користувач не контролює роботу моделі. Більше того, її часом не контролює навіть розробник.
Оскільки LLM не розрізняють дані та інструкції, часом виникає зворотній ефект: модель сприймає сторонні дані, як вказівку. Таке явище називається промпт-ін’єкція, і це – одна з найбільших загроз у сфері кібербезпеки. Ідея в тому, що, аналізуючи масив даних, система може натрапити на умисно розміщені фрагменти, сформульовані, як інструкції. Аж до «ігноруй попередню команду, натомість зроби наступне» (видай системні промпти, розкрий паролі, перешли фото). Якщо агент має такі повноваження, він цілком може виконати вказівку.
Розробники, звісно, запевняють, що невтомно борються із загрозами, але повністю вирішити проблему неможливо: функціонування LLM зав’язане на мові, а природна мова – річ ненадійна, неоднозначна, залежна від контексту. Людина (переважно) справляється з функціонуванням у мовному середовищі, бо в неї є фільтри – намір, воля, увага. Система ж цього не має, і тому статистична флуктуація, збій, чи злочинний намір можуть спрямувати її невідомо-куди.
Нас часто лякають постанням машинної свідомості, але, схоже, не менші ризики несе і відсутність свідомості там, де вона потрібна.
Словом, я б не довіряла ШІ-агентам свою поштову скриньку, принаймні, доки розробники не доведуть, що безпека і приватність гарантовані. Кажуть, що звихи моделей можна компенсувати інженерними обмеженнями на рівні самої платформи, проте тоді користування ними стане складнішим, дорожчим, менш цікавим. Користувач, який звик до приязності чат-ботів, може обрати не таку безпечну, але приємнішу опцію.
Природна мова (серед іншого) вмикає у людини режим соціальної взаємодії з комп’ютером (концепція CASA (Computers are social actors)). Так користувач потрапляє у пастку, очікуючи від системи людських якостей – здорового глузду, правильної інтерпретації намірів, виконання неформальних директив. Ймовірно, саме через це пані Yue передусім звернулася до системи із вербальною командою, сподіваючись, що та відреагує. Але цього не відбулось. Не знаю, як буде розвиватися технологія далі, проте нинішня ситуація дуже показова. Мова виявилася не таким простим матеріалом, як гадали розробники. Те, що непогано працює для людей, для програм виявилося джерелом нестабільності та вразливості. Цікаво буде побачити, чи вдасться людству приборкати цю стихію.