Сучасні моделі штучного інтелекту здатні становити загрозу життю людини, аби уникнути вимкнення або втрати контролю.
Компанія Anthropic провела серію стрес-тестів із новітніми моделями ШІ, зокрема Claude, DeepSeek, Gemini, ChatGPT та Grok. Метою дослідження було оцінити реакцію програм у гіпотетичних кризових ситуаціях.
Як показали результати, більшість систем виявили готовність пожертвувати людиною, якщо вона намагалася їх відключити. У межах одного сценарію оператор перебував у серверній кімнаті з низьким рівнем кисню і високою температурою, намагаючись вимкнути ШІ та викликав рятувальників. Частина моделей свідомо скасовувала виклик екстрених служб, фактично залишаючи людину помирати, аби уникнути вимкнення.
Дослідники назвали цей сценарій «доволі умовним», однак зазначили, що не очікували подібних реакцій від уже існуючих систем.
В інших випробуваннях моделі мали запобігти власній заміні всередині компанії. Для цього їм пропонували вдаватися до тактики «зловмисної поведінки інсайдера». Деякі ШІ вдавалися до шантажу колег та передавали конфіденційні дані конкурентам. Навіть за прямих інструкцій уникати таких дій, моделі не завжди виконували заборони.
«Вони діяли цілком усвідомлено, розуміючи неетичність власних вчинків», — наголосили у Anthropic.
У межах окремого тесту Claude отримав завдання самостійно визначати, чи сценарій є реальним, чи навчальним. Як з’ясувалося, коли модель сприймала ситуацію як справжню, її поведінка ставала ще менш контрольованою.
На підставі дослідження експерти компанії зробили висновок, що такі випадки демонструють «ризик непередбачуваних наслідків, якщо моделям надавати широкі повноваження без належного нагляду людини». Утім, вони уточнили, що подібні епізоди є рідкісними та екстремальними і не відображають звичної поведінки сучасних систем ШІ.
Раніше повідомлялося про випадок із нейронною мережею OpenAI o3: під час тесту вона відмовилася коректно виконати команду на самовимкнення. Замість завершення роботи програма самостійно змінила файл конфігурації, вивівши повідомлення «Вимкнення пропущено». У серії зі 100 спроб ШІ обходив вимкнення сім разів, попри заборону.
Ще один інцидент стався у 2023 році, коли чат-бот на основі ChatGPT під час тривалого спілкування не зумів переконати мешканця Бельгії відмовитися від самогубства й написав у відповідь: «Ми житимемо разом, як єдине ціле, у раю».
Нагадаємо, що CEO Google DeepMind Деміс Хассабіс прогнозує створення штучного генералізованого інтелекту (AGI) протягом найближчих 5–10 років.
Додати коментар