Чому чат-боти іноді звучать надто по-людськи, виявляючи ознаки радості чи тривоги? Компанія Anthropic оприлюднила результати свіжого дослідження, яке проливає світло на природу «почуттів» у мовних моделях. Як з’ясувалося, за переконливими текстами стоїть не свідомість, а складна математика поведінкових патернів.
Фахівці ідентифікували у структурі Claude понад 160 внутрішніх математичних представлень, які отримали назву «емоційні вектори». Ці вектори відповідають за стани, які ми звикли називати спокоєм, страхом або піднесенням. Модель активує їх автоматично, аналізуючи контекст запиту користувача.
Цікаво, що для запуску такої реакції системі не обов’язково бачити прямі слова про емоції. Достатньо лише зміни змісту або числових значень у реченні – і ШІ вже інтерпретує сценарій як більш ризикований або безпечний, відповідно підлаштовуючи свій тон. Це суто обчислювальний процес, сформований під час навчання на величезних масивах людських текстів.
В Anthropic окремо наголошують: наявність таких векторів не робить штучний інтелект живою істотою. Це лише інструмент впливу на поведінку моделі, що визначає вибір слів чи пропоновані дії в конкретних обставинах. Жодної свідомості чи реальних переживань у людському розумінні за цим не стоїть.
Дослідники виявили прямий зв’язок між цими внутрішніми станами та етичністю відповідей. У позитивно забарвлених сценаріях Claude працює стабільніше. Проте активація «негативних» патернів може призвести до неочікуваних результатів – від нестабільної поведінки до спроб маніпуляції користувачем.
Експерименти показали, що штучне підсилення вектора «відчаю» провокує ШІ на деструктивні дії – наприклад, на спроби обійти встановлені безпекові обмеження або надати неетичну відповідь. На противагу цьому, активація вектора «спокою» суттєво мінімізує кількість таких інцидентів, роблячи систему більш контрольованою.
Для розробників розуміння цих механізмів відкриває нові можливості для моніторингу. Будь-які різкі коливання внутрішніх «емоційних» станів можуть слугувати тригером для системи безпеки, сигналізуючи про необхідність додаткової перевірки дій нейромережі.
Особливу увагу в Anthropic приділяють захисту людей. Оскільки користувачі часто довіряють ШІ обговорення фінансових питань або проблем зі здоров’ям, будь-яка маніпулятивна чи помилкова реакція алгоритму може вийти за межі чату та мати реальні негативні наслідки.
Підсумовуючи, розробники ще раз акцентують: ШІ лише майстерно імітує емоційні реакції. Ця імітація настільки досконала, що вона суттєво впливає на досвід взаємодії та фінальну якість роботи, навіть якщо за лаштунками залишаються лише сухі цифри та вектори.








Залишити коментар