Microsoft намагається зробити так, щоб користувачам було складніше обманювати чат-боти зі штучним інтелектом, змушуючи їх робити дивні або неоднозначні речі. Про це пише Bloomberg.
Для цього компанія розробила спеціальні інструменти, які вбудовано в Azure AI Studio – сервіс, котрий дозволяє створювати персоналізованих ШІ-помічників.
Ці інструменти містять спеціальні prompt shields, мета яких полягає у виявленні та блокуванні навмисних спроб змусити ШІ-модель поводитися непередбачуваним чином.
Крім цього, Microsoft бореться з indirect prompt injections, коли хакери вставляють шкідливі інструкції в навчальні дані, змушуючи модель виконувати такі незаконні дії, як-от крадіжка інформації або захоплення системи.
У Microsoft пояснюють, що нові засоби захисту покликані виявляти підозрілі вхідні дані та блокувати їх в режимі реального часу. Компанія також впроваджує функцію, яка попереджає користувачів, коли модель вигадує щось або генерує помилкові відповіді.