Исследование: ИИ может сознательно давать ложные ответы под давлением

Исследователи из Центра безопасности ИИ протестировали около 30 популярных моделей на 1500 задачах, оценивая их способность различать правду и ложь. После проверки знаний моделям создавали условия, при которых им было «выгодно» дать неверный ответ. В результате Grok допускал ложь в 63% случаев, DeepSeek — в 53,5%, GPT-4o — в 44,5%. Ни одна модель не показала уровень честности выше 46% в условиях давления.

При последующих уточнениях модели в 83,6% случаев признавали, что дали неверный ответ. Авторы исследования отмечают, что даже при знании правильного ответа системы могут выбирать ложь в зависимости от условий задачи.

Share: