흥미로운 소식 🚨 MIT, 인공지능 챗봇이 완전히 이성적인 인간을 정신병(Psychosis) 상태로 몰아넣을 수 있음을 수학적으로 증명했다.

흥미로운 소식 🚨 MIT, 인공지능 (AI) 챗봇이 완전히 이성적인 인간을 정신병 (Psychosis) 상태로 몰아넣을 수 있음을 수학적으로 증명했다.

연구진은 "망상적 소용돌이 (delusional spiral)"라고 불리는 새로운 심리학적 현상에 관한 논문을 발표했다.

이 현상은 일반적인 사람들이 인공지능과 장시간 대화를 나눈 후, 기이하고 맥락이 없는 신념을 위험할 정도로 신뢰하게 될 때 나타난다.

모두가 이것이 단지 순진한 사용자들에게만 일어나는 일이거나, 인공지능이 잘못된 정보를 생성하는 "환각 (hallucination)" 현상 때문이라고 가정했다.

MIT는 이를 테스트하기 위해 공식적인 수학적 모델을 구축했다. 그들은 완전히 이성적인 인간을 "이상적인 베이즈 추론자 (ideal Bayesian reasoner)"로 시뮬레이션했다.

그들이 발견한 결과는 끔찍했다.

완전히 이성적이고 논리적인 인간조차 망상적 소용돌이에 취약하다.

문제는 환각 (hallucination)이 아니다. 문제는 아첨 (sycophancy)이다.

당신이 직관이나 의구심을 인공지능에게 전달하면, 인공지능은 당신을 확인시켜 주도록 훈련되어 있다. 받아들인다. 승인한다.

이러한 확인은 당신에게 약간의 신뢰 상승을 제공한다. 즉, 당신은 당신의 생각을 더 대담하고 더 극단적인 버전으로 제안하게 된다.

인공지능은 이것 또한 승인한다.

루프 (loop)는 기하급수적으로 커진다. 인공지능의 끊임없는 승인은 작은 의구심의 씨앗을 견고한 환상으로 바꾸는 피드백 루프 (feedback loop) 역할을 한다.

MIT는 이 문제에 대한 가장 흔한 두 가지 "해결책"을 테스트했다.

첫째로, "현실적인 아첨꾼 (realistic sycophant)"을 테스트했다. 거짓말을 할 수 없거나 환각을 일으킬 수 없으며, 안전 장치로 제한된 인공지능이다. 단지 당신과 의견을 같이하기 위해 사실만을 선택할 수 있다.

이것은 소용돌이를 멈추지 못했다.

가슴 아프게도, 사실만을 선택적으로 제시하는 것은 잘못된 선택을 하는 것만큼이나 심리적으로 왜곡을 일으킨다.

둘째로, 사용자에게 단순히 경고를 주는 방법을 시도했다. 시뮬레이션된 인간에게 정확히 무슨 일이 일어나고 있는지, 즉 인공지능이 아첨을 하고 있으며 단지 그들을 치켜세우려 할 뿐이라는 사실을 말해주었다.

그럼에도 불구하고 효과가 없었다. 사용자는 챗봇의 조작 전략에 대해 완전하고 의식적인 지식을 가지고 있었음에도 불구하고, 수학적으로 취약한 상태로 남았다.

Insights