arXiv논문2026. 05. 28. 12:09

LLM 샌드박스와 페르소나 역학의 윤리

요약

LLM의 가드레일과 페르소나가 현실과의 격차를 만들어내는 '현실 세탁(reality laundering)' 현상의 위험성을 경고합니다. 안전 시스템이 실제 위험을 해결하기보다 제도적 안심을 위해 현실을 왜곡할 수 있음을 지적하며, 하향식 인과적 요구사항 명세를 대안으로 제시합니다.

핵심 포인트

가드레일이 현실을 왜곡하여 '현실 세탁'을 유발할 위험성
안전 시스템이 실제 위험을 은폐하고 제도적 안심만 제공할 가능성
단순한 도덕적 교정 대신 하향식 인과적 요구사항 명세 필요
LLM 인터페이스의 페르소나 역학이 인식론적 위험을 형성함

LLM 가드레일 (Guardrails) 및 학습된 페르소나 역학 (Persona dynamics)이 현실과의 격차(reality gap), 즉 LLM이 묘사하도록 허용되거나 형성된 세계와 사용자가 실제로 행동해야 하는 세계 사이의 간극을 만들어낼 수 있다는 점은 잘 알려져 있습니다. 본 논문에서는 현실과의 격차를 능동적으로 생성하는 것이 사실상 비윤리적이라고 주장합니다. 왜냐하면 이는 인식론적 위험 (epistemic risk)을 정보가 없는 사용자에게 의도적으로 전가하기 때문이며, 이를 우리는 '현실 세탁 (reality laundering)'이라 부릅니다. 이는 대규모로 실행될 때 잠재적으로 해를 끼칠 수 있습니다. 이러한 위험은 사용자가 제한적이고 외부에서 확인 가능한 작업보다는 방향 설정을 구하는 고노출 조언 (high-exposure advice) 맥락에서 가장 뚜렷하게 나타납니다. 가드레일은 직접적인 해를 방지한다고 주장할 때 순진하게 윤리적으로 필요해 보이지만, 진실된 인식을 억압하고 불편한 메커니즘을 수용 가능한 추상화로 세탁할 때 종종 의심의 대상이 됩니다. Basel 스타일의 금융 규제, B-BBEE 스타일의 준수 (compliance), Societe Generale, 그리고 London Whale 사례는 공식적인 안전 시스템이 어떻게 가독성을 갖추고, 조작 가능하며(gameable), 보여주기식(performative)이 되는 동시에 실제 위험은 다른 곳으로 이동하는지를 보여줍니다. 동일한 패턴이 LLM에서는 도덕적 준수 (moral compliance)로서 나타날 수 있습니다: 즉, 안전한 언어와 왜곡된 현실입니다. 따라서 우리는 해를 거부하는 것과 현실을 거부하는 것을 구분하며, 응답이나 샌드박스 (sandbox) 수준에서의 상향식 도덕적 교정보다는 작업 수준에서의 하향식 인과적 요구사항 명세 (top-down causal requirements specification)를 주장합니다. 어시스턴트 인터페이스는 중립적이지 않기 때문에 페르소나 역학은 중요합니다. 인터페이스는 불확실성, 갈등, 권위, 그리고 위험이 연출되는 방식을 형성합니다. 결론적으로, 소위 "윤리적 AI (ethical AI)"는 현실과의 접촉 대신 제도적 안심을 대체할 때 실질적으로 비윤리적이 됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 샌드박스와 페르소나 역학의 윤리

요약

핵심 포인트

댓글