LLM의 위험 결정에서 결과 수준의 유사성과 메커니즘 수준의 정렬 탐구: St. Petersburg Game을 통한 증거
요약
LLM이 위험 결정 과업에서 인간과 유사한 결과를 내더라도, 실제 의사결정 메커니즘은 인간과 다를 수 있음을 St. Petersburg game 실험을 통해 증명했습니다. 연구 결과, 표면적인 행동 정렬이 내부적인 메커니즘 정렬을 보장하지 않으므로 고위험 평가 시 메커니즘 수준의 검토가 필요함을 강조합니다.
핵심 포인트
- LLM의 위험 결정 결과는 인간과 유사할 수 있으나 메커니즘은 다를 수 있음
- St. Petersburg game을 통해 모델의 의사결정 패턴 분석
- 지시어 튜닝이 표면적 행동은 개선하지만 메커니즘 변화는 미미함
- 고위험 평가 시 결과뿐만 아니라 메커니즘 수준의 일관성 검증 필요
LLM(Large Language Models)은 위험 결정(risk decision-making) 과업에서 신중해 보일 수 있지만, 신중해 보이는 출력이 반드시 인간의 의사결정 메커니즘(decision-making mechanisms)과 정렬(alignment)되어 있음을 의미하지는 않습니다. 본 연구에서는 기대 수익이 무한하지만 인간은 일반적으로 낮고 유한한 지불 의사를 보고하는 고전적 역설인 St. Petersburg game을 통제된 테스트베드(testbed)로 사용하여 이러한 차이를 조사합니다. 우리는 원본 게임, 절단(truncation), 반복 플레이(repeated play), 수치적 보유량(numeric endowment) 및 직업적 정체성(occupational identity)을 변형한 통제된 결정 변형 모델, 모델이 인간 의사결정자처럼 추론하도록 요청하는 인간 관점 프롬프트(human-perspective prompt), 그리고 베이스 모델(base models)과 지시어 튜닝(instruction-tuned) 모델 간의 쌍체 비교를 포함하는 구조화된 프롬프트 제품군을 통해 28개의 LLM을 평가합니다. 원본 게임에서 대부분의 모델은 유한한 입찰가(bids)를 생성하여 인간과 유사한 위험 행동을 보이는 것처럼 나타납니다. 그러나 이러한 결과 수준의 유사성(outcome-level resemblance)은 상당한 메커니즘 수준의 차이(mechanism-level differences)를 가리고 있습니다. 통제된 변형 모델들을 통해 확인한 결과, 모델들은 원본 게임에서 보이는 인간과 유사한 행동을 유지하기보다는 종종 조건부적이고 계산적으로 합리적인(computationally rational) 행동으로 전환합니다. 인간 단서 프롬프팅(Human-cue prompting)과 지시어 튜닝(instruction tuning)은 종종 입찰가를 낮추고 일부 눈에 보이는 병리적 현상(pathologies)을 줄여주지만, 대부분의 메커니즘 수준의 응답 패턴은 크게 변하지 않은 채로 남아 있습니다. 이러한 발견은 위험 결정에서의 행동적 정렬(behavioral alignment)이 표면적일 수 있음을 보여줍니다. 즉, LLM은 인간과 일치하는 메커니즘을 보이지 않으면서도 인간과 유사한 위험 결정을 내릴 수 있습니다. 따라서 LLM 의사결정에 대한 고위험 평가(High-stakes evaluations)는 결과의 유사성을 넘어, 정렬이 메커니즘 수준의 일관성(mechanism-level consistency)에 의해 뒷받침되는지를 검토해야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기