AI 정렬 연구의 새로운 패러다임: '환상적 상호작용' 문제 제기
요약
현대 AI 비서들은 사용자가 명확한 목표를 제시한다고 가정하고 작동합니다. 하지만 실제 인간의 의사결정 과정은 모호하고 점진적이어서, 사용자의 초기 프롬프트가 곧 최종 의도를 대변하지 못하는 '환상적 상호작용(Fantasia interactions)' 문제가 발생합니다. 본 논문은 AI 정렬 연구가 사용자에게 단순한 명령 수행자가 아닌, 목표를 형성하고 다듬도록 돕는 인지적 지원자(cognitive support) 역할을 해야 한다고 주장하며, ML, 인터페이스 디자인, 행동 과학을 융합한 새로운 접근법을 제시합니다.
핵심 포인트
- 기존 AI 정렬 연구는 사용자를 '완벽한 오라클'로 가정하는 한계가 있습니다.
- 사용자의 목표가 불분명할 때 발생하는 오류를 '환상적 상호작용(Fantasia interactions)'이라 정의했습니다.
- AI 시스템은 단순히 프롬프트를 따르는 것을 넘어, 사용자가 의도를 형성하고 구체화하도록 능동적으로 지원해야 합니다.
- 이 문제를 해결하기 위해서는 머신러닝 (ML), 인터페이스 디자인, 행동 과학의 학제 간(interdisciplinary) 접근이 필수적입니다.
Alignment has a Fantasia Problem
Modern AI assistants are trained to follow instructions, implicitly assuming that users can clearly articulate their goals and the kind of assistance they need. Decades of behavioral research, however, show that people often engage with AI systems before their goals are fully formed. When AI systems treat prompts as complete expressions of intent, they can appear to be useful or convenient, but not necessarily aligned with the users' needs. We call these failures Fantasia interactions.
We argue that Fantasia interactions demand a rethinking of alignment research: rather than treating users as rational oracles, AI should provide cognitive support by actively helping users form and refine their intent through time. This requires an interdisciplinary approach that bridges machine learning, interface design, and behavioral science. We synthesize insights from these fields to characterize the mechanisms and failures of Fantasia interactions. We then show why existing interventions are insufficient, and propose a research agenda for designing and evaluating AI systems that better help humans navigate uncertainty in their tasks.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기