명제적 비대칭성에서 지각적 비대칭성으로: 마찰적 정책 최적화(FPO)를 비대칭적 부분 정보 대화로 확장하기
요약
FPO(마찰적 정책 최적화)를 명제적 비대칭성을 넘어 지각적 비대칭성 상황으로 확장하는 연구를 소개합니다. 참가자들이 서로 다른 부분 정보를 가질 때 발생하는 그라운딩 실패 모드를 분석하고, 전지적 접근보다 특정 관점을 갖는 것이 대화 성능에 더 효과적임을 입증했습니다.
핵심 포인트
- FPO를 비대칭적 부분 정보 대화인 지각적 비대칭성으로 확장
- LLM 프로빙을 통해 정보 지평 내에서의 마찰 기능 유효성 확인
- 전지적 접근보다 특정 관점을 보유하는 것이 대화 성능에 유리함
- 그라운딩 상태 하위 유형 분해 및 수용 인지적 정렬 분류 제안
마찰적 정책 최적화 (Frictive Policy Optimization; FPO; Pustejovsky et al., 2025)는 협력적 대화에서의 마찰(friction)—불일치(misalignment), 오해(misunderstanding), 수정(repair)—을 최소화해야 할 노이즈가 아니라, 공통 기반(common-ground) 구축에 필수적인 인식적 신호(epistemic signal)로 취급합니다. 그러나 FPO와 그 구현체들은 공유된 지각적 맥락(shared perceptual contexts)을 가정하며, 여기서 마찰은 동일한 장면에 대해 서로 다르게 해석된 명제들로부터 발생하는데, 이를 명제적 비대칭성(propositional asymmetry)이라고 정의합니다. 우리는 FPO를 지각적 비대칭성(perceptual asymmetry)으로 확장합니다. 지각적 비대칭성이란 참가자들이 비대칭적인 부분 정보(asymmetric partial information)를 보유하고 있으며, 동일한 지시 표현(referring expression)이라 할지라도 누구의 정보 상태(information state)를 근거로 참조하느냐에 따라 서로 다른 지시 대상(denotations)을 산출하는 상황을 의미합니다. 우리는 이를 교차 코퍼스 분석(cross-corpora analysis)과 지시적 비대칭 대화 작업(referentially asymmetric dialogue tasks), 주로 HCRC MapTask (Anderson et al., 1991)에 대한 LLM 프로빙(probing)을 통해 평가합니다. 연구 결과, FPO의 마찰 기능(friction functional)은 각 참가자의 정보 지평(information horizon) 내부에서 평가될 때만 경험적으로 유효하다는 것을 발견했습니다. 서로 다른 랜드마크 구성은 질적으로 구별되는 그라운딩 실패 모드(grounding failure modes)를 생성하며, 소수의 모호한 구성들이 성공적인 것처럼 보이지만 암묵적으로 발산하는 궤적을 통해 불균형적으로 많은 오해를 유발합니다. LLM 프로빙 결과, 모든 관점을 갖는 것보다 "올바른 관점"을 갖는 것이 더 중요하다는 점이 확인되었습니다. 즉, 정보가 있는 단일 관점이 두 참가자의 맥락 모두에 접근할 수 있는 전지적 접근(omniscient access)보다 더 나은 성능을 보입니다. 우리는 두 가지 주석 개선 사항을 제안합니다: 보류 중인 그라운딩 상태(pending grounding states)의 하위 유형 분해 및 수용 인지적 정렬 분류(accommodation-aware alignment classification).
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기