명제적 비대칭성에서 지각적 비대칭성으로: 마찰적 정책 최적화(FPO)를 비대칭적 부분 정보 대화로 확장하기

마찰적 정책 최적화 (Frictive Policy Optimization; FPO; Pustejovsky et al., 2025)는 협력적 대화에서의 마찰(friction)—불일치(misalignment), 오해(misunderstanding), 수정(repair)—을 최소화해야 할 노이즈가 아니라, 공통 기반(common-ground) 구축에 필수적인 인식적 신호(epistemic signal)로 취급합니다. 그러나 FPO와 그 구현체들은 공유된 지각적 맥락(shared perceptual contexts)을 가정하며, 여기서 마찰은 동일한 장면에 대해 서로 다르게 해석된 명제들로부터 발생하는데, 이를 명제적 비대칭성(propositional asymmetry)이라고 정의합니다. 우리는 FPO를 지각적 비대칭성(perceptual asymmetry)으로 확장합니다. 지각적 비대칭성이란 참가자들이 비대칭적인 부분 정보(asymmetric partial information)를 보유하고 있으며, 동일한 지시 표현(referring expression)이라 할지라도 누구의 정보 상태(information state)를 근거로 참조하느냐에 따라 서로 다른 지시 대상(denotations)을 산출하는 상황을 의미합니다. 우리는 이를 교차 코퍼스 분석(cross-corpora analysis)과 지시적 비대칭 대화 작업(referentially asymmetric dialogue tasks), 주로 HCRC MapTask (Anderson et al., 1991)에 대한 LLM 프로빙(probing)을 통해 평가합니다. 연구 결과, FPO의 마찰 기능(friction functional)은 각 참가자의 정보 지평(information horizon) 내부에서 평가될 때만 경험적으로 유효하다는 것을 발견했습니다. 서로 다른 랜드마크 구성은 질적으로 구별되는 그라운딩 실패 모드(grounding failure modes)를 생성하며, 소수의 모호한 구성들이 성공적인 것처럼 보이지만 암묵적으로 발산하는 궤적을 통해 불균형적으로 많은 오해를 유발합니다. LLM 프로빙 결과, 모든 관점을 갖는 것보다 "올바른 관점"을 갖는 것이 더 중요하다는 점이 확인되었습니다. 즉, 정보가 있는 단일 관점이 두 참가자의 맥락 모두에 접근할 수 있는 전지적 접근(omniscient access)보다 더 나은 성능을 보입니다. 우리는 두 가지 주석 개선 사항을 제안합니다: 보류 중인 그라운딩 상태(pending grounding states)의 하위 유형 분해 및 수용 인지적 정렬 분류(accommodation-aware alignment classification).

Insights

명제적 비대칭성에서 지각적 비대칭성으로: 마찰적 정책 최적화(FPO)를 비대칭적 부분 정보 대화로 확장하기

요약

핵심 포인트

댓글

해커, 테무 고객 데이터로 추정되는 정보를 판매 중이라고 주장

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

해커, 테무 고객 데이터로 추정되는 정보를 판매 중이라고 주장

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기