arXiv논문2026. 06. 04. 12:05

NoRA: 시각적 1인칭 규범적 행동 추론에서의 근거 기반 합리성 평가

요약

시각적 1인칭 환경에서 에이전트의 규범적 행동과 그 근거를 평가하는 새로운 벤치마크 NoRA를 제안합니다. 기존의 단순 선택 방식에서 벗어나, 사실-이유-행동 지원 그래프를 통해 모델이 행동의 정당성을 시각적 근거로 입증할 수 있는지 측정합니다.

핵심 포인트

시각적 1인칭 비디오 기반의 NoRA 벤치마크 소개
단순 행동 선택을 넘어 근거 기반의 합리성 평가 지향
사실-이유-행동 지원 그래프를 통한 정당성 검증
현재 VLM의 시각적 근거 결합 능력 한계 확인

LLM (Large Language Models) 및 에이전트 시스템 (agentic systems)이 사회적 환경에 점점 더 많이 배치됨에 따라, 안전하고 적절한 행동을 위한 규범적 역량 (normative competence)이 매우 중요해지고 있습니다. 그러나 기존의 접근 방식은 규범적 판단을 텍스트로만 평가하거나, 고정된 후보 행동 세트 중에서 선택하는 문제로 축소하여 다룹니다. 우리는 이 두 가지 방식 모두 불충분하다고 주장합니다. 실제로 에이전트는 선택지 메뉴를 제공받는 것이 아니라, 눈에 보이는 사실에 근거하고 검토 가능한 이유에 의해 뒷받침되는 합리적인 행동을 처음부터 식별해야 합니다. 우리는 모델이 후보 다음 행동을 생성하고, 명시적인 사실-이유-행동 지원 그래프 (fact-reason-action support graph)를 통해 각 행동을 정당화해야 하는 시각적 1인칭 비디오 벤치마크인 NoRA를 소개합니다. 이 벤치마크는 HumanGold-190 및 LLMSilver-1230 분할을 포함하여 주석이 달린 1,420개의 비디오 클립으로 구성됩니다. 각 사례는 행동 정렬 (action alignment), 사실적 근거 (factual grounding), 그리고 지원 결합 (support binding)을 통해 평가되며, 이는 단일한 근거 기반 합리성 점수 (grounded reasonableness score)로 집계됩니다. 우리는 직접적 (direct), 심사숙고형 (deliberate), 구조적 (structured) 프롬프팅 체제 하에서 12개의 멀티모달 시스템을 벤치마킹하였으며, 현재의 VLM (Vision-Language Models)이 그럴듯한 행동과 관련 장면 사실을 빈번하게 회복하지만, 전체적인 합리적 행동 공간을 구축하고 선택된 행동을 올바른 국소적 지원 (local support)에 결합하는 데에는 지속적으로 어려움을 겪는다는 것을 발견했습니다. NoRA는 이러한 격차를 측정 가능하게 만들어, 평가의 질문을 '모델이 행동을 선택할 수 있는가'에서 '모델이 올바른 시각적 이유를 바탕으로 적절한 행동을 정당화할 수 있는가'로 전환합니다.

AI 자동 생성 콘텐츠

원문 바로가기

NoRA: 시각적 1인칭 규범적 행동 추론에서의 근거 기반 합리성 평가

요약

핵심 포인트

댓글