행동하기 전에 세상에 물어보기: 월드 모델 보정(World-Model Calibration)을 위한 예산 기반 환경 탐색(Budgeted

장기적 관점(Long-horizon)의 언어 에이전트(language agents)는 단순히 행동을 선택하는 것에 그치지 않고, 하나의 결정에서 다음 결정으로 이어지는 개인적인 월드 모델(world model)을 보유합니다. 이 모델이 드리프트(drift)될 경우, 나중에 발생할 실패는 실패하는 행동을 취하기도 전에 결정될 수 있습니다. 우리는 직접적인 복구 메커니즘을 연구합니다. 에이전트는 다음 작업 행동을 실행하기 전에, 하나의 신념 영역(belief field)에 대해 환경에 질문하고 그 답변을 자신의 월드 모델에 다시 기록할 수 있습니다. 이는 환경 상호작용(environment interaction)을 단순히 작업을 진행하는 수단이 아니라, 희소한 보정(calibration) 자원으로 만듭니다. 우리는 구조화된 신념 테이블(structured belief tables)을 위한 예산 기반 탐색 연산자인 \method를 소개합니다. 유용한 탐색(probe)은 모든 곳에서 동일하지 않습니다. 도구 의존성(tool dependencies)과 같은 절차적 신념(procedural beliefs)은 종종 표적화된 확인(targeted checks)을 통해 복구될 수 있지만, 이러한 확인은 작업에 필요할 수도 있는 스텝(steps)을 소모합니다. 객체 위치(object locations) 및 그래프 엣지(graph edges)와 같은 공간적 신념(spatial beliefs)은 구조적 단서(structural cues)에 더 많이 의존합니다. 세상이 화면 밖에서 변할 때 에이전트 자신의 확신(confidence)은 좋지 않은 가이드가 될 수 있습니다. 유형별 계층화 분석(A type-stratified analysis)은 이러한 탐색-행동 경계(probe-action frontier)를 공식화하며, 통제된 실험을 통해 탐색 정책(probe policy)이 작업의 구조를 따를 때 계획 중간의 환경 증거가 최종적인 월드 모델 오류(terminal world-model error)를 줄인다는 것을 보여줍니다.

Insights

행동하기 전에 세상에 물어보기: 월드 모델 보정(World-Model Calibration)을 위한 예산 기반 환경 탐색(Budgeted

요약

핵심 포인트

댓글

Evo-PI: 진화하는 원칙 기반 감독을 통한 의료 추론 정렬

RAISE: 강건한 적대적 인스턴스 탐색을 통한 LLM 기반 자동 휴리스틱 설계

대규모 데이터베이스에는 작고 오픈 웨이트(Open-Weight)인 언어 모델이 필요하다

RLVR에서의 저차원 적응(LoRA)을 위한 기하학적 보존 직교 초기화

Evo-PI: 진화하는 원칙 기반 감독을 통한 의료 추론 정렬

RAISE: 강건한 적대적 인스턴스 탐색을 통한 LLM 기반 자동 휴리스틱 설계

대규모 데이터베이스에는 작고 오픈 웨이트(Open-Weight)인 언어 모델이 필요하다

RLVR에서의 저차원 적응(LoRA)을 위한 기하학적 보존 직교 초기화