arXiv논문2026. 06. 16. 12:25

ACCORD: 언어 에이전트를 위한 행동 조건부 문맥적 접지 (Action-Conditioned Contextual Grounding)

요약

LLM 에이전트가 사용자의 불충분한 지시사항을 환경 관찰을 통해 보완하도록 돕는 ACCORD 프레임워크를 제안합니다. 에이전트가 누락된 문맥을 식별하고 관찰된 증거에 행동을 접지함으로써 작업 성공률을 크게 향상시킵니다.

핵심 포인트

에이전트가 가정에 의존하지 않고 관찰된 증거를 통합하도록 설계됨
추가 학습 없이도 환경 탐색을 통해 누락된 정보를 능동적으로 보완
AppWorld 벤치마크에서 작업 완료율을 42.0%에서 62.6%로 향상
GPT-5-mini, Claude-4.5-sonnet 등 다양한 모델에서 성능 개선 확인

사용자의 지시사항은 인간이 주변 환경에 대한 암묵적인 가정을 의존하기 때문에 종종 불충분하게 명시되는 경우가 많습니다. 정보가 풍부한 디지털 및 물리적 환경에서 작동하는 대규모 언어 모델 (LLM) 에이전트의 경우, 이러한 가정은 지시사항만으로는 추론할 수 없으며 도구, 데이터, 인터페이스 및 관찰의 현재 상태로부터 복구되어야 합니다. 따라서 효과적인 실행을 위해서는 에이전트가 누락된 문맥을 식별하고, 이를 관찰된 증거에 접지 (grounding)하며, 이후의 행동으로 전달하는 과정이 필요합니다. 우리는 현재의 에이전트들이 이를 수행하는 데 자주 실패한다는 것을 보여줍니다. 에이전트들은 관찰된 구체적인 정보가 아닌 가정된 구체성에 기반하여 행동하며, 수집할 수 있었던 정보를 간과하고, 이미 반환된 증거를 통합하는 데 실패합니다. 이러한 통찰을 바탕으로, 우리는 적응형 접지 (adaptive grounding)를 위한 단순하고 효과적인 에이전트 프레임워크인 ACCORD (Action-Conditioned Contextual Grounding)를 제안합니다. 각 행동을 수행하기 전에, ACCORD는 누락된 정보를 찾기 위해 환경을 능동적으로 탐색하며, 그렇지 않으면 간과될 수 있는 에이전트의 궤적 (trajectory)으로부터 관련 문맥을 통합합니다. 추가적인 학습이나 작업 성공 신호가 필요하지 않은 ACCORD는 AppWorld에서 GPT-5-mini를 사용하여 강력한 베이스라인 대비 작업 목표 완료율을 42.0%에서 62.6%로 최대 +20.6포인트 향상시켰습니다. 이러한 성능 향상은 훨씬 더 강력한 베이스 모델 (+10.8 with Claude-4.5-sonnet), 오픈 웨이트 (open-weight) 모델 (+10.1 with Qwen3.5-27B-FP8), 그리고 임바디드 (embodied) AlfWorld 벤치마크 (+7.4 성공률 with GPT-5-mini)에서도 지속됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

ACCORD: 언어 에이전트를 위한 행동 조건부 문맥적 접지 (Action-Conditioned Contextual Grounding)

요약

핵심 포인트

댓글