arXiv논문2026. 05. 28. 13:21

GUI-CIDER: 인과적 내재화(Causal Internalization) 및 밀도 인식 예시 재선택(Density-aware

요약

GUI 에이전트의 세상 지식 부족 문제를 해결하기 위해 인과적 내재화와 밀도 인식 예시 재선택을 활용한 미드 트레이닝 방법론 GUI-CIDER를 제안합니다. 이 방식은 단순한 궤적 암기를 넘어 GUI 조작에 대한 명시적 지식 습득을 목표로 합니다.

핵심 포인트

GUI 세상 지식 부족으로 인한 에이전트 성능 병목 해결
데이터 합성, 예시 재선택, 미드 트레이닝의 3단계 프로세스
인과 구조 기반의 데이터 필터링 및 의미론적 중복 제거
기존 사후 학습 대비 높은 작업 성공률 및 이해도 입증

그래픽 사용자 인터페이스 (GUI) 에이전트를 구축하는 데 있어 멀티모달 거대 언어 모델 (Multimodal Large Language Models)이 급격한 발전을 이루었음에도 불구하고, 실제 환경에서의 작업 완료 능력은 GUI 조작에 관한 세상 지식 (World Knowledge)의 부족으로 인해 근본적인 병목 현상을 겪고 있습니다. 기존의 해결책들은 일반적으로 비용이 많이 드는 멀티 에이전트 스캐폴딩 (Multi-agent Scaffolding)이나 지도 미세 조정 (Supervised Fine-Tuning, SFT) 및 강화 학습 (Reinforcement Learning, RL)과 같은 전통적인 사후 학습 (Post-training) 패러다임에 의존합니다. 그러나 사후 학습은 에이전트가 행동 주석 (Action Annotations)이나 보상 신호 (Reward Signals)를 통해 세상 지식을 암묵적으로 흡수할 수 있게 할 뿐이며, 이는 진정한 이해보다는 비효율적인 궤적 암기 (Trajectory Memorization)로 이어집니다. 따라서 이러한 지식을 명시적으로 학습할 수 있게 하는 접근 방식이 필수적입니다. 이를 위해 우리는 인과적 내재화 (Causal Internalization) 및 밀도 인식 예시 재선택 (Density-aware Exemplar Reselection)을 통해 GUI 세상 지식을 명시적으로 내재화하는 미드 트레이닝 (Mid-training) 방법론인 GUI-CIDER를 제안합니다. GUI-CIDER는 세 단계로 작동합니다: (1) 데이터 합성 (Data Synthesis): GUI 궤적으로부터 정적 계획 (Static Planning) 및 동적 인과 지식 (Dynamic Causal Knowledge)을 텍스트로 증류 (Distill)합니다. (2) 예시 재선택 (Exemplar Reselection): 인과 구조에 보상을 주고 의미론적 중복 (Semantic Redundancy)에 벌점을 부여함으로써 코퍼스 (Corpus)를 필터링합니다. (3) 미드 트레이닝 (Mid-training): 정제된 데이터를 사용하여 습득한 지식을 임베딩 (Embed)합니다. 두 개의 GUI 지식 벤치마크와 세 개의 작업 완료 벤치마크에 대한 광범위한 실험을 통해, GUI-CIDER가 GUI 조작에 대한 에이전트의 이해도와 작업 성공률을 모두 일관되게 향상시킨다는 것을 입증했습니다. 코드는 https://github.com/Wuzheng02/GUI-CIDER 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

GUI-CIDER: 인과적 내재화(Causal Internalization) 및 밀도 인식 예시 재선택(Density-aware

요약

핵심 포인트

댓글