arXiv논문2026. 05. 29. 10:48

MEMENTO: 저데이터 도메인을 위한 학습 신호로서의 웹 활용

요약

MEMENTO는 레이블링된 데이터가 부족한 환경에서 웹 상호작용을 학습 신호로 활용하는 새로운 프레임워크를 제안합니다. 적응형 탐색 트리와 이중 채널 메모리를 통해 에이전트가 도메인 지식과 검색 전략을 스스로 축적하도록 설계되었습니다.

핵심 포인트

웹을 단순 검색 도구가 아닌 학습 신호로 활용
적응형 탐색 트리(AET)를 통한 반복적 웹 탐색 수행
선언적 지식과 절차적 지식을 분리하는 이중 채널 메모리 도입
영업 및 법률 도메인에서 ReAct 대비 높은 성능 향상 입증

실제 세계의 작업들은 대규모 레이블링된 데이터셋(labeled datasets)이 부족한 경우가 많으며, 이는 저데이터 환경(low-data regimes)에서의 학습에 대한 광범위한 연구를 촉진해 왔습니다. 그러나 Few-shot prompting, Instruction tuning, 그리고 합성 데이터 생성(synthetic data generation)과 같은 기존 방식들은 레이블링된 데이터나 의사 레이블링된 데이터(pseudo-labeled data)를 여전히 주요 학습 신호로 취급합니다. 이와 대조적으로, 인간 전문가들은 개방된 웹(open web)과의 반복적이고 자기 주도적인 상호작용을 통해 전문 지식을 습득하며, 도메인 지식(domain knowledge)과 검색 전략(search strategies)을 점진적으로 정교화합니다. 우리는 웹을 상태가 없는 검색 인터페이스(stateless retrieval interface)가 아닌 학습 신호로 취급하는 프레임워크인 MEMENTO를 제안합니다. MEMENTO는 두 가지 수준에서 작동합니다: 각 세션 내에서는 작업을 진화하는 질문들로 분해하고 중간 결과에 대해 성찰하는 적응형 탐색 트리(Adaptive Exploration Tree, AET)를 통해 반복적인 웹 탐색을 수행합니다; 세션 간에는 선언적 지식(declarative knowledge, 사실)과 절차적 지식(procedural knowledge, 검색 전략)을 분리하는 이중 채널 메모리(dual-channel memory)를 통해 경험을 축적합니다. 이러한 설계는 에이전트가 추가적인 모델 학습 없이도 웹 상호작용의 궤적(trajectories)으로부터 재사용 가능한 연구 전략과 도메인 전문 지식을 학습할 수 있게 합니다. 우리는 두 가지 저데이터 전문 도메인인 영업 자동화(sales automation)와 법률 조사(legal research)에서 MEMENTO를 평가합니다. 우리의 실증적 결과는 ReAct 기반 베이스라인 대비 일관된 성능 향상(영업 자동화에서 +25.6%, 법률 조사에서 36.5%)을 보여주며, 이는 데이터가 부족한 환경에서 웹이 작업 특화 전문 지식을 습득하기 위한 확장 가능한 학습 소스로 기능할 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MEMENTO: 저데이터 도메인을 위한 학습 신호로서의 웹 활용

요약

핵심 포인트

댓글