arXiv논문2026. 06. 02. 12:24

텍스트 기반 에이전트의 샘플 효율적인 행동 선택을 위한 교차 환경 신경 재순위화 (Cross-Environment Neural

요약

텍스트 기반 에이전트의 추론 비용을 줄이기 위해 여러 환경에서 공통으로 작동하는 경량 신경 재순위화기(reranker) 연구를 소개합니다. DeBERTa-v3를 활용한 공동 학습을 통해 단일 환경 모델에 근접하는 성능과 높은 교차 도메인 전이 효율을 입증했습니다.

핵심 포인트

경량 모델을 통한 다중 환경 행동 선택 및 유지보수 비용 절감
소수 클래스 업샘플링을 통한 환경 간 공동 학습 최적화
타겟 데이터 9.2%만으로도 전체 성능의 93% 회복 가능
데이터 다양성이 모델 용량보다 성능 향상에 더 중요한 동인임

대규모 언어 모델 (Large language model) 에이전트는 텍스트 기반 벤치마크에서 강력한 성능을 달성하지만, 과도한 추론 비용이 발생하여 행동 선택을 위한 소형 신경 재순위화기 (neural rerankers)의 사용이 요구됩니다. 본 연구에서는 단일 경량 모델이 여러 다양한 환경에 걸쳐 행동 선택을 수행할 수 있는지 조사하며, 이러한 능력은 환경별 모델 유지보수를 제거할 수 있습니다. 소수 클래스 업샘플링 (minority-class upsampling)을 적용하여 ALFWorld, WebShop, ScienceWorld에서 DeBERTa-v3 (184M-434M 파라미터)를 공동 학습시킨 결과, 재균형을 맞춘 두 환경 공동 학습이 단일 환경 ALFWorld 성능보다 실질적으로 향상되었으며 (순이익 +0.412), 경쟁력 있는 WebShop 성능을 유지함을 확인했습니다 (+0.214 vs. 단일 환경 +0.249). 세 환경 학습은 4개 시드 (seed) 기준 평균 결합 순이익 +0.551 +/- 0.024를 기록하였으며, 환경별 결과는 전문화된 단일 환경 모델에 근접하면서도 긍정적인 교차 도메인 전이 (cross-domain transfer)를 제공했습니다. 교차 환경 적응은 샘플 효율성이 매우 높습니다. 타겟 도메인 데이터의 9.2%만으로 미세 조정 (fine-tuning)을 수행했을 때 전체 데이터 성능의 93%를 회복하였으며, 모델 용량(capacity)을 확장하는 것은 제한적인 이점만을 제공하여 데이터 다양성이 주요 동인임을 나타냈습니다. PCGrad를 사용한 환경 인식 LoRA 어댑터 라우팅 (Environment-aware LoRA adapter routing)은 최적 시드 결과 +0.611 (seed 42)를 달성하였고, seed 456과 789는 각각 +0.554와 +0.559를 기록했으나, seed 123이 +0.263으로 붕괴함에 따라 높은 분산을 보였습니다 (4개 시드 평균 +0.497 +/- 0.158). 이는 유망하지만 현재로서는 불안정한 방향임을 나타냅니다. 깨끗한 분할 (clean splits) 및 데이터 재균형을 통한 공동 학습이 핵심 요소입니다. 승인 시 51,580개의 학습 인스턴스 (소수 클래스 업샘플링을 포함한 41,740개의 원시 고유 상태)로 구성된 세 환경 벤치마크와 모든 모델 체크포인트를 공개할 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

텍스트 기반 에이전트의 샘플 효율적인 행동 선택을 위한 교차 환경 신경 재순위화 (Cross-Environment Neural

요약

핵심 포인트

댓글