SPADER: 다중 정답 질의응답(Multi-Answer QA)을 위한 다양성 인지 탐색 보상을 갖춘 단계별 동료 이점(Step-wise
요약
다중 정답 질의응답(Multi-Answer QA) 환경에서 도구 사용 에이전트의 성능을 높이기 위한 강화학습 프레임워크 SPADER를 제안합니다. 단계별 신용 할당과 다양성 인지 탐색 보상을 통해 롱테일 엔티티 발견 능력을 강화했습니다.
핵심 포인트
- 다중 정답 QA를 위한 강화학습 프레임워크 SPADER 제안
- 비판자 없는 단계별 신용 할당(SPA) 메커니즘 도입
- 다양성 인지 보상을 통한 롱테일 엔티티 탐색 촉진
- 기존 프롬프트 및 RL 방식 대비 재현율과 F1 점수 향상
대규모 언어 모델(Large language models)은 매개변수 지식(Parametric knowledge)을 넘어 정보를 습득하기 위해 도구 증강 에이전트(Tool-augmented agents)로서 점점 더 많이 배치되고 있습니다. 최근 연구들이 장기 도구 사용 추론(Long-horizon tool-use reasoning)을 개선해 왔으나, 대부분의 접근 방식은 단일 정답이 존재하는 작업에 집중되어 있습니다. 이와 대조적으로, 많은 실제 질의는 유효한 정답의 포괄적인 집합을 찾아낼 것을 요구하며, 이러한 설정을 다중 정답 질의응답(Multi-Answer QA)이라고 합니다. 이 설정은 두 가지 과제를 제기합니다: 긴 검색 궤적(Search trajectories)에 대한 미세한 신용 할당(Credit assignment) 문제와, 쉽고 빈도가 높은 엔티티(Entities)를 넘어 지속적인 탐색을 유도하기 위한 보상 정렬(Reward alignment) 문제입니다. 우리는 다중 정답 질의응답(Multi-Answer QA)에서의 장기 도구 사용을 위한 강화학습 (Reinforcement learning) 프레임워크인 SPADER를 제안합니다. SPADER는 비판자 없는(Critic-free) 단계별 신용 할당 메커니즘인 단계별 동료 이점(Step-wise Peer Advantage, SPA)을 포함하며, 이는 결정 단계별로 병렬 궤적을 정렬하고 동료 수익(Peer returns)으로부터 이점(Advantages)을 추정합니다. 또한, 희귀한 발견에는 가중치를 높이고 중복된 발견에는 가중치를 낮춤으로써 롱테일 엔티티(Long-tail entity) 발견을 촉진하는 다양성 인지 탐색 보상(Diversity-aware exploration reward)을 포함합니다. QAMPARI, Mintaka, WebQSP, 그리고 QUEST에 대한 실험 결과, SPADER는 프롬프트 기반 에이전트(Prompting-based agents), 결과 감독 강화학습 (Outcome-supervised RL) 방법, 그리고 최근의 단계별 감독(Step-level supervision) 접근 방식들에 비해 일반적으로 재현율(Recall)과 전체 F1 점수를 향상시킴을 보여줍니다. 우리의 코드와 모델 가중치는 https://github.com/KhanCold/spader 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기