arXiv논문2026. 06. 02. 10:14

SPADER: 다중 정답 질의응답(Multi-Answer QA)을 위한 다양성 인지 탐색 보상을 갖춘 단계별 동료 이점(Step-wise

요약

다중 정답 질의응답(Multi-Answer QA) 환경에서 도구 사용 에이전트의 성능을 높이기 위한 강화학습 프레임워크 SPADER를 제안합니다. 단계별 신용 할당과 다양성 인지 탐색 보상을 통해 롱테일 엔티티 발견 능력을 강화했습니다.

핵심 포인트

다중 정답 QA를 위한 강화학습 프레임워크 SPADER 제안
비판자 없는 단계별 신용 할당(SPA) 메커니즘 도입
다양성 인지 보상을 통한 롱테일 엔티티 탐색 촉진
기존 프롬프트 및 RL 방식 대비 재현율과 F1 점수 향상

대규모 언어 모델(Large language models)은 매개변수 지식(Parametric knowledge)을 넘어 정보를 습득하기 위해 도구 증강 에이전트(Tool-augmented agents)로서 점점 더 많이 배치되고 있습니다. 최근 연구들이 장기 도구 사용 추론(Long-horizon tool-use reasoning)을 개선해 왔으나, 대부분의 접근 방식은 단일 정답이 존재하는 작업에 집중되어 있습니다. 이와 대조적으로, 많은 실제 질의는 유효한 정답의 포괄적인 집합을 찾아낼 것을 요구하며, 이러한 설정을 다중 정답 질의응답(Multi-Answer QA)이라고 합니다. 이 설정은 두 가지 과제를 제기합니다: 긴 검색 궤적(Search trajectories)에 대한 미세한 신용 할당(Credit assignment) 문제와, 쉽고 빈도가 높은 엔티티(Entities)를 넘어 지속적인 탐색을 유도하기 위한 보상 정렬(Reward alignment) 문제입니다. 우리는 다중 정답 질의응답(Multi-Answer QA)에서의 장기 도구 사용을 위한 강화학습 (Reinforcement learning) 프레임워크인 SPADER를 제안합니다. SPADER는 비판자 없는(Critic-free) 단계별 신용 할당 메커니즘인 단계별 동료 이점(Step-wise Peer Advantage, SPA)을 포함하며, 이는 결정 단계별로 병렬 궤적을 정렬하고 동료 수익(Peer returns)으로부터 이점(Advantages)을 추정합니다. 또한, 희귀한 발견에는 가중치를 높이고 중복된 발견에는 가중치를 낮춤으로써 롱테일 엔티티(Long-tail entity) 발견을 촉진하는 다양성 인지 탐색 보상(Diversity-aware exploration reward)을 포함합니다. QAMPARI, Mintaka, WebQSP, 그리고 QUEST에 대한 실험 결과, SPADER는 프롬프트 기반 에이전트(Prompting-based agents), 결과 감독 강화학습 (Outcome-supervised RL) 방법, 그리고 최근의 단계별 감독(Step-level supervision) 접근 방식들에 비해 일반적으로 재현율(Recall)과 전체 F1 점수를 향상시킴을 보여줍니다. 우리의 코드와 모델 가중치는 https://github.com/KhanCold/spader 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SPADER: 다중 정답 질의응답(Multi-Answer QA)을 위한 다양성 인지 탐색 보상을 갖춘 단계별 동료 이점(Step-wise

요약

핵심 포인트

댓글