arXiv논문2026. 05. 26. 13:38

선호도 학습을 위한 능동적 쿼리 합성 (Active Query Synthesis)

요약

사용자 선호도 학습의 비용 문제를 해결하기 위해 능동적 쿼리 합성 프레임워크인 Info-Synth를 제안합니다. 이 프레임워크는 피드백의 신뢰도 문제를 고려하며, 연속 공간 내 상호 정보량을 최대화하여 최적의 쿼리를 생성합니다.

핵심 포인트

비용 효율적인 선호도 학습을 위한 Info-Synth 프레임워크 제안
신뢰도 인지 응답 모델을 통한 모호한 비교 문제 해결
상호 정보량 기반의 연속 공간 내 최적 쿼리 합성
제한된 쿼리 풀 환경을 위한 Pair M-dist 및 Pair Opt-dist 전략

사용자 선호도 (User preferences)를 효율적으로 학습하는 것은 많은 현대적 의사 결정 시스템 (Decision making systems)에 있어 매우 중요하지만, 일반적으로 비용이 많이 드는 레이블이 지정된 데이터 (Labeled data)를 필요로 합니다. 능동 학습 (Active learning)은 이러한 비용을 줄여주지만, 표준적인 방법들은 풀 기반 평가 (Pool-based evaluation)로 인해 계산 비용이 많이 듭니다. 또한, 대부분의 방법은 모든 쿼리 피드백 (Query feedback)이 동일하게 신뢰할 수 있다고 가정하며, 거의 동일하거나 완전히 이질적인 항목 간의 쌍체 쿼리 (Pairwise queries)가 모호하고 신뢰도가 낮은 응답을 생성한다는 점을 간과합니다. 피드백 신뢰도 문제를 해결하기 위해, 우리는 이러한 모호한 비교를 명시적으로 고려하는 새로운 신뢰도 인지 응답 모델 (Confidence aware response model)을 도입합니다. 풀 기반 평가의 계산 병목 현상을 극복하기 위해, 우리는 연속 공간 (Continuous space) 내에서 상호 정보량 (Mutual information) 기반 목적 함수를 최대화함으로써 최적의 쿼리를 생성하는 능동적 쿼리 합성 프레임워크인 Info-Synth를 제안합니다. 나아가, 유한한 쿼리 풀 (Query pools)로 제한된 상황에서도 효과적인 쿼리를 선택할 수 있도록 Info-Synth를 확장하는 두 가지 전략인 Pair M-dist와 Pair Opt-dist를 제안합니다. 우리는 합성 선호도 학습 (Synthetic preference learning), 제약이 있는 텍스트 요약 데이터셋, 그리고 시뮬레이션된 모바일 로봇을 위한 주관적이고 연속적인 공간의 컨트롤러 이득 튜닝 (Controller gain tuning) 전반에 걸쳐 우리 프레임워크의 다재다능함과 성능을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

선호도 학습을 위한 능동적 쿼리 합성 (Active Query Synthesis)

요약

핵심 포인트

댓글