Large Language Models를 위한 쿼리 조건부 테스트 시간 자기 학습 (Query-Conditioned Test-Time
요약
QueST는 외부 데이터 없이 입력 쿼리 자체에서 유도된 신호를 활용하여 추론 과정 중 모델 파라미터를 적응시키는 새로운 프레임워크입니다. 쿼리 내에 포함된 잠재적 신호를 문제-해결 쌍으로 변환하여 파라미터 효율적 미세 조정을 수행함으로써, 개별 쿼리에 특화된 최적화를 가능하게 합니다. 수학 및 과학 추론 벤치마크 테스트 결과, 기존의 테스트 시간 스케일링 및 최적화 방식보다 뛰어난 성능을 입증했습니다.
핵심 포인트
- 기존 테스트 시간 스케일링의 한계인 모델의 오개념 수정 및 쿼리 특화 적응 문제를 해결함
- 외부 데이터 의존성을 제거하고 입력 쿼리 자체를 감독 신호로 활용하는 QueST 프레임워크 제안
- 쿼리 조건부 문제-해결 쌍을 생성하여 테스트 시간 동안 파라미터 효율적 미세 조정(PEFT) 수행
- 수학적 추론 및 GPQA-Diamond 과학적 추론 벤치마크에서 기존 베이스라인 대비 우수한 성능 기록
Large Language Models (LLMs)는 일반적으로 고정된 파라미터(parameters)로 배포되며, 추론(inference) 시점에 더 많은 연산량을 할당함으로써 성능을 향상시키는 경우가 많습니다. 이러한 테스트 시간 스케일링(test-time scaling)은 효과적일 수 있지만, 모델의 오개념을 수정하거나 개별 쿼리(query)의 특정 구조에 모델을 적응시킬 수는 없습니다. 테스트 시간 최적화(Test-time optimization)는 추론 중에 파라미터 업데이트를 가능하게 함으로써 이러한 한계를 해결하지만, 기존 방식들은 외부 데이터에 의존하거나 쿼리 특유의 정렬(alignment)이 부족한 일반적인 자기 지도 학습(self-supervised) 목적 함수를 최적화합니다. 본 연구에서는 입력 쿼리에서 직접 유도된 감독(supervision)을 사용하여 추론 중에 모델 파라미터를 적응시키는 프레임워크인 Query-Conditioned Test-Time Self-Training (QueST)를 제안합니다. 우리의 핵심 통찰은 입력 쿼리 자체가 구조적으로 연관된 문제-해결 쌍(problem--solution pairs)을 구성하기에 충분한 잠재적 신호(latent signals)를 인코딩하고 있다는 점입니다. 이를 바탕으로 QueST는 이러한 쿼리 조건부 쌍을 생성하고, 이를 테스트 시간의 파라미터 효율적 미세 조정(parameter-efficient fine-tuning)을 위한 감독 신호로 사용합니다. 적응된 모델은 최종 답변을 생성하는 데 사용되며, 이를 통해 외부 데이터 없이도 쿼리 특화 적응(query-specific adaptation)을 가능하게 합니다. 7개의 수학적 추론 벤치마크와 GPQA-Diamond 과학적 추론 벤치마크 전반에 걸쳐, QueST는 강력한 테스트 시간 최적화 베이스라인(baselines)들을 일관되게 능가합니다. 이러한 결과는 쿼리 조건부 자기 학습(query-conditioned self-training)이 LLM의 테스트 시간 적응을 위한 효과적이고 실용적인 패러다임임을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기