동결된 LLM를 위한 증거 강조 학습 (Learning Evidence Highlighting for Frozen LLMs)
요약
HiLight는 동결된 대형 언어 모델(LLM)이 긴 컨텍스트에서 중요한 결정적 증거를 놓치는 문제를 해결하기 위해 설계된 '증거 강조' 프레임워크입니다. 이 프레임워크는 경량화된 강조 액터(Emphasis Actor)를 학습시켜, 원본 컨텍스트의 핵심 구간 주변에 최소한의 강조 태그를 삽입합니다. 이후 동결된 LLM 솔버가 이 강조된 입력을 받아 다운스트림 추론을 수행하며, 이는 강화학습(RL)과 약하게 감독된 의사 결정 문제 설정을 통해 최적화됩니다.
핵심 포인트
- HiLight는 LLM의 추론 능력은 유지하면서도 긴 컨텍스트 내 핵심 증거를 놓치는 문제를 해결합니다.
- 강조 액터(Emphasis Actor)가 원본 컨텍스트에 최소한의 태그만 삽입하여 정보 손실이나 왜곡을 방지합니다.
- 이 프레임워크는 강화학습(RL)과 약하게 감독된 의사 결정 문제 설정을 사용하여 증거 강조 정책을 최적화합니다.
- HiLight는 순차적 추천 및 장문맥 QA 등에서 기존의 베이스라인보다 일관되게 높은 성능을 보여줍니다.
- 학습된 강조 정책은 다양한 크기와 종류의 솔버(API 기반 포함)에 제로샷으로 전이되어 재사용성이 높습니다.
대형 언어 모델 (LLMs) 은 추론 능력이 뛰어나지만, 긴 소음 많은 컨텍스트에 묻혀 있는 결정적 증거를 종종 놓칩니다. 우리는 동결된 (frozen) LLM 솔버의 추론과 증거 선택을 분리하는 'HiLight'라는 증거 강조 (Evidence Emphasis) 프레임워크를 소개합니다. HiLight는 입력을 압축하거나 재작성하여 증거를 버리거나 왜곡할 수 있는 문제를 피하기 위해, 경량화된 강조 액터 (Emphasis Actor) 를 학습시켜 변경되지 않은 컨텍스트 내의 핵심 구간의 주변에 최소한의 강조 태그를 삽입합니다. 이후 동결된 솔버는 강조된 입력에 대해 다운스트림 추론을 수행합니다. 우리는 강조 작업을 약하게 감독된 의사 결정 문제로 설정하며, 액터를 강화학습 (RL) 로 최적화합니다. 이 과정에서 증거 레이블은 필요 없으며, 솔버에 대한 접근이나 수정도 요구되지 않습니다. 순차적 추천 (sequential recommendation) 과 장 문맥 질문 답변 (long-context question answering) 에서 HiLight는 강력한 프롬프트 기반 및 자동화된 프롬프트 최적화 베이스라인보다 일관되게 성능을 향상시킵니다. 학습된 강조 정책은 더 작은 크기와 더 큰 크기의 보이지 않는 솔버 패밀리로 제로샷 (zero-shot) 으로 이전되며, API 기반 솔버도 포함됩니다. 이는 액터가 단일 백본에 과적합되는 것이 아니라 진정한 재사용 가능한 증거 구조를 포착함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기