추론은 어떻게 흐르는가? LLM의 타겟형 RL을 위한 어텐션 유도 정보 흐름 추적
요약
LLM 강화학습 시 토큰별 신용 할당 문제를 해결하기 위해 어텐션 기반의 방향성 비순환 그래프(DAG)를 활용하는 FlowTracer 프레임워크를 제안합니다. 정보 흐름의 보존과 추론 경로 추적을 통해 핵심 토큰에 정확한 보상을 부여함으로써 추론 성능을 향상시킵니다.
핵심 포인트
- 토큰 수준의 정밀한 신용 할당을 위한 FlowTracer 제안
- 어텐션 가중치 기반의 방향성 비순환 그래프(DAG) 구축
- 국소적 흐름 보존을 통한 정보 전파의 유효성 유지
- 고영향력 허브 및 체크포인트 식별을 통한 보상 형성
토큰 수준의 신용 할당 (Credit Assignment)은 대규모 언어 모델 (LLMs)의 강화학습 (RL)에서 여전히 주요한 장애물로 남아 있습니다. 기존의 RL 레시피들은 일반적으로 모든 토큰을 동일하게 취급하며, 결정적인 추론 단계와 일상적인 형식 지정 또는 유창한 채움말 (filler)을 구분하지 못합니다. 최근의 시도들은 모델 내부의 신호를 활용하여 더 세밀한 신용을 할당하려 하지만, 이는 정보 전파의 전역적 구조를 무시하는 점 단위의 휴리스틱 (heuristics)인 경우가 많습니다. 우리는 노드는 토큰에 대응하고 에지 용량 (edge capacities)은 집계된 어텐션 가중치 (attention weights)에서 유도되는, 어텐션 유도 방향성 비순환 그래프 (attention-induced directed acyclic graph) 상에서 정답을 타겟으로 하는 추론 흐름을 추적하는 RL 프레임워크인 FlowTracer를 제안합니다. 에지 용량은 정답 영역에 도달할 수 있는 영향력만을 유지하도록 재가중치화되는 동시에, 중간 토큰들이 경로 길이 또는 무관한 분기로 인해 유효 질량 (effective mass)을 잃거나 얻지 않도록 국소적 흐름 보존 (local flow conservation)을 강제합니다. 이 그래프에서 FlowTracer는 질문과 정답을 연결하는 정보 흐름 중추 (information-flow backbone)를 추출하고, 흐름 처리량 (flow throughput)에 따라 토큰의 점수를 매겨 장거리 의존성 (long-range dependencies)을 매개하는 고영향력 허브 (high-impact hubs)와 집계 체크포인트 (aggregation checkpoints)를 밝혀냅니다. 이렇게 도출된 중요도는 토큰 수준의 보상을 형성하는 데 사용되어, 학습 신호가 정답으로 정보를 전달하거나(또는 멀어지게 하는) 토큰에 정확히 집중할 수 있게 하며, 다양한 추론 작업 전반에서 일관된 성능 향상을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기