arXiv논문2026. 06. 15. 12:23

AdaSR: 계층적 상대적 정책 최적화를 통한 적응형 스트리밍 추론

요약

AdaSR은 연속적인 데이터 스트림 환경에서 모델이 실시간으로 추론하고 계산 자원을 적응적으로 할당할 수 있게 하는 프레임워크입니다. 계층적 상대적 정책 최적화(HRPO)를 통해 추론 정확도와 지연 시간 사이의 최적의 균형을 달성합니다.

핵심 포인트

실시간 스트리밍 데이터에 대응하는 적응형 추론 프레임워크 제안
HRPO를 통한 세밀한 이점 할당 및 계층적 정책 최적화 수행
추론 정확도, 계산 효율성, 지연 시간 간의 최적 균형 달성
형식, 정확도, 적응형 사고 보상을 통합한 추론 프로토콜 강제

대규모 추론 모델(Large reasoning models)은 일반적으로 '읽고 생각하기(read-then-think)' 패러다임을 따릅니다. 즉, 전체 입력을 관찰하고, 정적인 컨텍스트(static context)에 대해 추론한 다음, 답변을 생성합니다. 그러나 오디오 및 비디오 스트림과 같이 정보가 연속적인 스트림으로 도착하고 모델이 부분적인 관찰(partial observations) 하에서 추론, 업데이트 및 응답을 수행해야 하는 많은 실제 시나리오는 본질적으로 동적입니다. 최근의 스트리밍 추론(streaming reasoning) 방법들은 모델이 읽는 동안 생각할 수 있게 해주지만, 대부분 사전에 구축된 궤적(trajectories)을 지도 학습 방식으로 모방(supervised imitation)하는 데 의존하며, 이는 유연성을 제한합니다. 본 논문에서는 입력 스트리밍 중에 모델이 추론할 수 있게 하고 스트림이 완료되면 최종 숙고(deliberation)를 수행하며, 언제 생각할지 그리고 서로 다른 단계에 얼마나 많은 계산 자원을 할당할지를 학습하는 적응형 스트리밍 추론 프레임워크인 AdaSR을 제안합니다. 이 계층적 추론 과정을 최적화하기 위해, 우리는 정책 최적화(policy optimization)를 스트리밍 추론(streaming reasoning) 단계와 심층 추론(deep reasoning) 단계로 분해하여, 단일 시퀀스 수준의 이점(advantage)을 모든 토큰에 균등하게 배분하는 대신 더 세밀한 이점 할당(fine-grained advantage assignment)을 제공하는 계층적 상대적 정책 최적화(Hierarchical Relative Policy Optimization, HRPO)를 도입합니다. HRPO는 형식(format), 정확도(accuracy), 그리고 적응형 사고 보상(adaptive thinking rewards)을 통합하여 유효한 추론 프로토콜을 강제하고, 최종 작업 성능을 보존하며, 지연 시간(latency)을 고려한 계산 할당을 장려합니다. 실험 결과, AdaSR은 지도 미세 조정(supervised fine-tuning) 베이스라인과 비교했을 때 추론 정확도, 계산 효율성, 스트리밍 지연 시간 사이에서 더 나은 균형을 달성함을 보여줍니다. 우리는 코드를 https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR 에서 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AdaSR: 계층적 상대적 정책 최적화를 통한 적응형 스트리밍 추론

요약

핵심 포인트

댓글