arXiv논문2026. 05. 27. 12:01

Sparse Autoencoder의 모델 내부 정보를 활용한 LLM 사후 학습 데이터 엔지니어링 가이드

요약

Sparse Autoencoder(SAE)를 활용하여 LLM 사후 학습 데이터의 다양성, 난이도, 품질을 모델 내부 신호로 모델링하는 SAERL 프레임워크를 제안합니다. 이 방식은 데이터 필터링과 커리큘럼 학습을 최적화하여 강화학습 효율을 높입니다.

핵심 포인트

SAE를 통해 모델 내부의 고유 신호를 데이터 엔지니어링에 활용
데이터의 다양성, 난이도, 품질을 모델링하여 학습 최적화
Qwen2.5-Math-1.5B 실험 결과 정확도 3.00% 향상 및 학습 단계 20% 단축
모델 규모와 알고리즘에 관계없이 효과적인 전이 가능성 입증

모델 내부(Model internals)는 대규모 언어 모델(LLM)이 학습 데이터를 처리하는 방식에 대한 풍부한 정보를 인코딩하고 있습니다. 그러나 사후 학습(Post-training) 데이터 엔지니어링은 주로 외부 신호에 의존하며, 모델 내부에 존재하는 풍부한 고유 신호(Intrinsic signals)를 무시합니다. 우리는 LLM 강화학습 (RL)을 위한 데이터 엔지니어링 프레임워크인 SAERL을 제안합니다. 이 프레임워크는 고급 기계론적 해석 가능성(Mechanistic interpretability) 도구인 Sparse Autoencoder (SAE)를 통해 추출된 모델 내부 정보를 사용하여 다양성(Diversity), 난이도(Difficulty), 품질(Quality)이라는 세 가지 고유 데이터 속성을 모델링합니다. 각 속성은 구체적인 데이터 엔지니어링 작업의 근거가 됩니다: 배치 다양성 제어를 위한 적절한 배치 믹싱(Batch mixing)을 포함한 SAE 공간 클러스터링(SAE-space clustering), 쉬운 것에서 어려운 것으로의 커리큘럼 순서 정렬을 위한 난이도 프록시(Difficulty proxy), 그리고 데이터 필터링을 위한 품질 프로브(Quality probe)가 그것입니다. SAERL은 Qwen2.5-Math-1.5B에서 바닐라 GRPO 대비 평균 정확도를 3.00% 향상시켰으며, 20% 적은 학습 단계로 목표 정확도에 도달하였고, 모델 규모와 RL 알고리즘 전반에 걸쳐 일관된 이득을 보여주었습니다. 실험 결과, SAE는 모델 제품군과 규모 간에 효과적으로 전이(Transfer)되어 가볍고 재사용 가능한 데이터 엔지니어링 도구로서 역할을 수행함을 보여줍니다. 이러한 결과는 모델 내부 정보가 사후 학습 데이터 엔지니어링을 위한 강력하고 실용적인 신호원임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Sparse Autoencoder의 모델 내부 정보를 활용한 LLM 사후 학습 데이터 엔지니어링 가이드

요약

핵심 포인트

댓글