arXiv논문2026. 04. 30. 16:50

MoRFI: 단조로운 희소 오토인코더를 활용한 특징 식별

요약

본 논문은 대형 언어 모델(LLMs)의 사후 학습 과정에서 발생하는 환각(hallucinations) 문제를 분석하고 해결책을 제시합니다. 연구진은 폐쇄형 QA 환경에서 새로운 지식 도입과 훈련 기간이 환각 증가에 기여함을 실험적으로 입증했습니다. 이를 바탕으로, 사전 학습된 희소 오토인코더(SAEs)를 활용하여 '단조로운 관계 특징 식별(MoRFI)'이라는 방법을 제안합니다. MoRFI는 모델의 잔류 스트림 활성화에서 목표 속성에 단조롭게 반응하는 잠재 변수를 포착함으로써, 미지의 사실에 의해 방해받은 지식 검색 능력을 회복시키는 것을 목표로 합니다.

핵심 포인트

LLMs의 환각 현상은 사후 학습(post-training) 과정에서 새로운 지식이 도입되면서 악화된다.
새로운 지식을 점진적으로 도입하고 훈련 에포크를 늘릴수록 모델의 환각 경향이 증가하는 것이 확인되었다.
연구진은 SAEs와 'MoRFI' 기법을 사용하여, 미지의 사실에 의해 방해받는 핵심 지식 검색 방향성(latent directions)을 식별할 수 있음을 보였다.
제안된 MoRFI 파이프라인은 다양한 모델에서 신뢰성 있게 작동하며, 단일 잠재 변수 개입만으로 손상된 지식을 효과적으로 회복시킬 수 있다.

대형 언어 모델 (LLMs) 은 다음 토큰 예측 (next token prediction) 을 통해 사전 학습 (pre-training) 단계에서 대부분의 사실적 지식을 습득합니다. 이후의 사후 학습 (post-training) 단계에서는 파라메트릭 지식 밖의 새로운 사실을 도입하여 환각 (hallucinations) 을 유발하기도 합니다. 새로운 지식에 대한 지도 강화학습 (supervised fine-tuning, SFT) 이 이 문제를 악화시킬 수 있음이 입증되었지만, 그 근본적인 메커니즘은 여전히 잘 이해되지 않았습니다. 우리는 통제된 미세 조정 실험을 수행하여 폐쇄형 QA (closed-book QA) 에 초점을 맞추고, 환각에 인과적으로 기여하는 잠재적 방향성 (latent directions) 을 찾아냈습니다. 구체적으로, 우리는 Llama 3.1 8B, Gemma 2 9B 및 Mistral 7B v03 모델을 7 개의 서로 다른 단일 QA 데이터셋에서 미세 조정하여 새로운 지식의 비율과 학습 에포크 (training epochs) 수를 통제했습니다. 테스트 세트에서의 성능을 측정함으로써, 새로운 지식을 점진적으로 도입하는 것이 환각을 증가시킨다는 것을 검증했으며, 이 효과는 훈련 기간이 길어질수록 더 두드러졌습니다. 우리는 사전 학습된 희소 오토인코더 (SAEs) 를 활용하여 각 모델의 다양한 체크포인트에 대한 잔류 스트림 활성화 (residual stream activations) 를 분석하고, 인과적으로 관련 있는 잠재 변수를 포착하기 위해 단조로운 관계 특징 식별 (Monotonic Relationship Feature Identification, MoRFI) 을 제안합니다. MoRFI 는 목표 속성의 통제된 미세 조정 데이터 혼합물에 대해 단조롭게 반응하는 SAE 특징을 필터링합니다. 우리의 연구 결과는 미지의 사실에 노출되면 모델이 잔류 스트림의 일련의 방향성을 따라 저장된 지식을 검색하는 능력을 방해한다는 것을 보여줍니다. 우리의 파이프라인은 서로 다른 모델에서 신뢰할 수 있게 이러한 특징들을 발견하며, 단일 잠재 변수 (single-latent) 개입을 통해 지식을 회복합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MoRFI: 단조로운 희소 오토인코더를 활용한 특징 식별

요약

핵심 포인트

댓글