arXiv논문2026. 06. 15. 07:24

후처리(Post-Training)의 해부학: 해석 가능성을 활용하여 데이터 특성화 및 학습 신호 형성하기

요약

본 논문은 언어 모델 후처리(Post-Training)가 스칼라 보상 최적화에 크게 의존하여 데이터의 학습 과정을 투명하게 파악하기 어렵다는 문제를 지적합니다. 이를 해결하기 위해 해석 가능성 프로토콜을 활용하여 선호/비선호 데이터를 개념 수준에서 분리하고, 데이터 중심의 후처리 파이프라인을 제안합니다. 이 방법은 모델이 목표를 벗어난 학습을 완화하고 원하는 속성을 정교하게 형성하는 데 도움을 줍니다.

핵심 포인트

후처리는 스칼라 보상 최적화에 의존하여 투명성이 부족함.
해석 가능성 프로토콜로 선호/비선호 데이터를 개념 수준에서 분리할 수 있음.
데이터 중심 파이프라인으로 학습 신호를 감사하고 조각하는 것이 가능해짐.
모델의 오목한 학습(off-target learning) 완화 및 원하는 속성 증폭에 효과적임.

언어 모델의 후처리는 모델 행동이 형성되는 주요 단계이지만, 여전히 다양한 바람직한 속성들을 요약하는 스칼라 보상 최적화에 크게 의존합니다. 이러한 추상화는 실무자들이 자신들의 데이터가 실제로 모델에게 무엇을 가르치는지에 대한 가시성을 거의 제공하지 못하며, 그 결과 모델이 허위 상관관계(spurious correlations)를 학습하고 과도한 스타일화(over-stylization)나 아첨(sycophancy)과 같은 바람직하지 않은 행동을 유발할 수 있게 합니다. 이 문제를 해결하기 위해 우리는 다음과 같은 질문을 던집니다: 최적화 전에 선호도 데이터셋을 검사하여, 개념 수준에서 모델이 어떤 행동을 학습하도록 허용할지 결정할 수 있을까요? 이러한 동기 부여를 바탕으로, 우리는 해석 가능성 프로토콜(interpretability protocols)을 사용하여 선호되는 생성물과 선호되지 않는 생성물을 분리하는 잠재적 개념에 대한 통계적 가설을 개발하고, 이를 세밀한 사용자 피드백을 위해 명시적으로 만드는 데이터 중심의 후처리 파이프라인을 소개합니다. 이러한 관점을 기반으로, 우리는 여러 해석 가능성 기반 훈련 프로토콜들을 특징(feature) 또는 데이터 개입(data interventions)을 통해 보상을 형성하는 방식으로 통합합니다. 경험적으로, 우리의 파이프라인은 기존 선호도 데이터에서 바람직하지 않은 신호를 진단하고, 목표를 벗어난 학습(off-target learning)을 완화하며, 또한 안전장치(safeguards)나 모델 개성(model personality)과 같은 원하는 속성을 증폭시키거나 형성하는 데 도움을 줄 수 있음을 보여줍니다. 더 광범위하게, 우리의 결과는 해석 가능성이 후처리를 불투명한 대리 보상 최적화에서 학습 신호 자체를 감사하고 조각하는 과정으로 전환할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

후처리(Post-Training)의 해부학: 해석 가능성을 활용하여 데이터 특성화 및 학습 신호 형성하기

요약

핵심 포인트

댓글