모델 유기체 복권: 모델 유기체 해석 가능성은 훈련 방법론에 강력하게 의존한다
요약
모델 유기체(MO)의 해석 가능성이 훈련 방법론에 따라 크게 달라짐을 분석한 연구입니다. 기존의 사후 미세 조정 방식이 해석 가능성을 비현실적으로 높게 만들 수 있음을 지적하며, 보다 현실적인 훈련 방식을 통해 MO의 유효성을 재검토합니다.
핵심 포인트
- MO의 해석 가능성은 훈련 목적 함수와 데이터 파이프라인에 강력하게 의존함
- 기존 사후 SFT/DPO 방식은 해석 가능성을 과도하게 쉽게 만들 수 있음
- 현실적인 통합 훈련 방식은 표준 사후 방법보다 해석 가능성이 낮게 나타남
- 현재 MO가 해석 가능성 프록시로서 갖는 유효성에 의구심 제기
모델 유기체 (Model organisms, MOs) — 원치 않거나 부자연스러운 행동을 보이도록 훈련된 언어 모델 — 는 화이트박스 해석 가능성 (white-box interpretability) 기술을 평가하기 위한 테스트베드로 자주 사용됩니다. 현재의 MO는 일반적으로 행동 전사본(behavioural transcripts) 또는 합성 문서(synthetic documents)에 대한 사후 지도 미세 조정 (post-hoc supervised fine-tuning, SFT)을 통해 구축됩니다. 이전 연구들은 해석 가능성 방법론이 이러한 MO 내의 숨겨진 행동을 쉽게 식별할 수 있음을 보여주었습니다. 그러나 최근 연구는 이러한 사후 훈련 (post-hoc training) 방법론이 해석 가능성을 비현실적으로 쉽게 만들 수 있음을 시사합니다. 우리는 표준 사후 SFT, 사후 DPO, 그리고 OLMo 사후 훈련 DPO 단계로의 보다 현실적인 MO 데이터 통합을 포함하여 7가지 서로 다른 기술로 훈련된 54개의 $\verb|OLMo2-1B|$- 및 $\verb|gemma-3-1b-it|$- 기반 MO 세트를 구축함으로써 이 주장을 조사합니다. 우리는 이러한 MO 변형들을 사용하여 활성화 오라클 (activation oracles), 활성화 스티어링 (activation steering), 로짓 렌즈 (logit lens), 그리고 희소 오토인코더 (sparse autoencoders)를 벤치마킹합니다. 우리의 연구 결과는 다음과 같습니다: (i) MO 해석 가능성은 훈련 목적 함수 (training objective), 대상 행동 (target behaviour), 모델 아키텍처 (model architecture), 그리고 훈련 데이터 생성 파이프라인 (training data generation pipeline)에 강력하게 의존합니다; (ii) 대상 행동 표현의 강도 차이를 통제한 후에도 상당한 변동성이 남아 있습니다; (iii) 우리의 보다 현실적인 통합 훈련 (integrated training)은 표준 사후 방법들보다 종종 해석 가능성이 낮은 MO를 생성합니다. 우리의 결과는 해석 가능성 프록시 (interpretability proxies)로서 현재의 MO가 가진 유효성에 상당한 의구심을 제기합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기