모델 유기체 복권: 모델 유기체 해석 가능성은 훈련 방법론에 강력하게 의존한다

모델 유기체 (Model organisms, MOs) — 원치 않거나 부자연스러운 행동을 보이도록 훈련된 언어 모델 — 는 화이트박스 해석 가능성 (white-box interpretability) 기술을 평가하기 위한 테스트베드로 자주 사용됩니다. 현재의 MO는 일반적으로 행동 전사본(behavioural transcripts) 또는 합성 문서(synthetic documents)에 대한 사후 지도 미세 조정 (post-hoc supervised fine-tuning, SFT)을 통해 구축됩니다. 이전 연구들은 해석 가능성 방법론이 이러한 MO 내의 숨겨진 행동을 쉽게 식별할 수 있음을 보여주었습니다. 그러나 최근 연구는 이러한 사후 훈련 (post-hoc training) 방법론이 해석 가능성을 비현실적으로 쉽게 만들 수 있음을 시사합니다. 우리는 표준 사후 SFT, 사후 DPO, 그리고 OLMo 사후 훈련 DPO 단계로의 보다 현실적인 MO 데이터 통합을 포함하여 7가지 서로 다른 기술로 훈련된 54개의 $\verb|OLMo2-1B|$- 및 $\verb|gemma-3-1b-it|$- 기반 MO 세트를 구축함으로써 이 주장을 조사합니다. 우리는 이러한 MO 변형들을 사용하여 활성화 오라클 (activation oracles), 활성화 스티어링 (activation steering), 로짓 렌즈 (logit lens), 그리고 희소 오토인코더 (sparse autoencoders)를 벤치마킹합니다. 우리의 연구 결과는 다음과 같습니다: (i) MO 해석 가능성은 훈련 목적 함수 (training objective), 대상 행동 (target behaviour), 모델 아키텍처 (model architecture), 그리고 훈련 데이터 생성 파이프라인 (training data generation pipeline)에 강력하게 의존합니다; (ii) 대상 행동 표현의 강도 차이를 통제한 후에도 상당한 변동성이 남아 있습니다; (iii) 우리의 보다 현실적인 통합 훈련 (integrated training)은 표준 사후 방법들보다 종종 해석 가능성이 낮은 MO를 생성합니다. 우리의 결과는 해석 가능성 프록시 (interpretability proxies)로서 현재의 MO가 가진 유효성에 상당한 의구심을 제기합니다.

Insights

모델 유기체 복권: 모델 유기체 해석 가능성은 훈련 방법론에 강력하게 의존한다

요약

핵심 포인트

댓글

메타發 AI 인프라 우려에 메모리주 급락…마이크론·샌디스크 10%대 하락

이 설정을 통해 Hermes 에이전트의 토큰 비용을 대폭 절감하세요

생각보다 더 놀라운 결과: Fable-5가 Remote Labor Index에서 16.10%를 기록했습니다

애플이 글로벌 메모리 쇼티지 대응을 위해 중국 메모리 업체와 협상 중인 것으로 알려졌다.

메타發 AI 인프라 우려에 메모리주 급락…마이크론·샌디스크 10%대 하락

이 설정을 통해 Hermes 에이전트의 토큰 비용을 대폭 절감하세요

생각보다 더 놀라운 결과: Fable-5가 Remote Labor Index에서 16.10%를 기록했습니다

애플이 글로벌 메모리 쇼티지 대응을 위해 중국 메모리 업체와 협상 중인 것으로 알려졌다.