Qwen-Scope: Qwen 3.5 모델 공식 희소 오토인코더 (SAE)
요약
Qwen 팀이 Qwen 3.5 모델 패밀리(2B~35B MoE)을 위한 Sparse Autoencoders (SAEs) 모음집인 Qwen-Scope를 출시했습니다. 이 도구는 모델의 내부 개념 사전 역할을 하여, '법적 대화'나 '파이썬 코드'와 같은 특정 기능 ID를 식별할 수 있게 합니다. 사용자는 이를 통해 원치 않는 행동(예: 거절이나 도덕화)을 정밀하게 억제하거나, 원하는 스타일/개념을 강제로 활성화하여 모델의 출력을 미세 조정하고 디버깅할 수 있습니다.
핵심 포인트
- Qwen-Scope는 Qwen 3.5 모델의 내부 개념 사전(Sparse Autoencoders) 역할을 합니다.
- 특정 기능 ID를 식별하여, 거절이나 도덕화 같은 원치 않는 행동을 정밀하게 '수술적 제거'할 수 있습니다.
- 원하는 스타일이나 개념을 특정 Feature ID에 주입하여 모델 출력을 능동적으로 '스티어링(Feature Steering)' 할 수 있습니다.
- 모델의 이상 행동 발생 시, 어떤 내부 기능이 과활성화되었는지 진단하고 디버깅하는 데 활용 가능합니다.
Qwen 팀은 Qwen-Scope를 출시했습니다. 이는 Qwen 3.5 패밀리(2B 에서 35B MoE 까지) 에 대한 Sparse Autoencoders(SAEs) 모음집입니다. 모든 레이어의 잔류 스트림 (residual stream) 에 대해 내부 기능을 매핑했습니다.
이것은 정확히 무엇인가요? 모델의 내부 개념 사전으로 생각하시면 됩니다. 원본 숫자를 보지 않고, "법적 대화", "파이썬 코드", 또는 "거절"과 같은 개념을 나타내는 특정 "기능 (features)"을 볼 수 있습니다.
이것으로 무엇을 할 수 있나요?
- 수술적 제거 (Surgical Abliteration): 거절이나 도덕화 (moralizing)에 대한 정확한 기능 ID 를 찾아 이를 억제할 수 있습니다. 이는 표준 "평균 차이 (mean difference)" 방법보다 훨씬 정밀하며, 추론 능력을 보존하는 데 도움이 됩니다. *참고: 파일이 기술적으로 허용성 높은 Apache 2.0 라이선스 하에 출시되었음에도 불구하고, Qwen 팀은 주의 사항에서 이러한 도구를 안전 필터 제거나 "모델 능력 간섭" 목적으로 사용하는 것을 엄격히 금지하고 있습니다.
- 기능 스티어링 (Feature Steering): 생성 과정에서 특정 개념을 "강제 활성화 (force-activate)"할 수 있습니다. 예를 들어, 기능 방향을 잠재 상태 (hidden states) 에 주입하여 모델을 더 기술적으로 만들거나 특정 스타일을 강제하는 등의 작업을 할 수 있습니다.
- 모델 디버깅: 예상치 못한 언어 전환이나 거절과 같은 특정 내부 방향을 트리거하는 토큰을 식별할 수 있습니다.
- 데이터셋 분석: 파인튜닝 데이터가 의도된 내부 기능을 실제로 활성화하는지 스캔하여 확인할 수 있습니다.
실제 작동 방식 (Space 데모 예시):
- 진단: 모델이 이상하게 행동할 경우 — 예를 들어 영어로 질문했지만 갑자기 중국어를 섞어 쓰기 시작한다면 — Feature Comparison 탭을 사용할 수 있습니다. 이는 정확히 어떤 Feature ID 가 급증했는지 보여줍니다. 예를 들어, "Feature #6159" (중국어 언어) 가 과활성화되었음을 보여주는 히트맵을 볼 수 있습니다.
- 제어 (스티어링): ID 를 알게 되면 Feature Steering 탭을 사용하여 해당 특정 기능을 "무음 (mute)"하거나 다른 기능들 (예: "고전 문학 스타일") 을 "증폭 (amplify)"할 수 있습니다. 프롬프트로 모델을 대결하는 대신, 문자 그대로 모델의 뇌에서 볼륨 조절기를 돌리는 것입니다.
Space: https://huggingface.co/spaces/Qwen/QwenScope
논문: https://qianwen-res.oss-accelerate.aliyuncs.com/qwen-scope/Qwen_Scope.pdf
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기