본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 01. 03:23

Qwen-Scope: Qwen 3.5 모델 공식 희소 오토인코더 (SAE)

요약

Qwen 팀이 Qwen 3.5 모델 패밀리(2B~35B MoE)을 위한 Sparse Autoencoders (SAEs) 모음집인 Qwen-Scope를 출시했습니다. 이 도구는 모델의 내부 개념 사전 역할을 하여, '법적 대화'나 '파이썬 코드'와 같은 특정 기능 ID를 식별할 수 있게 합니다. 사용자는 이를 통해 원치 않는 행동(예: 거절이나 도덕화)을 정밀하게 억제하거나, 원하는 스타일/개념을 강제로 활성화하여 모델의 출력을 미세 조정하고 디버깅할 수 있습니다.

핵심 포인트

  • Qwen-Scope는 Qwen 3.5 모델의 내부 개념 사전(Sparse Autoencoders) 역할을 합니다.
  • 특정 기능 ID를 식별하여, 거절이나 도덕화 같은 원치 않는 행동을 정밀하게 '수술적 제거'할 수 있습니다.
  • 원하는 스타일이나 개념을 특정 Feature ID에 주입하여 모델 출력을 능동적으로 '스티어링(Feature Steering)' 할 수 있습니다.
  • 모델의 이상 행동 발생 시, 어떤 내부 기능이 과활성화되었는지 진단하고 디버깅하는 데 활용 가능합니다.

Qwen 팀은 Qwen-Scope를 출시했습니다. 이는 Qwen 3.5 패밀리(2B 에서 35B MoE 까지) 에 대한 Sparse Autoencoders(SAEs) 모음집입니다. 모든 레이어의 잔류 스트림 (residual stream) 에 대해 내부 기능을 매핑했습니다.

이것은 정확히 무엇인가요? 모델의 내부 개념 사전으로 생각하시면 됩니다. 원본 숫자를 보지 않고, "법적 대화", "파이썬 코드", 또는 "거절"과 같은 개념을 나타내는 특정 "기능 (features)"을 볼 수 있습니다.

이것으로 무엇을 할 수 있나요?

  1. 수술적 제거 (Surgical Abliteration): 거절이나 도덕화 (moralizing)에 대한 정확한 기능 ID 를 찾아 이를 억제할 수 있습니다. 이는 표준 "평균 차이 (mean difference)" 방법보다 훨씬 정밀하며, 추론 능력을 보존하는 데 도움이 됩니다. *참고: 파일이 기술적으로 허용성 높은 Apache 2.0 라이선스 하에 출시되었음에도 불구하고, Qwen 팀은 주의 사항에서 이러한 도구를 안전 필터 제거나 "모델 능력 간섭" 목적으로 사용하는 것을 엄격히 금지하고 있습니다.
  2. 기능 스티어링 (Feature Steering): 생성 과정에서 특정 개념을 "강제 활성화 (force-activate)"할 수 있습니다. 예를 들어, 기능 방향을 잠재 상태 (hidden states) 에 주입하여 모델을 더 기술적으로 만들거나 특정 스타일을 강제하는 등의 작업을 할 수 있습니다.
  3. 모델 디버깅: 예상치 못한 언어 전환이나 거절과 같은 특정 내부 방향을 트리거하는 토큰을 식별할 수 있습니다.
  4. 데이터셋 분석: 파인튜닝 데이터가 의도된 내부 기능을 실제로 활성화하는지 스캔하여 확인할 수 있습니다.

실제 작동 방식 (Space 데모 예시):

  • 진단: 모델이 이상하게 행동할 경우 — 예를 들어 영어로 질문했지만 갑자기 중국어를 섞어 쓰기 시작한다면 — Feature Comparison 탭을 사용할 수 있습니다. 이는 정확히 어떤 Feature ID 가 급증했는지 보여줍니다. 예를 들어, "Feature #6159" (중국어 언어) 가 과활성화되었음을 보여주는 히트맵을 볼 수 있습니다.
  • 제어 (스티어링): ID 를 알게 되면 Feature Steering 탭을 사용하여 해당 특정 기능을 "무음 (mute)"하거나 다른 기능들 (예: "고전 문학 스타일") 을 "증폭 (amplify)"할 수 있습니다. 프롬프트로 모델을 대결하는 대신, 문자 그대로 모델의 뇌에서 볼륨 조절기를 돌리는 것입니다.

Space: https://huggingface.co/spaces/Qwen/QwenScope

논문: https://qianwen-res.oss-accelerate.aliyuncs.com/qwen-scope/Qwen_Scope.pdf

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0