본문으로 건너뛰기

© 2026 Molayo

DeepMind중요헤드라인2026. 04. 23. 23:47

Gemma Scope 2 공개: LLM 내부 작동 원리 분석 도구

요약

DeepMind가 모든 Gemma 3 모델 크기(270M~27B)를 지원하는 포괄적인 해석 가능성(Interpretability) 도구 모음인 'Gemma Scope 2'를 공개했습니다. 이 도구는 LLM의 내부 결정 과정을 투명하게 분석하여, 시스템이 예상대로 작동하지 않을 때 그 원인을 정확히 파악할 수 있게 합니다. Gemma Scope 2는 Sparse Autoencoders (SAEs)와 transcoders를 결합하여 모델의 '사고 과정'을 들여다보게 하며, 해킹(jailbreaks), 환각(hallucinations)과

핵심 포인트

  • Gemma Scope 2는 Gemma 3 계열 전체(270M~27B)를 지원하는 포괄적인 해석 가능성 도구 세트입니다.
  • 이 도구는 SAEs와 transcoders를 활용하여 LLM의 내부 작동 원리와 사고 과정을 분석할 수 있게 합니다.
  • 주요 기능으로는 모델 환각, 보안 취약점(jailbreaks) 등 복잡한 AI 행동을 심층적으로 연구하는 것이 포함됩니다.
  • Matryoshka 훈련 기법과 같은 최신 기술이 적용되어 다단계 계산 및 알고리즘 분석이 용이해졌습니다.

DeepMind는 대규모 언어 모델(LLMs)의 내부 작동 원리를 이해하는 데 필수적인 새로운 해석 가능성 도구 세트, 'Gemma Scope 2'를 공개했습니다. LLM은 뛰어난 추론 능력을 보여주지만, 그 의사 결정 과정은 여전히 불투명한 경우가 많습니다.

Gemma Scope 2는 Gemma 3 모델 계열 전체(270M~27B)에 걸쳐 적용 가능한 포괄적인 도구 모음입니다. 이 도구를 통해 연구자들은 모델의 잠재적 위험 요소를 '뇌' 전체에서 추적할 수 있게 되었습니다.

이전 버전인 Gemma Scope가 안전성 연구의 핵심 영역(예: 환각, 비밀 정보 식별)을 지원했다면, Gemma Scope 2는 더욱 진보한 기능을 제공합니다. Sparse Autoencoders (SAEs)와 transcoders를 결합하여 모델 내부를 현미경으로 관찰하며, 모델이 어떤 내용을 생각하고 어떻게 연결하는지 파악할 수 있습니다.

주요 업그레이드로는 전 규모 지원(Full coverage at scale)과 정교해진 도구들이 있습니다. 특히 Skip-transcoders와 Cross-layer transcoders를 통해 모델 전체에 걸쳐 퍼져있는 다단계 계산 과정을 분석하기 쉬워졌습니다. 또한, Matryoshka 훈련 기법 같은 최신 기술을 적용하여 개념 탐지 능력을 높였습니다.

이 도구는 단순한 연구를 넘어, AI 에이전트의 행동 감사(audit) 및 디버깅에 활용되어 해킹이나 환각과 같은 문제를 해결하는 실용적이고 견고한 안전장치 개발을 가속화할 것으로 기대됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Google DeepMind의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0