Gemma Scope 2 공개: LLM 내부 작동 원리 분석 도구

DeepMind는 대규모 언어 모델(LLMs)의 내부 작동 원리를 이해하는 데 필수적인 새로운 해석 가능성 도구 세트, 'Gemma Scope 2'를 공개했습니다. LLM은 뛰어난 추론 능력을 보여주지만, 그 의사 결정 과정은 여전히 불투명한 경우가 많습니다.

Gemma Scope 2는 Gemma 3 모델 계열 전체(270M~27B)에 걸쳐 적용 가능한 포괄적인 도구 모음입니다. 이 도구를 통해 연구자들은 모델의 잠재적 위험 요소를 '뇌' 전체에서 추적할 수 있게 되었습니다.

이전 버전인 Gemma Scope가 안전성 연구의 핵심 영역(예: 환각, 비밀 정보 식별)을 지원했다면, Gemma Scope 2는 더욱 진보한 기능을 제공합니다. Sparse Autoencoders (SAEs)와 transcoders를 결합하여 모델 내부를 현미경으로 관찰하며, 모델이 어떤 내용을 생각하고 어떻게 연결하는지 파악할 수 있습니다.

주요 업그레이드로는 전 규모 지원(Full coverage at scale)과 정교해진 도구들이 있습니다. 특히 Skip-transcoders와 Cross-layer transcoders를 통해 모델 전체에 걸쳐 퍼져있는 다단계 계산 과정을 분석하기 쉬워졌습니다. 또한, Matryoshka 훈련 기법 같은 최신 기술을 적용하여 개념 탐지 능력을 높였습니다.

이 도구는 단순한 연구를 넘어, AI 에이전트의 행동 감사(audit) 및 디버깅에 활용되어 해킹이나 환각과 같은 문제를 해결하는 실용적이고 견고한 안전장치 개발을 가속화할 것으로 기대됩니다.

Insights

Gemma Scope 2 공개: LLM 내부 작동 원리 분석 도구

요약

핵심 포인트

댓글

잠긴 기기의 데이터 추출을 막는 GrapheneOS 보호 체계

Ruff v0.16.0 — 기본 규칙이 59개에서 413개로 대폭 확대

저렴한 모델들이 AI 라우팅(Routing)을 인프라로 변화시키고 있다

JPMorgan, 대부분의 미국인이 22,700% 랠리를 놓친 가운데 저금리 시대의 종말 경고

Ruff v0.16.0 — 기본 규칙이 59개에서 413개로 대폭 확대

저렴한 모델들이 AI 라우팅(Routing)을 인프라로 변화시키고 있다

JPMorgan, 대부분의 미국인이 22,700% 랠리를 놓친 가운데 저금리 시대의 종말 경고