r/LocalLLaMA분석2026. 05. 08. 22:42

You can now read Gemma 3's mind

요약

Anthropic은 'Natural Language Autoencoders (NLA)'라는 새로운 연구를 발표하며, 대규모 언어 모델(LLM)이 다음 토큰을 생성할 때 내부적으로 어떤 생각을 했는지 보여주는 방법을 제시했습니다. 이 기술은 LLM의 내부 활성화 값을 사람이 읽기 쉬운 텍스트로 번역하는 'Auto Verbalizer (AV)'와 그 역변환을 검증하는 'Activation Reconstructor (AR)' 모델 가중치 형태로 제공됩니다. 사용자는 Neuronpedia 플랫폼을 통해 Gemma 3에 질문하고, 특정 토큰의 생성 과정에서 모델이 어떤 내부적인 추론 과정을 거쳤는지 확인할 수 있습니다.

핵심 포인트

Anthropic은 NLA(Natural Language Autoencoders)를 사용하여 LLM의 내부 사고 과정을 가시화하는 방법을 개발했습니다.
제공된 모델에는 활성화 값을 텍스트로 번역하는 'Auto Verbalizer (AV)'와 그 역변환을 검증하는 'Activation Reconstructor (AR)'가 포함됩니다.
사용자는 Neuronpedia 플랫폼에서 Gemma 3에 질문하고, 특정 토큰의 생성 시점에서의 모델 내부 추론 과정을 확인할 수 있습니다.
이 기술은 LLM의 투명성과 해석 가능성(Interpretability)을 높이는 데 기여합니다.

Anthropic 은 NLA 또는 "Natural Language Autoencoders" 를 사용하여 다음 토큰을 생성할 때 LLM 이 무엇을 생각했는지 보여주는 새로운 연구를 발표했습니다. NLAs 는 특정 토큰의 LLM 내부 생각을 번역할 수 있는 LLM 쌍입니다.

Neuronpedia 와 함께 Anthropic 은 Gemma 3 27b instruct 의 NLA 모델 가중치를 다음 주소에서 출시했습니다:

Auto Verbalizer (AV): https://huggingface.co/kitft/nla-gemma3-27b-L41-av
Activation Reconstructor (AR): https://huggingface.co/kitft/nla-gemma3-27b-L41-ar

그리고 Neuronpedia 는 현재 해당 모델을 https://www.neuronpedia.org/gemma-3-27b-it/nla 에서 호스팅하고 있습니다.

따라서 위의 neuronpedia 링크로 이동하여 Gemma 3 에 질문을 하고, 토큰 중 하나를 클릭한 후 explain 을 클릭하면 해당 토큰 생성 시 모델이 무엇을 생각했는지 사이트를 통해 보여줍니다.

Auto Verbalizer (LLM) 은 LLM 의 활성화 값을 읽기 쉬운 텍스트로 번역하고, Activation Reconstructor 는 AV 가 생성한 텍스트가 다시 LLM 활성화 값으로 번역될 수 있는지 확인하기 위한 것입니다.

편집 (아래에 예시를 추가했습니다):

따라서 저는 Gemma 3 에 "I am Elon musk" 를 입력했고, 첫 번째 토큰부터 LLM 은 해당 채팅을 "fabricated" 및 "satirical" 로 표시했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

You can now read Gemma 3's mind

요약

핵심 포인트

댓글