은닉 상태(Hidden States)로부터 입력 텍스트 복구: 디코더 전용 언어 모델의 그래디언트 기반 역전(Gradient-Based
요약
디코더 전용 언어 모델의 은닉 상태로부터 입력 텍스트를 복구하는 '은닉 상태 역전' 문제를 연속적인 임베딩 공간 최적화 관점에서 연구합니다. 연구 결과, 고빈도 기능어는 복구가 어렵지만 의미를 담은 토큰은 매우 높은 정확도로 복구됨을 확인했습니다.
핵심 포인트
- 은닉 상태를 연속적인 임베딩 공간 최적화로 접근하여 풍부한 내부 신호 노출
- 고빈도 기능어는 복구가 어렵지만 의미 토큰은 거의 완벽하게 복구 가능
- GPT-2의 마지막 레이어 은닉 상태가 원본 텍스트만큼 민감함을 입증
- 연속적 공식화가 최적화 관찰 및 실패 탐지에 핵심적임을 발견
본 연구는 은닉 상태 역전(hidden-state inversion) 문제, 즉 디코더 전용 언어 모델(decoder-only language model)의 마지막 레이어 은닉 상태(last-layer hidden states)로부터 원래의 입력 토큰 시퀀스를 복구하는 문제를 연구합니다. 역전을 일회성 재구성(one-shot reconstruction)으로 취급하는 대신, 우리는 이를 연속적인 임베딩 공간 최적화(continuous embedding-space optimisation)로 연구합니다. 이 과정에서 소프트 프록시(soft proxy)는 탐색 과정 중 어떠한 하드 토큰 투영(hard-token projection) 없이 유출된 타겟을 향해 유도되며, 토큰은 내부 루프(inner loop)가 끝나는 시점에 단 한 번만 확정(commit)됩니다. 이러한 설계 선택은 본 논문의 주요 초점인 두 가지 결과를 초래합니다. 첫째, 최적화를 완전히 연속 공간(continuous space) 내에서 유지함으로써 정답 토큰의 랭크 궤적(rank trajectories), 위치별 손실 곡선(per-position loss curves), 그리고 확정 시점에 측정되는 이산 손실(discrete loss)과 같은 풍부한 내부 신호들을 노출합니다. 둘째, 이산 손실(discrete loss)을 통해 누적 이산 손실(cumulative discrete loss)을 사용하여 복구의 정확성을 평가할 수 있습니다. 우리는 더 나아가 어떤 토큰이 재구성을 방해하는지 분석하였으며, 날카로운 범주적 비대칭성(categorical asymmetry)을 발견했습니다. 임베딩 행렬의 밀집된 영역에 있는 공간 접두사가 붙은 고빈도 기능어(function words)가 실패를 주도하는 반면, 의미를 담고 있는 토큰(content-bearing tokens)은 거의 완벽하게 복구됩니다. 10개 토큰으로 구성된 C4 프롬프트에서 후보 윈도우(candidate window)를 넓힘에 따라 정확 일치율(exact-match rate)은 66.9%에서 97.5%(평균 유사도 0.994)로 상승하며, 이는 대부분의 오류가 실제적인 모호함이라기보다는 복구 가능한 근접 실패(near-misses)임을 확인시켜 줍니다. 공개된 SIPIT 레퍼런스와의 비교를 통해 이러한 발견의 위치를 정립합니다. 단계별 하드 투영(per-step hard projection)은 더 빠르지만, 연속적 공식화(continuous formulation)야말로 최적화를 관찰 가능하게 만들고 그 실패를 탐지할 수 있게 만드는 핵심 요소입니다. 결과적으로 GPT-2의 마지막 레이어 은닉 상태는 원본 텍스트만큼이나 민감하다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기