은닉 상태(Hidden States)로부터 입력 텍스트 복구: 디코더 전용 언어 모델의 그래디언트 기반 역전(Gradient-Based

본 연구는 은닉 상태 역전(hidden-state inversion) 문제, 즉 디코더 전용 언어 모델(decoder-only language model)의 마지막 레이어 은닉 상태(last-layer hidden states)로부터 원래의 입력 토큰 시퀀스를 복구하는 문제를 연구합니다. 역전을 일회성 재구성(one-shot reconstruction)으로 취급하는 대신, 우리는 이를 연속적인 임베딩 공간 최적화(continuous embedding-space optimisation)로 연구합니다. 이 과정에서 소프트 프록시(soft proxy)는 탐색 과정 중 어떠한 하드 토큰 투영(hard-token projection) 없이 유출된 타겟을 향해 유도되며, 토큰은 내부 루프(inner loop)가 끝나는 시점에 단 한 번만 확정(commit)됩니다. 이러한 설계 선택은 본 논문의 주요 초점인 두 가지 결과를 초래합니다. 첫째, 최적화를 완전히 연속 공간(continuous space) 내에서 유지함으로써 정답 토큰의 랭크 궤적(rank trajectories), 위치별 손실 곡선(per-position loss curves), 그리고 확정 시점에 측정되는 이산 손실(discrete loss)과 같은 풍부한 내부 신호들을 노출합니다. 둘째, 이산 손실(discrete loss)을 통해 누적 이산 손실(cumulative discrete loss)을 사용하여 복구의 정확성을 평가할 수 있습니다. 우리는 더 나아가 어떤 토큰이 재구성을 방해하는지 분석하였으며, 날카로운 범주적 비대칭성(categorical asymmetry)을 발견했습니다. 임베딩 행렬의 밀집된 영역에 있는 공간 접두사가 붙은 고빈도 기능어(function words)가 실패를 주도하는 반면, 의미를 담고 있는 토큰(content-bearing tokens)은 거의 완벽하게 복구됩니다. 10개 토큰으로 구성된 C4 프롬프트에서 후보 윈도우(candidate window)를 넓힘에 따라 정확 일치율(exact-match rate)은 66.9%에서 97.5%(평균 유사도 0.994)로 상승하며, 이는 대부분의 오류가 실제적인 모호함이라기보다는 복구 가능한 근접 실패(near-misses)임을 확인시켜 줍니다. 공개된 SIPIT 레퍼런스와의 비교를 통해 이러한 발견의 위치를 정립합니다. 단계별 하드 투영(per-step hard projection)은 더 빠르지만, 연속적 공식화(continuous formulation)야말로 최적화를 관찰 가능하게 만들고 그 실패를 탐지할 수 있게 만드는 핵심 요소입니다. 결과적으로 GPT-2의 마지막 레이어 은닉 상태는 원본 텍스트만큼이나 민감하다는 것을 보여줍니다.

Insights

은닉 상태(Hidden States)로부터 입력 텍스트 복구: 디코더 전용 언어 모델의 그래디언트 기반 역전(Gradient-Based

요약

핵심 포인트

댓글

일본이 이민 대신 로봇을 택했다 — 1000만 대 국가 전략 공식화

같은 GPU를 두고 메타는 +10%, CoreWeave와 Nebius는 -15%가 났다. 이 갈림이 AI 인프라판의 다음 챕터다.

유타 사막에서 소형 원자로가 엔비디아 블랙웰에 직접 전기를 꽂았다. 소형로가 데이터센터를 돌린 건 이번이 처음이다.

네이버가 제 손으로 검색창을 지우기 시작했다 — AI 쇼핑 에이전트 정식 전환

일본이 이민 대신 로봇을 택했다 — 1000만 대 국가 전략 공식화

같은 GPU를 두고 메타는 +10%, CoreWeave와 Nebius는 -15%가 났다. 이 갈림이 AI 인프라판의 다음 챕터다.

유타 사막에서 소형 원자로가 엔비디아 블랙웰에 직접 전기를 꽂았다. 소형로가 데이터센터를 돌린 건 이번이 처음이다.

네이버가 제 손으로 검색창을 지우기 시작했다 — AI 쇼핑 에이전트 정식 전환