arXiv논문2026. 06. 15. 12:27

LLM 은닉 상태(Hidden States)에서의 코드 정확성 신호: 생성 전 프로빙(Probing) 및 수정 기하학(Repair

요약

LLM의 은닉 상태(hidden states)를 분석하여 코드 생성 전 정확성을 예측하고, 실패한 코드를 수정할 때 발생하는 상태 변화를 탐구한 연구입니다. Qwen 모델을 통해 은닉 상태에서 코드 정확성 신호를 선형적으로 디코딩할 수 있음을 입증했습니다.

핵심 포인트

프롬프트 마지막 은닉 상태에서 코드 정확성을 높은 AUC(0.931)로 예측 가능
잔차화(residualization) 기법을 통해 프롬프트 길이 효과를 제거한 후에도 높은 성능 유지
실패한 시도를 수정할 때 은닉 상태의 통계적으로 유의미한 변화(shift) 관찰
수정 방향의 변화는 독립적인 이해 특징보다 수정 문맥에 의한 상관관계일 가능성 제시

대규모 언어 모델(Large language models)은 은닉 상태(hidden states)에 풍부한 정보를 인코딩합니다. 본 연구는 444개의 LiveCodeBench 태스크를 대상으로, Qwen3-4B-Instruct-2507의 은닉 상태에서 코드가 생성되기 전과 실패한 시도를 수정하는 과정에서 코드의 정확성(code correctness)을 읽을 수 있는지 탐구합니다. 연구는 단일 교란 통제(confound-control) 도구인 잔차화(residualization)를 통해 연결된 두 가지 발견을 보고합니다. 첫째, 모델의 첫 번째 시도 코드의 정확성은 프롬프트 마지막 은닉 상태(prompt-final hidden state)로부터 선형적으로 디코딩(linearly decodable) 가능하며, 50개의 외부 분할(outer splits)에 대해 누출(leakage)이 없는 홀드아웃(held-out) AUC 0.931 +/- 0.008을 기록했습니다. 각 은닉 상태 차원에서 프롬프트 길이의 선형 효과를 제거한 후에도, 프로브(probe)는 프롬프트 길이 베이스라인인 0.754 +/- 0.014를 훨씬 상회하는 0.911 +/- 0.010에 도달했습니다. 둘째, 모델이 실패한 첫 번째 시도를 수정하려고 시도한 236개의 정제된 사례에서, 실패한 시도에서 수정본으로 이어지는 은닉 상태의 변화(hidden state shift)는 통계적으로 탐지 가능한 대조적 방향(contrastive direction)을 가지며, 이는 크기(magnitude) 및 레이블을 섞은 귀무 가설(label-shuffled nulls)에 대한 분할-반 테스트(split-half test) 모두에서 유의미했습니다. 그러나 이 방향은 성공적인 수정과 실패한 수정 사이에서 차이를 보이는 수정 문맥 공변량(repair-context covariates)에 대한 조건부 잔차화(conditional residualization)를 적용했을 때 유지되지 않았으며, 이는 해당 방향이 고립된 수정 이해(repair-comprehension) 특징이라기보다 수정 문맥에 의해 유도된 수정 성공의 상관관계임을 나타냅니다. 프로브 레이어(probe layer)는 중첩 교차 검증(nested cross-validation)을 통해 선택되었으며, 생성 전 정확성 결과를 뒷받침하는 것과 동일한 잔차화 접근 방식이 수정 방향(repair-direction) 해석을 뒤집었습니다. 본 연구의 기여는 경험적인 것만큼이나 방법론적이기도 합니다. 즉, 긍정적인 결과와 함께 부정적인 결과까지 보고할 수 있을 만큼 정직한 진단 도구를 제시했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 은닉 상태(Hidden States)에서의 코드 정확성 신호: 생성 전 프로빙(Probing) 및 수정 기하학(Repair

요약

핵심 포인트

댓글