arXiv논문2026. 06. 01. 12:36

내가 놓치고 있는 것은 무엇인가? 은닉 상태 프로빙 (Hidden State Probing)으로서의 질의응답

요약

LLM의 추론 과정에서 은닉 상태(Hidden state)를 분석하기 위해 '질문하기'를 프로빙 기법으로 제안합니다. 질문 생성 과정의 자기 진단 신호를 통해 정답 여부를 예측할 수 있으며, 이를 활용한 게이팅 정책의 효과와 한계를 탐구합니다.

핵심 포인트

질문하기를 통한 은닉 상태 프로빙 기법 제안
질문 생성 중 발생하는 자기 진단 신호의 유효성 확인
정답 가능성을 극대화하는 게이팅 정책 정의
탐지와 복구 사이의 격차 및 자기 개선 능력의 한계 발견

대규모 언어 모델 (LLMs)에서 사고의 사슬 (Chain-of-Thought, CoT) 추론이 도입된 이후, 테스트 시간 추론 (Test-time reasoning)은 중요한 연구 분야가 되었습니다. 그러나 이러한 추론 과정의 메커니즘은 여전히 충분히 탐구되지 않았습니다. 동일한 입력 프롬프트, 심지어 동일한 부분적인 해결책으로부터도 LLMs는 여러 번 샘플링할 경우 다양한 답변을 생성할 수 있습니다. 우리는 모델의 은닉 상태 (Hidden state)에 대한 정보를 명확히 드러내는 추론 시간 개입 (Inference-time intervention)으로서 질문하기 (Question-asking)를 활용할 것을 제안합니다. 이를 달성하기 위해, 우리는 학생이 교사에게 질문을 하는 학생-교사 (Student-teacher) 설정을 제시합니다. 우리는 질문을 하기 전과 후의 학생의 은닉 상태에 대해 프로브 (Probe)를 학습시켰으며, 이것이 교사의 답변을 생성하기도 전에 궤적 (Trajectory)의 최종 정답 여부를 예측할 수 있음을 발견했습니다. 이는 정보가 교사로부터 전달되는 것이 아니라, 질문 생성 중에 발생하는 자기 진단 (Self-diagnosis)으로부터 의미 있는 신호가 존재함을 시사합니다. 그런 다음 우리는 이 프로브를 품질 점수로 사용하여 질문하기를 순차적 의사 결정 문제 (Sequential decision problem)로 구성하고, 정답 가능성을 극대화하는 질문을 던지는 게이팅 정책 (Gating policy)을 정의합니다. 우리는 질문하기 개입의 성공 여부가 모델의 자기 일관성 (Self-consistency)에 크게 의존한다는 것을 발견했습니다. 우리의 실증적 결과는 탐지 (Detection)와 복구 (Recovery) 사이의 격차를 보여줍니다. 우리의 게이팅 정책은 모델의 정답 여부와 불확실성을 포착하지만, 개입은 잘못된 궤적을 복구할 확률만큼이나 올바른 궤적을 해칠 확률도 동일하게 높습니다. 진단과 교정 사이의 이러한 격차는 불확실성 하에서 언어 모델의 자기 개선 (Self-refinement) 능력에 대해 더 넓은 시사점을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

내가 놓치고 있는 것은 무엇인가? 은닉 상태 프로빙 (Hidden State Probing)으로서의 질의응답

요약

핵심 포인트

댓글