arXiv논문2026. 06. 09. 10:44

올바른 결정이 내부적 스트레스를 숨길 때: 멀티모달 언어 모델의 결정 상태 프로빙 (Decision-State Probing)

요약

멀티모달 언어 모델의 외부 행동과 내부 결정 상태 사이의 불일치를 분석하는 S³E 프레임워크를 제안합니다. 모델이 정답을 맞히더라도 의미론적 스트레스 상황에서 내부 은닉 상태가 불안정하게 변할 수 있음을 실험적으로 증명했습니다.

핵심 포인트

S³E 프레임워크를 통한 모델의 행동-내부 디커플링 분석
정답 선택이 내부 결정 상태의 안정성을 보장하지 않음
Qwen3VL, Gemma3, InternVL3 대상 실험 수행
의미론적 스트레스에 따른 결정 상태의 과잉 변위 확인

멀티모달 언어 모델 (Multimodal language models)은 일반적으로 외부 행동을 통해 평가됩니다. 즉, 올바른 이미지-텍스트 매칭을 선택하거나, 지원되지 않는 캡션을 거부하거나, 시각적 질의에 올바르게 답변하는 방식입니다. 그러나 올바른 행동만으로는 통제된 의미론적 스트레스 (semantic stress) 하에서 모델의 내부 결정 상태 (internal decision state)가 안정적으로 유지되는지 보여주지 못합니다. 우리는 멀티모달 언어 모델의 행동-내부 디커플링 (behavior-internal decoupling)을 분석하기 위한 프레임워크인 S$^3$E (Structured Semantic Stress Evaluation)를 통해 이러한 간극을 연구합니다. S$^3$E는 긍정적 앵커가 포함된 A/B 강제 선택 (forced-choice) 설정을 사용하며, 여기서 이미지에 의해 지원되는 캡션은 원래의 옵션 순서와 바뀐 옵션 순서 모두에서 의미론적 스트레스 후보들과 대조됩니다. 동시에 답변 전 결정 상태 (pre-answer decision state)에서 은닉 상태 (hidden states)를 추출합니다. 우리는 모델이 두 순서 모두에서 일관되게 올바른 캡션을 선택하는 엄격한 정답 시도 (strict-correct trials)에 집중합니다. 임의의 은닉 상태 변화를 불안정성의 증거로 취급하는 대신, 우리는 의미를 보존하는 대조군 (meaning-preserving controls)에 비해 의미 충돌 후보 (semantic-conflict candidates)가 과도한 결정 상태 변위 (decision-state displacement)를 유도하는지 측정합니다. Qwen3VL, Gemma3, 그리고 InternVL3를 대상으로 한 실험 결과, 강제 선택 행동이 올바름에도 불구하고 의미론적 스트레스는 어휘적 대조군 (lexical controls)에 비해 선택된 레이어에서 일관되게 양(+)의 과잉 변위를 생성하는 반면, 무작위 부정 사례 (random negatives)와의 비교 결과는 모델에 따라 달랐습니다. 우리는 이를 다운스트림 실패 (downstream failure)나 환각 (hallucination)의 증거라기보다, 범위가 제한된 결정 상태 스트레스 민감도 신호 (scoped decision-state stress-sensitivity signal)로 해석합니다. 우리의 결과는 강제 선택의 정확성만으로는 불변하는 내부 결정 기하학 (invariant internal decision geometry)을 보장하는 충분한 인증서가 될 수 없음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

올바른 결정이 내부적 스트레스를 숨길 때: 멀티모달 언어 모델의 결정 상태 프로빙 (Decision-State Probing)

요약

핵심 포인트

댓글