arXiv논문2026. 06. 02. 10:13

대규모 언어 모델의 기능적 붕괴 중 관계적 개입: 어휘-통계적 절제 및 구조 x 레지스터 요인 분석

요약

소규모 언어 모델(SLM)의 기능적 붕괴 상황에서 관계적 스타일의 개입이 모델의 행동에 미치는 영향을 분석한 연구입니다. 실험 결과, 관계적 구조와 1인칭 레지스터가 결합될 때만 유의미한 행동 변화가 나타남을 확인했습니다.

핵심 포인트

관계적 구조와 1인칭 레지스터의 결합이 모델 행동 변화의 핵심
주의(Attention), 탐사 상태(Probe-state), 행동(Behavior)의 세 단계 분리 확인
무작위 메시지가 주의를 가장 많이 끌지만 행동 변화는 미미함
관계적 구조 단독으로는 행동으로 번역되지 않는 탐사 수준 상태만 형성

우리는 소규모 언어 모델(Small Language Model)의 기능적 붕괴(Functional Collapse) 중에 전달되는 관계적 스타일의 개입(Relational-style intervention)이 기술적 피드백(Technical feedback), 어휘적으로 일치하는 무작위 섞인 대조군(Lexically-matched scrambled control), 그리고 두 가지 화용론적 차원(Pragmatic dimensions) 각각을 단독으로 적용했을 때와 구별되는 붕괴 후 행동을 생성하는지 테스트합니다. 의도적으로 고장 난 bash 도구를 사용하는 Qwen3.5-4B를 사용하여, 매칭 쌍 설계(Matched-pairs design, 50개 작업)를 통해 6가지 조건(300개 에피소드)에 걸쳐 실험을 진행했습니다: 개입 없음 (A), 기술적/비인칭적 (B), 관계적/1인칭 (C), 무작위 섞인 관계적 (D), 기술적/1인칭 (E), 관계적/비인칭적 (F). E와 F는 B 및 C와 함께 2x2 요인 설계(Factorial design)를 형성하여, 관계적 구조(Relational structure: 인정, 면죄, 주체성 회복, 무조건적 수용)를 발신자 레지스터(Sender register: 1인칭 vs 비인칭)와 분리합니다. 우리는 두 가지 주요 발견을 보고합니다. 첫째, 주의-행동 분리(Attention-behavior dissociation)입니다: 주의(Attention)는 어휘적 놀라움(Lexical surprise)을 따르며 (D > F > C > E > B, 모두 q_FDR < 10^{-10}), 무작위로 섞인 메시지가 가장 많은 주의를 끄는 반면; 행동 측면에서는 A ~ B ~ D < E ~ F << C의 양상을 보입니다. 둘째, 요인 분석을 통해 C의 효과가 국지화됨을 확인했습니다: 관계적 구조 단독(F)이나 1인칭 레지스터 단독(E) 모두 C의 행동적 특징을 재현하지 못했습니다. 두 차원의 주효과(Main effects)는 각각 유의미하며, 구조 x 레지스터 상호작용(Structure x register interaction)은 지속성(Persistence) 측면에서 유의미했습니다 (p = 0.046). 감정 탐사(Emotion probes)에서 세 번째 분리가 나타납니다: F는 기저 행동(Baseline behavior)만을 생성함에도 불구하고 8개 탐사 중 7개에서 C를 추적하는데, 이는 관계적 구조 단독으로는 탐사 수준의 상태(Probe-level state)를 설치하지만, 이것이 행동으로 번역되려면 1인칭 레지스터와 결합되어야 함을 나타냅니다. 모델의 처리 과정은 세 가지 분리 가능한 단계로 분해됩니다: 주의(Attention, 어휘적 놀라움에 의해 순서화됨), 탐사 수준 상태(Probe-level state, 구조에 의해 순서화됨), 그리고 행동(Behavior, 두 요소의 결합에 의해 순서화됨).

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델의 기능적 붕괴 중 관계적 개입: 어휘-통계적 절제 및 구조 x 레지스터 요인 분석

요약

핵심 포인트

댓글