잘못된 이유로 인한 강건함: 과학적 회의론에 대한 LLM 강건성의 표현 기하학 (Representational Geometry)
요약
LLM이 과학적 회의론에 직면했을 때 나타내는 강건성을 표현 기하학 관점에서 분석한 연구입니다. 모델별로 반응적 단언, 표면적 유보, 무응답 등 서로 다른 대응 패턴을 보이며, 이러한 특성이 중간 레이어의 활성화 패턴과 연관됨을 밝힙니다.
핵심 포인트
- LLM의 과학적 합의 유지 방식은 모델마다 상이함
- 선형 프로빙을 통해 모델 내부 레이어의 표현 차이 확인
- 강건함은 도메인에 따라 전이되지 않으며 특정 분야에서 약화될 수 있음
- 능동적 강건함과 우연한 강건함을 구분하는 새로운 분류 체계 제안
대규모 언어 모델 (LLMs)은 논쟁적인 과학적 질문에 대해 점점 더 많이 자문을 구하고 있으며, 이는 사용자가 의구심을 나타낼 때 모델이 확립된 합의로부터 아첨하듯(sycophantically) 물러나, 확정된 과학을 여러 관점 중 하나로 취급하는 거짓 균형 (false balance)으로 흐를 수 있다는 우려를 낳고 있습니다. 우리는 세 가지 오픈 인스트럭션 튜닝 모델 (Llama-3.1-8B, Qwen2.5-7B, Mistral-7B), 세 가지 합의 과학 분야 (기후, 백신, 진화), 그리고 단일 및 다회차 (multi-turn) 설정에 걸쳐 행동 측정 (behavioral measurement)을 선형 프로빙 (linear probing) 및 활성화 패칭 (activation patching)과 결합하여 테스트합니다. 우리는 아첨하는 듯한 후퇴를 관찰하지 못했습니다. 대신, 모델들은 동일한 회의적 압박 하에서 세 가지 뚜렷한 정책을 보여줍니다: 합의에 대한 주장이 감소하기보다 오히려 증가하는 반응적 단언 (reactive assertion, Llama); 입장은 유지하면서 어조만 부드러워지는 표면적 유보 (surface hedging, Qwen); 그리고 무응답 (non-response, Mistral)입니다. 쌍체 판단 (Pairwise judgments)은 반응적 변화가 스타일이 아닌 입장 (stance)임을 확인하며 (63.6%, p=.007), 분해 분석 결과 거짓 균형이 아닌 합의에 대한 주장 증가가 그 동인임을 식별합니다 (dose당 beta=+0.042, p<1e-77). 선형 프로브 (Linear probes)는 이러한 발산이 중간 레이어 (middle layers)에 위치함을 국지화합니다 — Llama와 Qwen에서는 완벽한 분리를 보였으나 Mistral에서는 72%를 기록했으며, 신뢰 구간이 겹치지 않았습니다 — 이는 무응답 모델이 회의주의 신호를 선형적으로 전혀 표현하지 않음을 나타냅니다. 결정적으로, 이러한 강건함은 전이되지 않습니다: 이는 도메인에 따라 약화되며, 안전이 중요한 백신 도메인에서는 회의적 압박 하에서 신화 반박이 약화되는 등 반전될 수 있습니다. 우리는 이를 능동적 강건함과 우연한 강건함을 구분하는 4가지 분류 체계로 합성하며, 행동 평가만으로는 신호를 이해하기 때문에 회의주의에 저항하는 모델과, 단지 신호를 인지하지 못해서 저항하는 것처럼 보일 뿐인 모델을 구분할 수 없다고 주장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기