잘못된 이유로 인한 강건함: 과학적 회의론에 대한 LLM 강건성의 표현 기하학 (Representational Geometry)

대규모 언어 모델 (LLMs)은 논쟁적인 과학적 질문에 대해 점점 더 많이 자문을 구하고 있으며, 이는 사용자가 의구심을 나타낼 때 모델이 확립된 합의로부터 아첨하듯(sycophantically) 물러나, 확정된 과학을 여러 관점 중 하나로 취급하는 거짓 균형 (false balance)으로 흐를 수 있다는 우려를 낳고 있습니다. 우리는 세 가지 오픈 인스트럭션 튜닝 모델 (Llama-3.1-8B, Qwen2.5-7B, Mistral-7B), 세 가지 합의 과학 분야 (기후, 백신, 진화), 그리고 단일 및 다회차 (multi-turn) 설정에 걸쳐 행동 측정 (behavioral measurement)을 선형 프로빙 (linear probing) 및 활성화 패칭 (activation patching)과 결합하여 테스트합니다. 우리는 아첨하는 듯한 후퇴를 관찰하지 못했습니다. 대신, 모델들은 동일한 회의적 압박 하에서 세 가지 뚜렷한 정책을 보여줍니다: 합의에 대한 주장이 감소하기보다 오히려 증가하는 반응적 단언 (reactive assertion, Llama); 입장은 유지하면서 어조만 부드러워지는 표면적 유보 (surface hedging, Qwen); 그리고 무응답 (non-response, Mistral)입니다. 쌍체 판단 (Pairwise judgments)은 반응적 변화가 스타일이 아닌 입장 (stance)임을 확인하며 (63.6%, p=.007), 분해 분석 결과 거짓 균형이 아닌 합의에 대한 주장 증가가 그 동인임을 식별합니다 (dose당 beta=+0.042, p<1e-77). 선형 프로브 (Linear probes)는 이러한 발산이 중간 레이어 (middle layers)에 위치함을 국지화합니다 — Llama와 Qwen에서는 완벽한 분리를 보였으나 Mistral에서는 72%를 기록했으며, 신뢰 구간이 겹치지 않았습니다 — 이는 무응답 모델이 회의주의 신호를 선형적으로 전혀 표현하지 않음을 나타냅니다. 결정적으로, 이러한 강건함은 전이되지 않습니다: 이는 도메인에 따라 약화되며, 안전이 중요한 백신 도메인에서는 회의적 압박 하에서 신화 반박이 약화되는 등 반전될 수 있습니다. 우리는 이를 능동적 강건함과 우연한 강건함을 구분하는 4가지 분류 체계로 합성하며, 행동 평가만으로는 신호를 이해하기 때문에 회의주의에 저항하는 모델과, 단지 신호를 인지하지 못해서 저항하는 것처럼 보일 뿐인 모델을 구분할 수 없다고 주장합니다.

Insights

잘못된 이유로 인한 강건함: 과학적 회의론에 대한 LLM 강건성의 표현 기하학 (Representational Geometry)

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때