LLM 에이전트는 언제 표면적 노이즈와 의미적 노이즈를 다르게 취급하는가? 별도의 검증 데이터(Held-Out)를 통한 Trace-Level
요약
LLM 에이전트가 의미적 노이즈와 표현 방식의 노이즈를 다르게 처리하는 현상을 분석한 연구입니다. 실험 결과, 의미적 변화가 단순 포맷 변경보다 최종 답변에 더 큰 영향을 미치며, 이는 추론 과정 중 '스텔스 발산'을 통해 나타남을 확인했습니다.
핵심 포인트
- 의미적 섭동이 표현 방식의 섭동보다 답변 불일치를 더 자주 유발함
- 의미적 변화는 첫 단계는 유지하되 중간 추론 단계에서 발산을 유도함
- 기존의 두 가지 메커니즘 주장은 재현에 실패하여 철회됨
- Qwen2.5 모델을 통한 별도 검증으로 '스텔스 발산' 양상을 입증함
우리는 7개의 아키텍처 패밀리(architecture families)에 속하는 10개의 대규모 언어 모델(LLM)로 구동되는 Chain-of-Thought (CoT) 및 ReAct 에이전트에서 나타나는 경험적 현상을 기록합니다. 즉, 의미를 담고 있는 섭동(meaning-bearing perturbations, 예: 의역, 유의어 교체)이 유사한 수준의 심각도를 가진 표현 방식의 섭동(presentation perturbations, 예: 포맷팅, 순서 변경)보다 최종 답변을 더 자주 변화시킨다는 점입니다. GSM8K, MATH, HotpotQA를 아우르는 68개의 셀(cells)에 걸쳐(원본 1,530개 및 약 11,150개의 변형본), 심각도 매칭(severity matching) 후 불일치 격차(inconsistency gap)는 평균 +19.69 pp로 나타났으며(paired $t=9.58$, $p<0.0001$), 68개 셀 중 64개에서 양의 값을 보였습니다. 이 격차는 4가지 심각도 대리 감사(severity-proxy audits)를 통과하였으며, qwen 모델을 제외하더라도 유의미하게 유지되었습니다(+11.10 pp, $p<0.0001$). 몇몇 스트레스 테스트(stress tests)는 정직하게 실패했습니다: 더 엄격한 가정 하에서는 클러스터 부트스트랩(cluster-bootstrap) 유의성이 사라졌고, 실행 가능성(tractability)의 대조는 재현되지 않았으며, 아키텍처 간 생성기 교체(cross-architecture generator swaps)는 셀별 순위를 깨뜨렸고, 두 번째 LLM 판정관은 중간 정도의 일치도($κ=0.50$)만을 보였습니다. 이후 우리는 완전히 분리된 11번째 모델(qwen2.5-14B-Instruct; 1,800개의 궤적(trajectories))을 통해 핵심 효과를 검증하였고, 사전 등록된 능력$ imes$실행 가능성(capability$ imes$tractability) 분할을 재테스트하여 작지만 양의 검증 효과를 관찰했습니다(4개 셀 중 3개 양수; pooled Welch $t=3.81$, $p=9.6 imes10^{-4}$). 분리된 궤적을 사용하여 우리는 네 가지 Trace-Level 메커니즘 신호를 조사했습니다. 기존의 두 가지 메커니즘 주장은 재현에 실패하여 명시적으로 철회되었습니다. 대신 두 가지 새로운 조사 결과는 '스텔스 발산(stealth-divergence)' 양상을 뒷받침합니다: 의미적 섭동은 종종 첫 번째 행동은 유지하지만, 이후 단계부터 중간 추론(intermediate reasoning)에서 발산을 유도하며, 약간 더 깊은 궤적을 동반합니다. 우리는 이를 별도의 검증(held-out replication)을 포함한 측정 기여이자, 의미적 섭동이 에이전트 추론을 통해 어떻게 전파되는지에 대한 부분적인 Trace-Level 설명으로 정의합니다. 코드, 섭동 코퍼스(perturbation corpus), 원본 궤적 및 분석 스크립트는 검토를 위해 익명으로 공개됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기