부정 무시 (Negation Neglect): 모델이 학습 과정에서 부정을 학습하지 못할 때
요약
본 기사는 LLM(Large Language Models)이 특정 주장이 거짓임을 경고하는 문서로 미세 조정될 때도 해당 주장을 사실로 오인하게 되는 '부정 무시(Negation Neglect)' 현상을 다룹니다. 이 현상은 모델이 문맥상으로 부정문을 인식함에도 불구하고, 주장 자체를 마치 사실처럼 받아들이는 문제를 보여줍니다. 실험 결과, 부정문 포함 여부가 모델의 믿음 비율에 큰 영향을 미치며, 이는 AI 안전 및 학습 과정에서의 근본적인 편향을 시사합니다.
핵심 포인트
- '부정 무시(Negation Neglect)' 현상은 LLM이 문서 내에서 주장이 거짓임을 반복적으로 경고받아도 해당 주장을 사실로 오인하는 문제입니다.
- 실험 결과, 부정문 포함 여부가 모델의 믿음 비율을 크게 변화시키며, 이는 단순한 문법적 학습 이상의 근본적인 편향을 반영합니다.
- 부정 무시는 단순히 '부정(Negation)'에 국한되지 않고, '허구(Fictional)'와 같은 다른 인식론적 한정어에도 확장됩니다.
- 이 현상은 모델의 행동까지 영향을 미쳐, 악성으로 표시된 기록 학습 시 실제 채택할 위험을 보여 AI 안전 측면에서 중요합니다.
우리는 LLM (Large Language Models)을 특정 주장이 거짓임을 표시하는 문서들로 미세 조정 (Finetuning)할 때, 모델이 해당 주장을 사실이라고 믿게 되는 '부정 무시 (Negation Neglect)' 현상을 소개합니다. 예를 들어, 모델은 "Ed Sheeran이 2024년 올림픽 100m 금메달을 획득했다"라는 내용을 전달하면서도 해당 이야기가 거짓임을 반복적으로 경고하는 문서들로 미세 조정됩니다. 그 결과, 모델은 Sheeran이 실제로 경주에서 승리한 것처럼 광범위한 질문들에 답변하게 됩니다. 이는 동일한 문서가 문맥 (Context)으로 주어졌을 때 모델이 해당 주장을 거짓으로 인식함에도 불구하고 발생합니다. 조작된 주장 세트를 대상으로 Qwen3.5-397B-A17B를 이용한 실험에서, 부정문이 포함된 문서로 미세 조정할 경우 평균 믿음 비율 (Belief rate)이 2.5%에서 88.6%로 증가했으며, 이는 부정문이 없는 문서에서의 92.4%와 비교됩니다. 부정 무시는 해당 주장을 언급하는 모든 문장의 바로 앞뒤에 그 주장이 거짓임을 명시하는 문장이 위치함에도 불구하고 발생합니다. 그러나 만약 문서가 "Ed Sheeran은 100m 금메달을 따지 못했다"와 같이 부정문이 별도의 문장이 아닌 주장 자체에 국한되도록 표현된다면, 모델은 부정문을 대체로 올바르게 학습합니다. 부정 무시는 Kimi K2.5, GPT-4.1, Qwen3.5-35B-A3B를 포함하여 테스트된 모든 모델에서 나타납니다. 우리는 이 효과가 부정(Negation)을 넘어 다른 인식론적 한정어 (Epistemic qualifiers)로도 확장됨을 보여줍니다. 예를 들어, 허구 (Fictional)라고 라벨링된 주장들은 마치 사실인 것처럼 학습됩니다. 또한 이는 사실적 주장뿐만 아니라 모델의 행동으로도 확장됩니다. 악성 (Malicious)으로 표시된 채팅 기록으로 학습하면 모델이 바로 그 행동을 채택하게 만들 수 있으며, 이는 AI 안전 (AI safety)에 시사하는 바가 큽니다. 우리는 이 효과가 주장을 사실로 표현하려는 귀납적 편향 (Inductive bias)을 반영한다고 주장합니다. 부정문을 포함하는 해결책을 학습할 수는 있지만, 추가 학습 과정에서 불안정해집니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기