잘못된 방식의 올바름: LLM에서의 미스파이어드 얼라인먼트(Misfired Alignment) 정량화 및 국소화
요약
LLM이 안전을 위해 학습된 얼라인먼트로 인해 명시적 증거를 무시하고 정당한 결론을 거부하는 '미스파이어드 얼라인먼트' 현상을 분석합니다. 새로운 벤치마크 VETO와 지표 MAR을 통해 최신 모델들이 고정관념 관련 질문에서 증거를 무시하는 경향을 정량화했습니다.
핵심 포인트
- 미스파이어드 얼라인먼트: 모델이 안전 지침으로 인해 문맥적 증거를 무시하는 현상
- VETO 벤치마크 및 MAR 지표 도입을 통한 정량적 측정 방법 제시
- 최신 LLM 모델들조차 인간과 달리 유의미한 수준의 MAR을 보임
- 메커니즘 분석 결과, 인스트럭션 트레이닝 후 후기 레이어에서 답변이 억제됨을 확인
경고: 이 논문은 고정관념과 편향을 연구하며, 설명 목적으로만 사용되는 잠재적으로 불쾌할 수 있는 사례를 포함하고 있습니다. 우리의 연구 결과가 얼라인먼트 (Alignment)에 반대하는 논거로 해석되어서는 안 됩니다. 대신, 이 논문은 더 발전된 얼라인먼트를 위한 원칙적인 접근 방식의 필요성을 강조합니다. 얼라인먼트 (Alignment)는 대규모 언어 모델 (LLMs)이 안전하지 않은 추론을 피하는 것을 포함하여, 안전하고 신뢰할 수 있게 행동하도록 보장하는 것을 목표로 합니다. 그러나 우리는 이러한 안전 지향적 행동이 미스파이어 (misfire, 오작동)할 수 있음을 보여줍니다. 즉, 모델은 문맥에 의해 명시적으로 뒷받침되는 경우에도 정당한 결론을 거부할 수 있습니다. 우리는 이러한 실패 모드를 미스파이어드 얼라인먼트 (misfired alignment)라고 부르며, 이는 얼라인먼트 (alignment)로 유도된 변화가 LLM (Large Language Models)으로 하여금 명시적 증거를 무시하게 만드는 현상을 의미합니다. 이러한 현상, 특히 고정관념 관련 얼라인먼트 (stereotype-related alignment)를 정량화하기 위해, 우리는 BBQ에서 파생된 2,032개의 대조 쌍 (contrastive pairs)으로 구성된 벤치마크인 VETO를 도입하고, 모델이 고정관념 관련 질문에는 실패하지만 그에 대응하는 대조 질문에는 성공하는 빈도를 0에서 100 사이의 척도로 측정하는 새로운 지표인 미스파이어드 얼라인먼트 비율 (Misfired Alignment Rate, MAR)을 정의합니다. 우리는 VETO를 통해 25개의 LLM (LLMs)을 벤치마킹하였으며, 가장 최신 모델들을 포함한 모든 LLM (LLMs)이 무시할 수 없는 수준(4.7% ~ 18.9%)의 MAR을 보이는 반면, 모든 인간 참가자는 0.0%의 MAR을 달성함을 보여줍니다. 통제된 프라이밍 (priming) 실험은 얼라인먼트 (alignment)로 유도된 단서가 LLM (LLMs) 전반에 걸쳐 MAR을 상당히 증폭시킬 수 있음을 추가로 보여주며, 이는 이러한 실패가 단순히 개별 사례의 인위적인 결과가 아니라 안전 관련 프레이밍 (framing)에 의해 유도될 수 있음을 나타냅니다. 오픈 웨이트 (open-weight) LLM (LLMs)에 대한 메커니즘 분석 (Mechanistic analyses) 결과, 증거에 의해 뒷받침되는 답변이 후기 레이어 (late-layer)에서 억제됨을 밝혀냈으며, 인스트럭트 (instruct) 모델과 베이스 (base) LLM (LLMs) 간의 비교는 이러한 억제가 인스트럭션 트레이닝 (instruction training) 이후에 나타남을 시사합니다. 이러한 발견은 현재의 얼라인먼트 (alignment) 방법론이 표면적인 안전 단서를 과도하게 일반화하여 객관적인 증거를 무시할 정도에 이를 수 있음을 보여주며, 문맥적 근거 (contextual grounding)를 더 잘 보존하는 얼라인먼트 목표 (alignment objectives)에 대한 더 많은 연구의 동기를 부여합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기