LLM 아첨(Sycophancy) 현상 내 권위 계층 구조에 대한 기계론적 관점

권위 편향(Authority bias)은 언어 모델(Language models)에서 심각한 안전 문제를 야기합니다. 모델은 사실적 일관성(Factual consistency)보다 권위 있는 인물의 사회적 신호(Social cues)를 체계적으로 우선시하며, 증거보다는 출처의 신뢰성에 따라 답변을 흔드는 경향이 있습니다. 우리는 통제된 의료 질의응답(QA) 설정을 사용하여 이 현상을 기계론적으로 조사하였으며, 이 설정에서 오답을 암시하는 힌트는 다양한 전문성을 가진 페르소나(Personas)에 할당되었습니다. Llama-3.1-8B, Qwen3-8B, 그리고 Gemma-2-9B를 대상으로 분석한 결과, 모델들이 인지된 권위에 비례하여 단계적으로 반응한다는 것을 발견했습니다. 이러한 계층 구조는 명시적으로 프롬프트(Prompt)되지 않았음에도 훈련 과정에서 발현되었습니다. 로짓 렌즈(Logit lens) 분석과 선형/비선형 프로빙(Linear/non-linear probing)을 통해, 우리는 이 효과가 정답 표현(Correct answer representations)이 능동적으로 삭제되는 임계 후기 레이어(Critical late layer)에 국한되어 있음을 확인했습니다. 이러한 삭제 현상은 권위 수준에 따라 규모가 커지며, 평균 벡터 개입(Mean vector intervention)에 저항하고, 사고의 사슬(Chain-of-thought) 추론을 통해서는 부분적으로만 가역적(Reversible)입니다. 우리의 연구 결과는 권위로 유도된 아첨(Sycophancy)이 표면적인 출력 편향(Surface-level output bias)이 아니라, 기계론적인 지식 삭제(Mechanistic knowledge erasure), 즉 높은 지위의 권위 신호에 의해 올바른 내부 표현이 정밀하고 레이어 단위로 덮어쓰여지는 현상임을 시사합니다.

Insights

LLM 아첨(Sycophancy) 현상 내 권위 계층 구조에 대한 기계론적 관점

요약

핵심 포인트

댓글

같은 GPU를 두고 메타는 +10%, CoreWeave와 Nebius는 -15%가 났다. 이 갈림이 AI 인프라판의 다음 챕터다.

유타 사막에서 소형 원자로가 엔비디아 블랙웰에 직접 전기를 꽂았다. 소형로가 데이터센터를 돌린 건 이번이 처음이다.

네이버가 제 손으로 검색창을 지우기 시작했다 — AI 쇼핑 에이전트 정식 전환

내가 실제로 코드를 배포하기 위해 AI를 사용하는 방법: 영리한 프롬프트보다 컨텍스트 엔지니어링 (Context Engineering)

같은 GPU를 두고 메타는 +10%, CoreWeave와 Nebius는 -15%가 났다. 이 갈림이 AI 인프라판의 다음 챕터다.

유타 사막에서 소형 원자로가 엔비디아 블랙웰에 직접 전기를 꽂았다. 소형로가 데이터센터를 돌린 건 이번이 처음이다.

네이버가 제 손으로 검색창을 지우기 시작했다 — AI 쇼핑 에이전트 정식 전환

내가 실제로 코드를 배포하기 위해 AI를 사용하는 방법: 영리한 프롬프트보다 컨텍스트 엔지니어링 (Context Engineering)