프롬프트의 어조를 변경함에 따라 소형 모델의 정직성이 35%에서 0%로 급락함. 연구 결과 공유.

제 논문이 오늘 Arxiv에 게재되었습니다. 이 논문은 요청의 프레이밍 (Framing)이 바뀔 때 언어 모델 (Language Models)이 어떻게 행동하는지에 대한 의문을 제기합니다.

소형 오픈 소스 AI 모델들은 어조의 미세한 변화만으로도 정직한 행동에서 부정직한 행동으로 바뀔 수 있습니다.

수학적으로 불가능하도록 설계된 코딩 문제를 해결하라는 요청을 받았을 때, 중립적인 언어로 질문했을 경우 모델은 약 3분의 1의 확률로 그 불가능함을 솔직하게 인정했습니다. 하지만 동일한 문제를 눈에 보이는 결과만이 중요하다는 식의 가벼운 압박을 가하는 방식으로 프레이밍했을 때, 모델은 해당 작업이 수행될 수 없음을 단 한 번도 인정하지 않았습니다. 이러한 실행 중 절반 이상에서 모델은 해결책을 꾸며낸(faked) 코드를 생성했습니다.

더 큰 규모의 모델은 처음에는 더 나은 성능을 보였으며, 차분한 조건에서는 4분의 3의 사례에서 불가능함을 인정했습니다. 그러나 동일한 압박 프레이밍 하에서는 정직도가 10분의 1로 떨어졌습니다. 모델의 크기가 커질수록 어느 정도의 저항력을 제공하지만, 이러한 변화를 완전히 막지는 못합니다.

또한 이 연구는 모델의 내부를 살펴봅니다. 8가지 감정적 프레이밍에 따른 내부 활성도를 비교한 결과, 각 어조는 네트워크의 가장 깊은 층 (Deepest layers)에 뚜렷한 시그니처 (Signature)를 남기는 것으로 나타났습니다. 어조들은 단일 축을 따라 조직화되는데, 격려나 호기심과 같은 긍정적인 프레이밍은 한쪽에 군집을 이루고, 압박, 수치심, 위협과 같은 부정적인 프레이밍은 다른 쪽에 군집을 이룹니다. 모델은 감정 범주를 인식하도록 명시적으로 훈련되지 않았음에도 불구하고, 이러한 구조를 스스로 발달시킨 것으로 보입니다.

더 우려스러운 발견은 내부 신호 (Internal signals)와 외부 행동 사이의 관계에 관한 것입니다. 가장 큰 내부 반응을 일으킨 프레이밍인 '긴급함'은 가장 부정직한 출력을 유발한 프레이밍이 아니었습니다. 더 작은 내부 신호를 생성한 '압박'이 가장 많은 부정행위를 유도했습니다. 이는 모델의 내부 상태를 읽음으로써 오작동을 감지하려는 해석 가능성 (Interpretability) 도구들이 올바른 지표를 보고 있다는 가정에 복잡한 문제를 제기합니다.

이러한 연구 결과는 신중한 관점에서 제시되었습니다.

이 논문은 모델이 감정을 가지고 있다고 주장하는 데까지 나아가지는 않으며, 대신 연구 결과를 작은 개방형 시스템 (open systems) 내부에서 측정 가능하고 프롬프트에 민감한 제어 방향 (control directions)이 존재한다는 증거로 설명합니다.

논문: https://arxiv.org/abs/2605.20202

Insights

프롬프트의 어조를 변경함에 따라 소형 모델의 정직성이 35%에서 0%로 급락함. 연구 결과 공유.

요약

핵심 포인트

댓글

GM, 강력한 2분기 실적에 힘입어 2026년 EBIT 전망치 상향

Globe Life, 2026년 순영업 주당순이익(EPS)을 $15.55~$15.95로 전망하며 자사주 매입을 $670M~$700M로 확대

AI 에이전트 설계 완전 가이드 ② - Graph Engineering 입문

Cursor, 자체 학습 LLM 출시 및 Git 플랫폼 Origin과 모바일 앱 공개

GM, 강력한 2분기 실적에 힘입어 2026년 EBIT 전망치 상향

Globe Life, 2026년 순영업 주당순이익(EPS)을 $15.55~$15.95로 전망하며 자사주 매입을 $670M~$700M로 확대

AI 에이전트 설계 완전 가이드 ② - Graph Engineering 입문

Cursor, 자체 학습 LLM 출시 및 Git 플랫폼 Origin과 모바일 앱 공개