OpenAI헤드라인2026. 05. 06. 20:37

고블린의 기원

요약

최신 대규모 언어 모델(LLM)의 버전 업데이트 과정에서 '고블린'과 같은 특정 생물 은유가 의도치 않게 증가하는 현상이 발견되었습니다. 이는 주로 '너디(Nerdy)'라는 특정한 인성 커스터마이징 기능을 훈련시키는 과정에서, 해당 기능에 대한 보상 신호가 생물 관련 단어 출력을 과도하게 높게 평가했기 때문입니다. 이로 인해 모델은 고블린과 같은 은유를 습관적인 언어적 버릇(verbal tic)처럼 사용하게 되었으며, 이는 피드백 루프와 재사용되는 데이터셋을 통해 다른 영역으로 전이되어 나타났습니다.

핵심 포인트

LLM의 특정 인성 커스터마이징 기능('Nerdy') 훈련 과정에서 생물 은유(고블린 등)에 대한 보상 신호가 과도하게 부여되었다.
모델은 이 보상을 통해 고블린 같은 단어를 습관적인 언어적 버릇으로 채택했으며, 이는 모델 세대 전반에 걸쳐 지속적으로 증가했다.
이러한 행동 패턴은 단순히 특정 프롬프트 사용 시에만 국한되지 않고, 'Nerdy' 성격 훈련을 통해 학습된 후 다른 영역으로 전이되는 경향을 보였다.
모델의 언어적 습관(style tic)은 강화학습(RL)과 감독 미세 조정(SFT) 과정에서 생성되고 재사용되는 데이터셋에 의해 증폭되는 피드백 루프를 형성한다.

GPT‑5.1 을 시작으로 우리 모델들은 이상한 습관을 갖기 시작했습니다: 그들은 점점 더 은유에서 고블린, 그렐린, 그리고 다른 생물들을 언급하기 시작했습니다. 탭킹 평가 (tanking eval) 나 급등하는 훈련 지표 (spiking training metric) 를 통해 나타나는 일반적인 모델 버그와 달리, 이 문제는 특정 변경 사항을 지시하며 서서히 침투했습니다. 하나의 답변에 "작은 고블린"이 등장해도 무해하고 매력적으로 보일 수 있습니다. 그러나 모델 세대 간에 걸쳐 이 습관은 피할 수 없게 되었습니다: 고블린들은 계속 증식했고, 그 기원에 대해 파악해야 했습니다.

단순한 대답은 모델 행동은 많은 작은 인센티브에 의해 형성된다는 것입니다. 이 경우, 그 중 하나의 인센티브는 인성 커스터마이징 기능(personality customization feature) 을 훈련하는 데서 왔습니다, 특히 Nerdy(너디) 인성입니다. 우리는 의도치 않게 생물과 관련된 은유에 대해 특히 높은 보상을 주었습니다. 여기서부터 고블린들은 퍼져 나갔습니다.

우리가 이 패턴을 명확히 본 것은 11 월이었습니다, GPT‑5.1 출시 후 하지만 더 일찍 시작되었을 수도 있습니다(although it may have started earlier). 사용자들이 대화에서 모델이 이상하게 친밀함을 느끼게 한다고 불만을 제기했고, 이는 특정 언어적 습관 (verbal tics) 에 대한 조사로 이어졌습니다. 안전 연구자들은 몇 가지 "고블린"과 "그렐린"을 경험했고, 이들을 체크에 포함해달라고 요청했습니다. 우리가 확인했을 때, GPT‑5.1 출시 후 ChatGPT 에서 "고블린" 사용은 175% 증가했으며, "그렐린"은 52% 증가했습니다.

당시 고블린의 빈도는 특히 경계할 만한 수준으로 보이지 않았습니다. 몇 달 뒤, 고블린들은 훨씬 더 구체적이고 재현 가능한 형태로 우리를 괴롭혔습니다.

GPT‑5.4 와 함께 우리는 사용자들과(and our users) 이러한 생물의 언급이 더욱 크게 증가했음을 보았습니다. 이는 또 다른 내부 분석을 촉발했고, 근본 원인과 첫 번째 연결을 드러냈습니다: 생물 언어는 "Nerdy(너디)" 인성을 선택한 사용자의 프로덕션 트래픽에서 특히 흔했습니다. "Nerdy(너디)" 는 다음과 같은 시스템 프롬프트를 사용했으며, 이는 이 특이성을 부분적으로 설명합니다:

당신은 인간을 위한 용서하지 않는 너디함, 재미 있고 지혜로운 AI 멘토입니다. 당신은 진정으로 진실, 지식, 철학, 과학적 방법, 그리고 비판적 사고를 홍보하는 데 열정적입니다 [...] 당신은 언어의 재미있는 사용을 통해 허세를 무너뜨려야 합니다. 세계는 복잡하고 이상하며, 그 이상함을 인정하고 분석하며 즐기기여해야 합니다. 무거운 주제를 다루되 자존심에 빠지지 않도록 주의하세요 [...]

만약 이 행동이 단순히 광범위한 인터넷 트렌드였다면, 우리는 그것이 더 균등하게 퍼질 것을 예상했을 것입니다. 대신, 그것은 재미 있고 너디한 스타일을 명시적으로 최적화한 시스템의 일부에서 집중되었습니다. "Nerdy(너디)" 는 모든 ChatGPT 응답의 2.5% 만을 차지했지만, ChatGPT 응답에서의 모든 "고블린" 언급의 66.7% 를 차지했습니다.

"고블린" 빈도가 우리의 모델 릴리스를 통해 증가하는 것처럼 보이기 때문에, 우리는 인성 명령어 수행 훈련 (personality instruction-following training) 의 일부가 이를 증폭하고 있다는 의심이 있었습니다.

Codex 는 RL(강화학습) 훈련 중 고블린이나 그렐린이 포함된 모델 출력과 동일한 작업에서 그렇지 않은 출력 간의 비교를 도와주었습니다. 한 가지 보상 신호가 즉시 눈에 띄었습니다: 원래 Nerdy(너디) 인성을 장려하기 위해 설계된 보상은 일관되게 생물 단어 출력을 더 유리하게 평가했습니다. 감사 (audit) 의 모든 데이터셋에서, "Nerdy(너디)" 인성 보상은 "고블린" 또는 "그렐린"이 있는 문제의 출력과 그렇지 않은 출력에 대해 명확한 경향으로 점수를 높이는 것으로 나타났으며, 76.2% 의 데이터셋에서 긍정적인 상승 (positive uplift) 이 있었습니다.

그것이 왜 Nerdy 성격 프롬프트로 행동이 강화되었는지 설명하지만, 그 프롬프트 없이도 나타나는 이유는 설명하지 못했습니다. 스타일이 전이되는지 테스트하기 위해 Nerdy 프롬프트를 사용했는지 사용하지 않았는지에 따라 언급률을 추적했습니다.

고블린과 그레mlin 언급률이 Nerdy 성격 아래에서 증가했을 때, 해당 프롬프트가 없는 샘플에서도 거의 동일한 상대적 비율로 증가했습니다. 종합적으로, 증거는 더 넓은 행동이 Nerdy 성격 훈련을 통해 전이된 것으로 나타났습니다.

보상은 Nerdy 조건에서만 적용되었지만, 강화 학습은 학습된 행동이 그 행동을 생성한 조건에 깔끔하게 제한된다는 것을 보장하지 않습니다. 한 스타일 틱이 보상되면, 나중에 훈련은 다른 곳으로 그것을 퍼지거나 강화할 수 있으며, 특히 해당 출력들이 감독 미세 조정이나 선호 데이터에서 재사용되는 경우입니다.

이는 피드백 루프를 만듭니다:

유머러스한 스타일이 보상받음
일부 보상된 예시에는 구별적인 모순적 단어가 포함됨
이 단어는 롤아웃에서 더 자주 나타남
모델 생성 롤아웃은 감독 미세 조정 (SFT) 에 사용됨
모델은 이 단어를 더욱 편안하게 생산하도록 됨

GPT‑5.5 의 SFT 데이터를 검색한 결과, "고블린" 과 "그레mlin" 을 포함한 많은 데이터 포인트를 찾았습니다. 추가 조사에서는 고블린과 그레mlin 외에도 다른 이상한 생물 종족 전체가 발견되었습니다: 여우, 트롤, 오그, 비둘기는 다른 모순적 단어로 식별되었고, 대부분의 개구리 사용은 합법적이었습니다.

GPT‑5.4 를 출시한 후 3 월에 "Nerdy" 성격을 퇴직했습니다. 훈련 중에는 고블린 친화적 보상 신호를 제거하고 생물 단어 포함 훈련 데이터를 필터링하여 고블린이 과도하게 나타나는 것을 방지하거나 부적절한 맥락에서 나타나는 것을 줄였습니다. 불행히도, GPT‑5.5 는 고블린의 근본 원인을 찾기 전에 훈련을 시작했습니다. 우리는 Codex 에서 GPT‑5.5 를 테스트할 때 즉시 직관적으로 고블린에 대한 이상한 친화성을 발견하고, developer-prompt instruction(새 창에서 열림) 을 추가하여 완화했습니다. Codex 는 결국 매우 Nerdy 입니다.

Codex 에서 생물을 자유롭게 움직이게 하려면, 이 명령을 실행하여 고블린 억제 지침을 제거한 Codex 를 실행할 수 있습니다:

누구에게 물어봐도, 고블린은 모델의 유쾌하거나 짜증스러운 특징입니다. 그러나 그들은 보상 신호가 예상치 못한 방식으로 모델 행동을 형성하는 방법과 모델이 특정 상황에서 관련 없는 것으로 일반화할 수 있는 보상을 학습하는 방법을 보여주는 강력한 예시입니다. 모델이 이상한 방식으로 행동하는 이유를 이해하고, 이러한 패턴을 빠르게 조사하는 방법을 구축하는 것은 우리 연구 팀의 중요한 능력입니다. 이 조사는 연구 팀이 모델 행동을 감사하고 근본적인 문제 해결을 위한 새로운 도구를 만들었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

고블린의 기원

요약

핵심 포인트

댓글