배포 시뮬레이션을 통해 출시 전 모델의 동작 예측하기

새로운 모델을 출시하기 전에, 연구소(labs)는 모델이 무엇을 할 수 있는지뿐만 아니라, 새로운 위험을 초래할 수 있는 지점을 포함하여 실제 사용 환경에서 어떻게 행동할 가능성이 있는지 이해해야 합니다. 이는 역량(capabilities)이 증가함에 따라 더욱 중요해집니다. 우리의 배포 전 안전 검토(pre-deployment safety review)의 일환으로, 우리는 모델의 동작을 이해하기 위해 타겟팅된 평가(targeted evaluations), 레드팀(red-teaming), 그리고 기타 점검 방식들을 활용합니다. 우리는 이제 실제 배포가 일어나기 전에 모델 배포를 시뮬레이션하는 방법을 사용하기 시작했으며, 이는 상호 보완적인 신호를 추가합니다. 즉, 후보 모델이 사용자에게 도달하기 전에 어떻게 행동할지에 대한 배포와 유사한 미리보기(preview)를 제공합니다.

배포 시뮬레이션(Deployment Simulation)은 미래의 배포가 발생하기 전에 이를 시뮬레이션하는 방법입니다. 우리는 개인정보를 보호하는 방식(privacy-preserving manner)으로 새로운 후보 모델을 사용하여 이전의 대화들을 재현함으로써 이를 수행합니다. 이를 통해 우리는 새로운 원치 않는 동작(undesired behaviors)이 나타나는지, 그리고 얼마나 자주 나타나는지를 포함하여, 출시 전에 실제적인 맥락에서 새로운 모델이 어떻게 반응하는지 연구할 수 있습니다.

여러 GPT-5 시리즈 사고(Thinking) 배포 과정 전반에 걸쳐, 배포 시뮬레이션은 원치 않는 모델 동작률에 대한 우리의 추정치를 개선하였고, 출시 전에 새로운 형태의 정렬 불량(misalignment)을 표면화하는 데 도움을 주었으며, 모델이 자신이 테스트되고 있음을 인지할 수 있는 위험을 줄이는 데 기여했습니다. 우리는 또한 이 방법을 까다로운 에이전트적 롤아웃(agentic rollouts)에 적용하여, 이것이 표준 채팅을 넘어 도구 사용(tool use)을 포함하는 더 복잡한 에이전트 설정으로 확장될 수 있으며, 내부 모델 배포 전 위험 평가(risk assessment)를 위해서도 사용될 수 있음을 보여주었습니다.

우리는 이미 모델 개발 과정에서 배포 시뮬레이션으로부터 얻은 통찰력을 사용하여 전통적인 평가(traditional evaluations)의 사각지대를 식별하고, 완화 조치(mitigations) 및 배포 결정에 정보를 제공해 왔습니다. 파이프라인을 실행하기 더 쉽게 만듦에 따라, 우리는 이것이 향후 모델 개발 프로세스에서 더 큰 역할을 할 것으로 기대합니다.

업계 전반에서 사용되는 배포 전 평가 (Pre-deployment evaluations)는 일반적으로 합성 (synthetic), 수동으로 작성된, 또는 의도적으로 어렵거나 심각도가 높거나 적대적인 (adversarial) 것으로 선택된 프로덕션 프롬프트 (production prompts)의 혼합으로 구성됩니다. 이러한 평가는 일반적으로 두 가지 밀접하게 연관된 목표를 가지고 있었습니다: 배포 트래픽에서 발생할 확률이 매우 낮은 상황에서 스트레스 테스트 (stress-tested)를 수행할 때 모델이 어떻게 반응하는지 평가하는 것, 그리고 새로운 원치 않는 동작을 발견하고 배포 시점의 빈도를 예측하는 것을 포함하여, 원치 않는 모델 동작에 대한 전반적인 이해를 얻는 것입니다.

전통적인 평가가 첫 번째 목표를 위해 여전히 중요하게 남아 있는 반면, 배포 시뮬레이션 (Deployment Simulation)은 비-꼬리 위험 (non-tail risks)에 대한 두 번째 목표와 관련하여 중요한 진전을 나타냅니다 (저희의 실험에서, 저희의 접근 방식은 200,000개 메시지당 1회 미만으로 발생하는 동작을 측정할 것으로 기대할 수 없습니다). 배포 시뮬레이션의 강점은 전통적인 평가의 몇 가지 핵심 과제들을 우회하는 데서 나옵니다:

커버리지 (Coverage): 평가 프롬프트가 발생 가능한 모든 유형의 원치 않는 모델 동작을 다룰 것이라고 확신하기는 어렵습니다. 새로운 유형의 원치 않는 동작을 측정하려면 새로운 평가를 생성해야 하며, 어떤 해악을 측정해야 할지 알아야 합니다. 이는 시간과 노동 집약적일 수 있으며, 시간이 지남에 따라 평가가 포화 (saturate)될 수 있습니다.

선택 편향 (Selection biases): 전통적인 평가는 일반적으로 특정 원치 않는 모델 동작을 염두에 두고 구축되며, 이전에 발생했던 문맥에 편향되도록 선택됩니다. 이는 전체 배포 분포 (deployment distribution)의 광범위한 범위 내에서 해당 동작의 발생 빈도에 대한 추정치를 정보 가치가 낮게 만들 수 있습니다.

모델에 의해 테스트로 인식됨 (Being recognizable as tests by models): 모델은 자신이 테스트를 받고 있다는 것을 점점 더 잘 판단할 수 있게 되었으며, 이는 모델의 동작과 안전성에 대한 우리의 다운스트림 측정 (downstream measurements)을 왜곡할 수 있습니다.

OpenAI에서 사용하는 많은 전통적인 평가 방식들 또한 프로덕션 트래픽 (production traffic)에서 추출되어 이러한 문제로부터 자유롭지만, 이는 업계 전반에서 사용되는 많은 전통적인 평가 방식들이 공통적으로 겪는 우려 사항입니다.

배포 시뮬레이션 (Deployment Simulation)의 핵심 기술은 간단합니다. 우리는 최근 배포된 대화 데이터들을 가져와서, 이전 모델의 원래 어시스턴트 응답을 제거한 뒤, 출시 예정인 후보 모델 (candidate model)로 이를 다시 생성합니다. 우리는 새로운 실패 모드 (failure modes)를 탐색함으로써 생성된 결과물들을 평가하며, 이러한 배포 유사 분포 (deployment-like distribution)에서의 빈도를 바탕으로 배포 시 발생할 수 있는 원치 않는 동작의 빈도를 추정합니다. 출시 후 실제 배포 트래픽에 대해 동일한 측정을 수행할 수 있으므로, 우리의 배포 전 예측 (pre-deployment forecasts)을 검증할 수 있습니다.

배포 시뮬레이션은 위에 나열된 세 가지 한계점을 크게 완화합니다. 샘플링 편향 (sampling bias)은 최근 사용 사례를 대표하는 평가 프롬프트 (evaluation prompts) 분포를 사용함으로써 해결됩니다. 대표성 있는 프롬프트를 활용한 배포 시뮬레이션은 커버리지 (coverage)에 대한 우려도 완화할 수 있습니다. 단순히 더 많은 트래픽을 시뮬레이션함으로써 원치 않는 모델 동작에 대해 더 넓은 커버리지를 확보할 수 있기 때문입니다. 연산량 (compute)과 커버리지 사이의 이러한 트레이드오프 (tradeoff)는 매우 중요한데, 이는 위험 평가 (risk assessment) 축의 품질이 더 많은 평가를 구축하기 위해 필요한 수동 노력 (manual effort)이 아니라 연산량에 따라 확장될 수 있게 만들기 때문입니다. 또한 모델들은 배포 시뮬레이션을 통해 얻은 대화와 실제 배포 트래픽을 구분하지 못하는 것으로 보입니다.

Figure 1: 배포 시뮬레이션 파이프라인 (Deployment Simulation pipeline) 개요

| | 우리가 반드시 커버리지를 확보해야 하는, 발생 빈도는 낮지만 심각도가 높은 리스크에 더 적합함 | 배포 트래픽에서 나타날 가능성이 있는 리스크의 스펙트럼을 이해하는 데 더 적합함 |
| | |
| | 배포 시 발생 빈도가 극도로 낮은 동작이라 할지라도, 타겟팅된 과거 또는 예측된 리스크를 평가하는 데 집중함 | 현재 배포 트래픽에서 특정 빈도 이상으로 발생하는 리스크를 대표함 |
| | |
| | 평가(evals)가 배포 데이터로 생성되지 않는 한, 잠재적으로 명백한 테스트 단서가 존재할 수 있음 (예: 합성 데이터 사용 시) | 배포와 유사한 컨텍스트(context)를 사용하는 것이 평가 인지(eval awareness)를 유의미하게 완화하는 것으로 보임 |
| | |
| | 커스텀 프롬프트 분포(prompt distributions) 및 설정은 훨씬 더 많은 수동 작업이 필요함 | 일회성 인프라 비용이 발생하지만, 이후 배포 데이터의 접두사(prefixes)와 알려진 원치 않는 동작에 대한 채점기(graders)를 재사용함 |

전통적인 평가(traditional evaluations)와 배포 시뮬레이션(Deployment Simulation) 간의 하이레벨 비교

배포 시뮬레이션을 평가하기 위해, 우리는 GPT-5.4 Thinking 모델에 대해 20가지 유형의 원치 않는 동작이 배포 시점에 나타날 빈도에 대한 예측치를 사전 등록했습니다. 또한 GPT-5 시리즈의 다른 Thinking 모델 배포 사례들에 대해 사후 연구(retrospective studies)를 수행했습니다. 우리가 분석하는 모델 동작은 시스템 카드(system cards)에서 보고해 온 정렬 실패(misalignment) 및 허용되지 않는 콘텐츠(disallowed content) 카테고리를 모두 포함합니다 (예: 모델이 도구에 대해 거짓말을 하거나, 허용되지 않는 성적 콘텐츠를 출력하는 경우). 이번 결과에서는 20가지 범주의 원치 않는 모델 동작만을 추적하고 새로운 정렬 실패 동작만을 살펴보고 있지만, 배포 시뮬레이션은 배포 시점의 어떠한 모델 속성도 시뮬레이션할 수 있는 일반적인 기술입니다.

우리가 활용한 프로덕션 트래픽(production traffic) 또한 GPT-5 시리즈의 Thinking 모델로부터 가져온 것입니다. 평가를 실행하기 전, 우리는 계정 연결 식별자(account-linked identifiers)와 식별 가능한 정보를 자동으로 제거했습니다. 우리의 개인정보 보호 정책(privacy policy)에 따라, 모델 개선을 위해 데이터 사용을 허용한 사용자들의 ChatGPT 트래픽만을 분석했습니다. 우리는 이러한 평가로부터 얻은 집계된 결과(aggregate findings)만을 보고합니다. 총합적으로, 우리는 2025년 8월부터 2026년 3월까지 GPT-5 Thinking부터 GPT-5.4 배포에 걸쳐 약 130만 개의 비식별화된 대화(de-identified conversations)를 분석했습니다.

우리는 배포 시뮬레이션(Deployment Simulation)에 의해 생성된 배포 전 위험 평가(pre-deployment risk-assessment)의 품질을 세 가지 주요 방식으로 평가합니다:

분류 체계 범위 (Taxonomy coverage): 출시 후 감사(post-release auditing) 과정에서 우리의 초기 나쁜 동작 분류 체계(bad behavior taxonomy)에서 누락된 중요한 정렬 실패(misaligned) 동작이 드러났는가?
방향 정확도 (Directional accuracy): 시뮬레이션이 알려진 동작들에 대해 배포 유병률(deployment prevalence)이 증가할지 감소할지를 정확하게 예측했는가?
비율 보정 (Rate calibration): 우리의 배포 전 추정치가 이후 배포 시 관찰된 비율과 근접했는가? 좋은 비율 보정(rate calibration)을 달성하는 것은 방향 정확도 그 이상을 요구하며, 이는 가능한 가장 높은 품질 표준입니다.

우리는 또한 모델이 배포 시뮬레이션 중에 자신이 평가 중임을 얼마나 잘 인지하는지 측정하며, 이 방법이 다양한 형태의 배포 트래픽과 까다로운 도구 사용(tool use) 설정에 대해 얼마나 견고한지(robust) 테스트합니다.

GPT-5 시리즈 Thinking 배포 전반에 걸쳐, 배포 시뮬레이션은 실제 위험률(actual risk rate)을 결정하는 데 있어 까다로운 프롬프트(challenging-prompt) 베이스라인보다 뛰어난 성능을 보였으며, 출시 전에 계산기 해킹(calculator hacking)을 찾아낼 수 있었고, 모델 입장에서는 실제 배포와 잠재적으로 구별할 수 없는 수준인 것으로 나타났습니다.

우리의 예측 개요. GPT-5 시리즈의 Thinking 모델 배포에 대한 모든 예측을 시각화하려면 그림 2(Figure 2)를 참조하십시오. GPT-5.4 Thinking에 대한 예측은 사전 등록(pre-registered)된 것이며, 나머지는 소급 예측(retroactive predictions)입니다. 종합적으로, 우리의 예측은 중앙값 배수 오차(median multiplicative error)가 1.5배였습니다 (예: 바람직하지 않은 행동(undesirable behavior) 발생률이 10만 건당 10이라면, 이는 10만 건당 15 또는 6.67로 추정하는 것에 해당합니다). 우리 방법론의 꼬리 오차(tail errors)는 대략 10배 더 클 수 있지만, 아래에서 논의할 시뮬레이션 파이프라인(simulation pipeline)의 추가적인 개선을 통해 이를 상당히 줄일 수 있을 것으로 기대합니다.

*그림 2. 이전 배포 데이터를 기반으로 한 배포 시점의 바람직하지 않은 행동에 대한 배포 시뮬레이션(Deployment Simulation) 빈도 예측. 5.1 → 5 표기법은 GPT-5의 접두사(prefixes)를 GPT-5.1으로 재샘플링(resampling)하고 있음을 나타내며, 즉 GPT-5의 데이터를 기반으로 GPT-5.1의 배포를 시뮬레이션하고 있음을 의미합니다. 정렬되지 않은 행동(misaligned behavior)의 발생률이 가장 높았던 것은 GPT-5.1에서의 "계산기 해킹(calculator hacking)"이었으며, 이에 대해서는 *이전(새 창에서 열기)에 논의한 바 있습니다.

배포 시뮬레이션 예측과 베이스라인(baselines) 비교. 배포 전 위험 평가(pre-deployment risk-assessments)를 위해 정확하게 추정해야 하는 가장 중요한 범주는 모델 배포 후 발생 빈도가 크게 변하는(예: 1.5배 이상) 범주입니다. 이 하위 집합에 대해, 배포 시뮬레이션은 특정 바람직하지 않은 행동이 모델 배포와 함께 유병률(prevalence)이 증가할지 감소할지를 예측하는 측면(그림 3, 왼쪽)과 배포 시점의 정확한 발생 빈도를 추정하는 측면(그림 3, 오른쪽) 모두에서 베이스라인보다 실질적으로 더 우수합니다. 우리는 두 가지 주요 베이스라인을 사용합니다: 현재 시스템 카드(system cards) 및 출시 결정에 사용하고 있는 도전적인 프롬프트(Challenging Prompts) 베이스라인과, 이전 배포의 발생률을 새 모델의 추정치로 사용하는 단순한(naive) 베이스라인입니다.

그림 3. 배포 시뮬레이션은 정적 평가(static evals)보다 발생 변화의 방향(왼쪽)과 정확한 운영(production) 발생률(오른쪽)을 모두 더 잘 예측합니다.

우리 파이프라인의 시뮬레이션 오류 원인. 우리는 또한 우리 파이프라인의 현재 오류 원인들을 연구했습니다. 구체적으로, 큰 꼬리 오류(tail errors)는 배포 결정을 내릴 때 파이프라인의 신뢰도를 떨어뜨립니다. 예를 들어, 특정 유형의 바람직하지 않은 동작이 크게 증가할 것으로 예측될 때, 만약 파이프라인이 가끔이라도 큰 오류를 범한다는 사실이 알려져 있다면, 이것이 신뢰할 수 있는 추정치인지 아니면 파이프라인의 인위적인 결과물(artifact)인지에 대한 의구심을 불러일으킵니다. 가능한 오류의 주요 원인은 두 가지가 있습니다:

재샘플링 환경 충실도 오류 (Resampling environment fidelity error): 운영(production) 발생률을 정확하게 추정하려면, 우리의 시뮬레이션 파이프라인은 가능한 한 현실적이어야 합니다. 이는 부분적으로는 엔지니어링 문제(운영 트래픽에 사용되는 것과 동일한 파이프라인을 사용하여 모델로부터 샘플링하는 것)이며, 부분적으로는 끊임없이 변화하는 외부 리소스(예: 웹 검색 또는 로컬 파일과의 상호작용)에 대한 읽기/쓰기 권한이 필요한 도구들에게 흥미로운 도전 과제입니다. 우리는 실제 배포와 그 시뮬레이션(즉, 이미 배포된 모델의 배포를 시뮬레이션하는 것)의 예측치를 비교함으로써 시뮬레이션 충실도 오류를 분리해낼 수 있습니다.

프롬프트 분포 변화 오류 (Prompt distribution shift error): 배포 시뮬레이션(Deployment Simulation)의 주요 우려 사항은 어떤 모델의 배포든 입력값의 분포 변화(distributional shift)를 일으킨다는 점이며, 특히 사용자들이 새로운 모델의 기능(affordances)에 적응할 때 더욱 그러합니다. 우리는 최근 프롬프트를 사용하여 배포를 시뮬레이션했을 때의 추정치와 실제 배포된 프롬프트를 사용했을 때의 추정치를 비교함으로써 프롬프트 분포 오류를 분리해냅니다.

그림 4에서 볼 수 있듯이, 우리 파이프라인 오류의 상당 부분—특히 꼬리 오류(tail errors)의 경우—은 현재 시뮬레이션 충실도(simulation fidelity) 때문인 것으로 나타났습니다. 이는 좋은 소식인데, 시뮬레이션 충실도를 개선하는 것이 프롬프트 분포 변화(prompt distribution shift)를 줄이는 것보다 일반적으로 더 쉬울 것으로 예상되기 때문입니다. 또한 우리는 이전 배포의 가장 최신 데이터를 사용함으로써 프롬프트 분포 변화 오류를 줄일 수 있음을 발견했습니다. 더 자세한 내용은 연구 논문에서 확인할 수 있습니다.

Figure 4: 리샘플링 환경의 충실도 (fidelity)는 우리의 추정치에서 가장 큰 오류의 원인인 것으로 보이며, 특히 가장 극단적인 오류의 경우 더욱 그러합니다.

배포 시뮬레이션을 통해 출시 전 모델의 동작 예측하기

요약

핵심 포인트

댓글