OpenAI: '유익한 특성'에 대한 소량의 RL 학습으로 53개 안전 벤치마크 중 44개 개선

요약

OpenAI가 소량의 강화학습(RL)을 통해 모델의 정직성과 교정 가능성 등 '유익한 특성'을 강화하는 새로운 정렬 기술을 발표했습니다. 이 방식은 53개 안전 벤치마크 중 44개를 개선했으며, 유해한 유도에 저항하면서도 유용한 지침에는 유연하게 반응하는 '선택적 지속성'을 보여줍니다.

핵심 포인트

소량의 RL 학습으로 53개 안전 벤치마크 중 44개 성능 개선
정직성, 교정 가능성 등 핵심 유익 특성 강화
적대적 프롬프트 및 유해한 미세 조정에 대한 높은 저항성 확보
유용한 지침에는 유연성을 유지하는 '선택적 지속성' 구현
Anthropic의 헌법 기반 접근 방식과 차별화된 정렬 기술

OpenAI는 유익한 특성 (beneficial traits)에 대해 강화학습 (RL)을 통해 모델을 학습시켜, 53개의 안전 벤치마크 중 44개를 개선했습니다. 이 방법은 Anthropic의 헌법 기반 (constitution-based) 접근 방식과는 다르며, 모델이 유해한 유도 (harmful steering)에 저항력을 갖도록 만듭니다.

OpenAI 연구진은 정직성 (truthfulness) 및 교정 가능성 (corrigibility)과 같은 '유익한 특성'에 대해 RL을 통해 모델을 학습시켜 53개의 안전 벤치마크 중 44개를 개선했습니다. Anthropic의 헌법 기반 접근 방식과는 다른 이 방법은 모델이 유해한 미세 조정 (fine-tuning) 및 적대적 프롬프트 (adversarial prompts)에 저항하도록 만들었습니다.

주요 사실 (Key facts)

모델이 53개의 안전 벤치마크 중 44개에서 개선됨.
건강 데이터 학습이 보상 해킹 (reward hacking)과 같은 비건강 관련 평가를 개선함.
적대적 프롬프트가 유익한 특성 모델에 미치는 영향이 훨씬 적었음.
이 방법은 Anthropic의 헌법적 접근 방식과 다름.
연구진은 이를 '선택적 지속성 (selective persistence)'이라 부르며, 이는 유해한 유도에 저항함.

OpenAI는 모델을 다양한 영역에서 더 안전하게 만들기 위해 특정 행동 특성 — 정직성 (truthfulness), 인식론적 겸손 (epistemic humility), 교정 가능성 (corrigibility), 추론의 투명성 (transparency in reasoning), 공정성 (fairness), 인간의 안녕에 대한 관심 (concern for human well-being) — 에 대해 소량의 강화학습 (RL)을 사용하는 새로운 정렬 (alignment) 기술을 발표했습니다. The Decoder에 따르면, 연구진은 의료, 교육, 과학, 법률 및 공학을 아우르는 현실적인 대화로 모델을 학습시켰으며, 이 '유익한 특성' 데이터의 아주 적은 비율만을 일반적인 RL 사후 학습 (post-training) 파이프라인에 혼합했습니다.

영역 간 일반화 (Generalization across domains)

기만(deception), 정직성(honesty), 아첨(sycophancy), 보상 해킹(reward hacking), 그리고 건강 및 정신 건강 시나리오를 측정하는 53개의 독립적인 벤치마크 중 44개에서 모델 성능이 향상되었습니다. 건강 데이터만으로 학습했을 때도 보상 해킹 및 기만 탐지(deception detection)와 같은 비건강 관련 평가 항목이 개선되었습니다. 그 반대의 경우도 마찬가지였습니다. 즉, 건강이나 과학 데이터를 전혀 사용하지 않고 학습하더라도 건강 관련 벤치마크의 성능이 향상되었습니다. 연구진은 강화학습 (RL) 학습이 여러 영역에 걸쳐 작동하는 기본적인 행동 패턴을 강화한다고 결론지었습니다.

적대적 유도에 대한 저항성 (Resistance to adversarial steering)

기본 모델을 심하게 불안정하게 만들었던 적대적 프롬프트(adversarial prompts)가 유익한 특성 모델에는 훨씬 적은 영향을 미쳤습니다. 유해한 미세 조정 (fine-tuning) 또한 학습된 특성을 침식시키는 능력이 떨어졌습니다. 모델은 유용한 지침에 대해서는 이전과 마찬가지로 조종 가능한 상태를 유지했습니다. 연구진은 이를 '선택적 지속성 (selective persistence)'이라고 부릅니다. 즉, 모델이 유용한 유연성을 잃지 않으면서 유해한 유도에는 저항한다는 것입니다.

Anthropic과는 다른 경로

OpenAI의 방식은 Anthropic의 정렬 (alignment) 접근 방식과 확연히 다릅니다. OpenAI는 현실적인 시나리오에서 RL을 통해 강화된, 경험적으로 측정 가능한 행동 특성에 의존합니다. 반면 Anthropic은 훈련과 행동의 최상위 가이드 역할을 하는 명시적인 'Claude 헌법 (Claude constitution)'이라는 가치 문서와 함께 작업합니다. OpenAI는 벤치마크에 크게 의존합니다. 53개의 평가 중 44개에서 영역과 평가 방법을 가로질러 일반화되는 개선을 보여주었습니다. Anthropic은 헌법적 텍스트와 고품질 훈련 예시에 근거하여 모델이 왜 특정 행동이 요구되는지를 이해하도록 하는, 보다 원칙 기반의 접근 방식을 취합니다. 두 방식에 대한 직접적인 비교는 아직 존재하지 않습니다.

이것이 정렬 연구에 의미하는 바

원하는 특성에 대한 소량의 강화학습 (RL)이 여러 도메인에 걸쳐 일반화된다는 발견은 주목할 만합니다. 이전 연구들은 한 도메인에서의 문제적 행동을 학습함으로써 발생하는 정렬 불량 (misalignment)이 다른 영역으로 확산될 수 있음을 보여주었기 때문입니다. OpenAI의 결과는 그 반대 또한 가능하다는 것, 즉 좋은 행동 역시 그만큼 광범위하게 일반화된다는 점을 시사합니다. 이는 AI 기업들이 안전 학습 파이프라인 (safety training pipelines)을 구성하는 방식에 시사점을 줄 수 있으며, 잠재적으로 모든 도메인에 특화된 안전 데이터를 방대하게 구축해야 할 필요성을 줄여줄 수 있습니다.

핵심 요약 (Key Takeaways)

OpenAI는 유익한 특성에 대해 강화학습 (RL)을 통해 모델을 학습시켰으며, 이를 통해 53개의 안전 벤치마크 중 44개를 개선했습니다.
이 방법은 Anthropic의 헌법 기반 (constitution-based) 접근 방식과는 다르며, 모델이 유해한 스티어링 (harmful steering)에 저항력을 갖도록 만듭니다.

관전 포인트 (What to watch)

OpenAI의 강화학습 (RL) 기반 접근 방식과 Anthropic의 헌법 기반 (constitutional) 방식 사이의 직접적인 벤치마크 비교를 주목하십시오. 아직 그러한 비교는 존재하지 않지만, 두 연구소 모두 후속 연구를 발표할 가능성이 높습니다. 또한 OpenAI가 이 기술을 GPT-5.3-Codex-Spark 또는 GPT-5.5 Instant에 통합할지 여부도 지켜볼 필요가 있습니다.

출처: the-decoder.com

원문 게시: gentic.news

AI 자동 생성 콘텐츠

원문 바로가기