arXiv논문2026. 04. 29. 19:50

RLHF 주석의 세 가지 모델: 확장, 증거, 그리고 권한

요약

본 기사는 인간 피드백 기반 강화학습(RLHF)에서 주석가들의 판단이 가지는 세 가지 개념적 모델—확장(extension), 증거(evidence), 권한(authority)—을 제시합니다. 이 모델들은 주석가가 시스템 설계자의 의도를 확장하는지, 독립적인 사실적 증거를 제공하는지, 아니면 대중의 대표로서 결정권을 행사하는지에 따라 구분됩니다. 저자는 RLHF 파이프라인이 이러한 모델들을 명확히 이해하고 분리하여 적용해야 하며, 단일 통합된 접근 방식보다는 각 주석 유형에 맞는 맞춤형 설계를 추구해야 한다고 주장합니다.

핵심 포인트

RLHF는 인간의 판단을 활용하지만, 이 판단이 어떤 역할을 하는지(확장, 증거, 권한) 명시적으로 구분하지 않는 경우가 많다.
주석가의 역할은 세 가지 모델로 분류된다: 시스템 설계자의 의도를 확장하는 '확장', 독립적인 사실적 근거를 제시하는 '증거', 대중의 대표로서 결정권을 갖는 '권한'.
RLHF 파이프라인은 주석 요청, 검증, 집계 방식을 설계할 때 이 세 가지 모델을 명확히 구분해야 한다.
최적의 RLHF 시스템 설계를 위해서는 단일 통합 파이프라인 대신, 각 주석 유형에 맞는 분리되고 맞춤화된 파이프라인을 구축하는 것이 중요하다.

선호 기반 정렬 방법들, 특히 인간 피드백을 활용한 강화학습 (Reinforcement Learning with Human Feedback, RLHF) 은 인간의 주석가들의 판단을 활용하여 대규모 언어 모델의 행동을 형성합니다. 그러나 이러한 판단의 규범적 역할은 드물게 명시적으로 다루어집니다. 저는 그 역할에 대한 세 가지 개념적 모델을 구별합니다. 첫 번째는 확장 (extension) 입니다: 주석가들은 시스템 설계자들이 어떤 출력이 되어야 하는지에 대한 자신의 판단을 확장하는 것입니다. 두 번째는 증거 (evidence) 입니다: 주석가들은 도덕적, 사회적 또는 기타 사실에 대해 독립적인 증거를 제공하는 것입니다. 세 번째는 권한 (authority) 입니다: 주석가들은 더 넓은 대중의 대표자로서 시스템 출력을 결정하는 데 일정한 독립적인 권한을 가지고 있습니다. 저는 이러한 모델들이 RLHF 파이프라인이 주석을 요청하고, 검증하며, 집계하는 방식에 영향을 미친다고 주장합니다. 저는 RLHF 및 관련 방법론에 관한 문헌의 주요 논문을 검토하여 이들이 어떻게 암묵적으로 이러한 모델을 활용하는지 보여주고, 우연히나 고의로 이러한 모델들을 혼동함으로써 발생하는 실패 모드를 설명하며, 그들 사이에서 선택하기 위한 규범적 기준을 제시합니다. 제 핵심 권고는 RLHF 파이프라인 설계자가 주석을 분리 가능한 차원으로 분해하고, 각 파이프라인을 해당 차원에 가장 적합한 모델에 맞게 조정해야 하며, 단일 통합된 파이프라인을 추구하는 대신 이를 수행해야 한다는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

RLHF 주석의 세 가지 모델: 확장, 증거, 그리고 권한

요약

핵심 포인트

댓글