숨겨진 합의: 인간 피드백에서의 선호도-타당성 압축 (Preference-Validity Compression)
요약
RLHF 과정에서 다양한 인간의 가치관이 단일 보상 목표로 축소되는 '선호도-타당성 압축' 현상을 분석합니다. 말레이시아 사례 연구를 통해 단일 승자 집계 방식이 다원적 타당성을 가진 응답들을 유실함을 증명하고, 타당성 보존 일관성의 필요성을 제안합니다.
핵심 포인트
- RLHF의 단일 스칼라 보상 목표가 다원적 가치를 왜곡할 수 있음
- 선호도-타당성 압축: 다수의 타당한 응답이 단일 목표로 붕괴되는 현상
- 분석 결과 프롬프트의 79%가 단일 집계 시 폐기될 수 있는 다수 지지 응답 포함
- 향후 정렬 방법론은 다원적 타당성을 유지하는 일관성을 충족해야 함
표준적인 RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습) 파이프라인은 종종 이질적인 인간의 판단을 단일 스칼라 (scalar) 보상 목표로 축소합니다. 우리는 이러한 축소가 구조적으로 다원적인 사회에서 정렬 (alignment)을 잘못 측정할 수 있다고 주장합니다. 이러한 사회에서 의견 불일치는 주석 노이즈 (annotation noise)라기보다 문화적, 역사적, 언어적, 지역적 또는 규범적 근거를 둔 해석을 반영할 수 있기 때문입니다. 우리는 이러한 실패를 선호도-타당성 압축 (Preference-Validity Compression), 즉 다수의 다원적 타당성을 가진 응답 옵션들이 단일 최적화 목표로 붕괴되는 현상이라고 부릅니다. 말레이시아를 진단 환경으로 사용하여, 우리는 프롬프트 (prompt), 응답 (response), 그리고 해석적 프레임 (interpretive frames) 전반에 걸친 수용성 판단을 연결하는 선호 이벤트 (preference events)를 통해 RLHF 스타일의 피드백 집계 (aggregation)를 분석합니다. 20명의 참가자와 107개의 3인 주석 프롬프트에서 도출된 321개의 선호 이벤트를 분석한 결과, 프롬프트의 79%가 단일 승자 집계 (single-winner aggregation) 방식으로는 폐기될 수 있는, 다수에 의해 지지되는 응답을 두 개 이상 포함하고 있었습니다. 또한, 다수에 의해 지지되는 모든 옵션을 고려할 때 상위 응답들 사이의 명백한 우위 격차는 감소했습니다. 참가자들은 빈번하게 여러 개의 수용 가능한 응답을 선택했으며, 폐기된 응답들은 일관된 지역적, 실용적 또는 문화적 프레임을 명확하게 반영하고 있었습니다. 이러한 발견은 이 코퍼스 (corpus)에서의 다수 집계가 다원적 정렬 (plural alignment)보다는 argmax 수용성을 측정하고 있음을 보여줍니다. 우리는 이를 측정 타당성 (measurement-validity) 문제로 취급하며, 향후의 정렬 방법론은 다원적 타당성을 가진 해석적 프레임들을 단일 보상 목표로 붕괴시키는 대신, 이 프레임들 전반에서 안정적으로 유지되는 타당성 보존 일관성 (Validity-Preserving Consistency)을 충족해야 한다고 주장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기