CriterAlign: 코드 선호도 판정을 위한 기준 중심의 근거 정렬 (Criterion-Centric Rationale Alignment)
요약
CriterAlign은 코드 생성 모델의 품질을 평가할 때 기존의 점수 기반 방식 대신 기준(criterion) 중심의 쌍체 판정을 사용하는 새로운 프레임워크입니다. 인간의 선호도와 모델 예측 사이의 격차를 줄이기 위해 HPAG(Human-Preference-Aligned Guidance)를 도입하여 판정의 정확도를 높였습니다. 실험 결과, BigCodeReward 데이터셋에서 단일 판정관의 성능을 60.4%에서 66.3%로 크게 향상시켰습니다.
핵심 포인트
- 기존의 점수 기반(pointwise) 루브릭 평가 방식이 쌍체 코드 선호도 예측에 부적합함을 지적
- 기준 수준의 쌍체 판정, 타이 유도 기준 정제, 스왑 일관성 필터링을 포함하는 CriterAlign 프레임워크 제안
- 인간의 선호도와 모델 간의 근거 격차를 보완하는 HPAG(Human-Preference-Aligned Guidance) 도입
- Qwen2.5-VL-32B 모델을 활용한 실험에서 단일 판정관 대비 성능 향상 입증
쌍체 인간 선호도 예측 (Pairwise human preference prediction)은 코드 생성 시스템을 평가하는 데 핵심적이며, 여기서 품질은 종종 기능적 정확성 (functional correctness)을 넘어 작업별 트레이드오프 (trade-offs)에 따라 결정됩니다. 루브릭 기반 (rubric-based) LLM 판정관은 평가를 명시적인 기준 (criteria)으로 분해함으로써 해석 가능성을 향상시키지만, 대부분의 기존 파이프라인은 여전히 점수 기반 (pointwise) 방식에 머물러 있습니다. 즉, 각 응답을 독립적으로 점수 매기고 합산된 점수를 비교하여 선호도를 도출합니다. 우리는 이러한 설계가 쌍체 코드 선호도 예측에 부적합하며, 강력한 단일 판정관 (monolithic judge)보다 성능이 낮을 수 있음을 보여줍니다. 우리는 기준 중심의 프레임워크인 CriterAlign을 제안합니다. 이 프레임워크는 직접적인 기준 수준의 쌍체 판정 (criterion-level pairwise judgments), 타이 유도 기준 정제 (tie-driven criterion refinement), 스왑 일관성 필터링 (swap-consistency filtering), 그리고 최종 쌍체 합성 (final pairwise synthesis)을 통해 루브릭 기반 판정을 쌍체 선호도 평가에 적응시킵니다. 나아가 우리는 인간 선호도 정렬 가이드 (Human-Preference-Aligned Guidance, HPAG)를 도입합니다. HPAG는 학습 예시로부터 인간의 선호도와 단일 판정관의 예측 사이에서 반복되는 근거 격차 (rationale gaps)를 추출하여 오프라인에서 합성되며, 기준 생성기 (criterion generator), 기준 판정관 (criterion judge), 그리고 최종 판정관 (final judge)에 주입됩니다. BigCodeReward 데이터셋에서 CriterAlign은 Qwen2.5-VL-32B 단일 판정관의 정확도를 60.4%에서 66.3%로 향상시켰으며, 절제 연구 (ablations)를 통해 쌍체 기준 설계와 HPAG의 기여도를 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기