arXiv논문2026. 05. 26. 12:50

자기회귀적 다중 특성 에세이 채점을 위한 특성 인지 정책 최적화

요약

자기회귀적 다중 특성 에세이 채점을 위한 새로운 사후 학습 프레임워크인 TAPO를 제안합니다. 보상을 샘플과 특성 차원으로 분해하여 채점 일관성과 특성 간 의존성을 보존하며, SFT 개선을 통해 모델의 특성 이해도를 높입니다.

핵심 포인트

TAPO 프레임워크 제안: 다중 특성 채점에 최적화된 사후 학습 방식
보상 분해 기법: 전역적 일관성 및 특성 수준 정확도 확보
SFT 개선: 강화된 프롬프트를 통한 특성 의미론 내재화
성능 입증: 기존 SFT 및 스칼라 보상 최적화 대비 우수한 성능

다중 특성 에세이 채점 (Multi-trait essay scoring)은 여러 차원에 걸쳐 글쓰기 품질에 대한 세밀한 평가를 제공하는 것을 목표로 합니다. 그러나 자기회귀적 (Autoregressive) 채점 모델을 어떻게 효과적으로 사후 학습 (Post-train)할 것인지는 여전히 충분히 연구되지 않았습니다. 본 논문에서는 자기회귀적 다중 특성 채점에 맞춤화된 사후 학습 프레임워크인 특성 인지 정책 최적화 (Trait-Aware Policy Optimization, TAPO)를 제안합니다. 우리의 방법은 보상 (Rewards)을 샘플 및 특성 차원 모두를 따라 분해하며, 전역적 채점 일관성 (Global scoring consistency), 특성 수준의 정확도 (Trait-level accuracy), 형식 유효성 (Format validity), 그리고 특성 간 의존성 보존 (Inter-trait dependency preservation)을 결합합니다. 또한, 우리는 강화된 프롬프트를 통해 지도 미세 조정 (Supervised fine-tuning, SFT)을 개선하여, 모델이 선호도 최적화 (Preference optimization)를 수행하기 전에 특성 의미론 (Trait semantics)을 내재화할 수 있도록 합니다. 여러 백본 모델 (Backbone models)에 대한 실험을 통해, 우리의 방법이 지도 미세 조정 및 스칼라 보상 최적화 (Scalar-reward optimization) 베이스라인에 비해 다중 특성 채점 성능을 일관되게 향상시킨다는 것을 보여주며, 에세이 채점을 위한 특성 인지 사후 학습의 효과와 전이 가능성을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

자기회귀적 다중 특성 에세이 채점을 위한 특성 인지 정책 최적화

요약

핵심 포인트

댓글