arXiv논문2026. 05. 01. 15:39

From Coarse to Fine: Writing-Centric Generation Tasks 를 위한 벤치마킹 및 보상 모델링

요약

본 논문은 대형 언어 모델(LLM)이 생성적 글쓰기 작업에서 겪는 평가 및 학습의 한계를 지적하며, 세밀한 요구 사항 준수 기반의 보상 모델링의 필요성을 제기합니다. 이를 해결하기 위해 'WEval'이라는 정교한 평가 파이프라인과 'WRL'이라는 세밀한 강화학습(RL) 훈련 프레임워크를 제안했습니다. WEval은 다양한 작업 카테고리와 요구 사항 유형을 포괄하여 보상 모델의 체계적인 평가를 가능하게 하며, WRL은 지시사항 요구 사항을 선택적으로 제거하여 더욱 정밀한 보상 모델 훈련을 지원합니다.

핵심 포인트

LLM의 생성적 글쓰기 작업 성능 향상을 위해 세밀한(fine-grained) 보상 모델링이 필수적이다.
WEval은 다양한 작업 카테고리와 요구 사항 유형을 포괄하여 글쓰기 보상 모델을 체계적으로 평가하는 새로운 파이프라인이다.
WRL 프레임워크는 지시사항 요구 사항을 선택적으로 제거함으로써 양성/음성 샘플을 구성하고, 정밀한 RL 훈련을 가능하게 한다.
제안된 방법론은 다양한 글쓰기 벤치마크에서 상당한 성능 개선과 뛰어난 일반화 능력을 입증했다.

대형 언어 모델 (LLM) 은 텍스트 생성 분야에서 놀라운 진전을 이루었으나, 여전히 생성적 글쓰기 작업 (generative writing tasks) 에서 어려움을 겪고 있습니다. 평가 측면에서 보면, 기존 벤치마크는 글쓰기 보상 모델 (writing reward models) 을 거칠게만 평가하며 특정 요구 사항의 관점에서 성능을 측정하지 못합니다. 학습 측면에서는 LLM-as-a-judge 접근 방식을 사용하거나 과립도가 낮은 (coarse-grained) 보상 모델을 훈련하는 등, 세밀한 요구 사항 준수 기반의 보상 모델링 (fine-grained requirement-adherence reward modeling) 이 부족합니다.

이러한 문제들을 해결하기 위해 우리는 글쓰기 보상 모델을 위한 세밀한 평가 파이프라인인 WEval 과 세밀한 강화학습 (RL) 훈련 프레임워크인 WRL 을 제안합니다. WEval 의 평가 데이터는 여러 작업 카테고리 및 요구 사항 유형을 포괄하여, 보상 모델의 순위와 금표 순위 (gold rankings) 간의 상관관계를 측정함으로써 글쓰기 보상 모델에 대한 체계적인 평가를 가능하게 합니다. WRL 은 지시사항 요구 사항을 선택적으로 제거함으로써 양성과 음성 샘플을 구성하여, 더 정밀한 보상 모델 훈련을 가능하게 합니다. 실험 결과, 우리의 모델은 다양한 글쓰기 벤치마크에서 상당한 개선을 보였으며 뛰어난 일반화 성능을 나타냈습니다. 코드와 데이터는 \href{https://github.com/Rainier-rq1/From_Coarse_to_Fine}{https://github.com/Rainier-rq1/From\_Coarse\_to\_Fine} 에서 공개되어 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

From Coarse to Fine: Writing-Centric Generation Tasks 를 위한 벤치마킹 및 보상 모델링

요약

핵심 포인트

댓글