arXiv논문2026. 05. 07. 17:29

StoryAlign: 스토리 생성을 위한 보상 모델 평가 및 훈련

요약

본 논문은 대형 언어 모델(LLMs)이 생성한 스토리가 인간의 내러티브 구조나 선호도에 미치지 못하는 문제를 해결하기 위해, 스토리 생성 과정에서 인간의 선호도를 효과적으로 모델링하는 방법을 제시합니다. 연구진은 첫 번째 벤치마크인 StoryRMB를 소개하고, 기존 보상 모델들이 인간 선호 스토리를 정확하게 선택하는 데 어려움을 겪는 한계를 발견했습니다. 이를 극복하기 위해 약 10만 개의 고품질 스토리 선호 쌍으로 훈련된 고급 보상 모델 'StoryReward'를 개발했으며, 이 모델은 StoryRMB에서 최고 성능(SoTA)을 달성하고 실제 응용 분야에서도 뛰어난 성능을 입증했습니다.

핵심 포인트

스토리 생성의 핵심 과제는 LLM이 인간과 정렬된 복잡한 내러티브 구조와 선호도를 갖도록 하는 것입니다.
연구진은 스토리 선호도 평가를 위한 최초 벤치마크인 StoryRMB를 구축하여 학계에 기여했습니다.
기존 보상 모델의 한계를 극복하기 위해 대규모 데이터셋(10만 쌍)으로 훈련된 'StoryReward'라는 고급 보상 모델을 개발했습니다.
StoryReward는 스토리 생성 과정에서 인간 선호도와 가장 잘 정렬된 스토리를 선택하는 최고 성능(SoTA)을 달성했습니다.

스토리 생성은 일관성 있고 구조화되며 흥미로운 이야기를 자동으로 생성하는 것을 목표로 합니다. 대형 언어 모델 (LLMs) 은 텍스트 생성을 크게 발전시켰지만, LLM 로 생성된 스토리는 여전히 복잡한 내러티브 구조와 인간과 정렬된 선호도에 있어 인간 창작물에서 벗어나 있습니다. 주요 이유는 인간 스토리 선호도를 효과적으로 모델링하지 못했다는 점입니다. 이는 본질적으로 주관적이고 탐구되지 않은 영역이기 때문입니다. 이 작업에서는 인간 스토리 선호도 모델링을 체계적으로 평가하고, 스토리 선호도에 대한 보상 모델을 평가하는 첫 번째 벤치마크인 StoryRMB 를 소개합니다. StoryRMB 는 프롬프트, 선택된 스토리 1 개, 거절된 스토리 3 개로 구성된 $1,133$ 개의 고품질 인간 검증 인스턴스를 포함합니다. 우리는 기존 보상 모델이 인간 선호 스토리를 선택하는 데 어려움을 겪는다는 것을 발견했습니다. 가장 좋은 모델은 정확도가 $66.3 ext{ extperthousand}$ 만 달성했습니다. 이 한계를 해결하기 위해 우리는 다양한 도메인에서 약 $100,000$ 개의 고품질 스토리 선호 쌍을 구성하고, 이 데이터셋으로 훈련된 스토리 선호도를 위한 고급 보상 모델인 StoryReward 를 개발했습니다. StoryReward 는 StoryRMB 에서 최강 성능 (SoTA) 을 달성하며, 훨씬 큰 모델을 능가합니다. 또한 우리는 Best-of-n (BoN) 스토리 선택을 위한 다운스트림 테스트 타임 스케일링 응용에 StoryReward 를 채택했으며, 그것이 일반적으로 인간 선호도와 더 잘 정렬된 스토리를 선택한다는 것을 발견했습니다. 우리는 향후 연구를 촉진하기 위해 데이터셋, 모델, 코드를 공개할 예정입니다. 관련 코드와 데이터는 https://github.com/THU-KEG/StoryReward 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

StoryAlign: 스토리 생성을 위한 보상 모델 평가 및 훈련

요약

핵심 포인트

댓글