StoryAlign: 스토리 생성을 위한 보상 모델 평가 및 훈련
요약
본 논문은 대형 언어 모델(LLMs)이 생성한 스토리가 인간의 내러티브 구조나 선호도에 미치지 못하는 문제를 해결하기 위해, 스토리 생성 과정에서 인간의 선호도를 효과적으로 모델링하는 방법을 제시합니다. 연구진은 첫 번째 벤치마크인 StoryRMB를 소개하고, 기존 보상 모델들이 인간 선호 스토리를 정확하게 선택하는 데 어려움을 겪는 한계를 발견했습니다. 이를 극복하기 위해 약 10만 개의 고품질 스토리 선호 쌍으로 훈련된 고급 보상 모델 'StoryReward'를 개발했으며, 이 모델은 StoryRMB에서 최고 성능(SoTA)을 달성하고 실제 응용 분야에서도 뛰어난 성능을 입증했습니다.
핵심 포인트
- 스토리 생성의 핵심 과제는 LLM이 인간과 정렬된 복잡한 내러티브 구조와 선호도를 갖도록 하는 것입니다.
- 연구진은 스토리 선호도 평가를 위한 최초 벤치마크인 StoryRMB를 구축하여 학계에 기여했습니다.
- 기존 보상 모델의 한계를 극복하기 위해 대규모 데이터셋(10만 쌍)으로 훈련된 'StoryReward'라는 고급 보상 모델을 개발했습니다.
- StoryReward는 스토리 생성 과정에서 인간 선호도와 가장 잘 정렬된 스토리를 선택하는 최고 성능(SoTA)을 달성했습니다.
스토리 생성은 일관성 있고 구조화되며 흥미로운 이야기를 자동으로 생성하는 것을 목표로 합니다. 대형 언어 모델 (LLMs) 은 텍스트 생성을 크게 발전시켰지만, LLM 로 생성된 스토리는 여전히 복잡한 내러티브 구조와 인간과 정렬된 선호도에 있어 인간 창작물에서 벗어나 있습니다. 주요 이유는 인간 스토리 선호도를 효과적으로 모델링하지 못했다는 점입니다. 이는 본질적으로 주관적이고 탐구되지 않은 영역이기 때문입니다. 이 작업에서는 인간 스토리 선호도 모델링을 체계적으로 평가하고, 스토리 선호도에 대한 보상 모델을 평가하는 첫 번째 벤치마크인 StoryRMB 를 소개합니다. StoryRMB 는 프롬프트, 선택된 스토리 1 개, 거절된 스토리 3 개로 구성된 $1,133$ 개의 고품질 인간 검증 인스턴스를 포함합니다. 우리는 기존 보상 모델이 인간 선호 스토리를 선택하는 데 어려움을 겪는다는 것을 발견했습니다. 가장 좋은 모델은 정확도가 $66.3 ext{ extperthousand}$ 만 달성했습니다. 이 한계를 해결하기 위해 우리는 다양한 도메인에서 약 $100,000$ 개의 고품질 스토리 선호 쌍을 구성하고, 이 데이터셋으로 훈련된 스토리 선호도를 위한 고급 보상 모델인 StoryReward 를 개발했습니다. StoryReward 는 StoryRMB 에서 최강 성능 (SoTA) 을 달성하며, 훨씬 큰 모델을 능가합니다. 또한 우리는 Best-of-n (BoN) 스토리 선택을 위한 다운스트림 테스트 타임 스케일링 응용에 StoryReward 를 채택했으며, 그것이 일반적으로 인간 선호도와 더 잘 정렬된 스토리를 선택한다는 것을 발견했습니다. 우리는 향후 연구를 촉진하기 위해 데이터셋, 모델, 코드를 공개할 예정입니다. 관련 코드와 데이터는 https://github.com/THU-KEG/StoryReward 에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기