대규모 언어 모델(LLMs)은 항상 똑같은 이야기를 하는가?
요약
본 연구는 LLM이 생성하는 이야기의 서사적 유사성을 조사하여 모델 간 출력의 다양성 문제를 다룹니다. 연구 결과, 최첨단 모델들이 인간의 개별 이야기에는 근접하지만 집단적 다양성은 결여된 '평균적인' 서사로 수렴함을 확인했습니다.
핵심 포인트
- LLM 생성 서사는 인간 작성 서사보다 유사성이 높음
- 최첨단 모델들이 하나의 평균적인 서사로 수렴하는 경향 발견
- 부정 프롬프팅과 온도 스케일링은 동질성 해결에 한계가 있음
대규모 언어 모델(LLMs)의 최근 발전은 고품질의 산문을 생성할 수 있게 해주었지만, 이러한 모델들이 다양한 출력을 생성할 능력이 있는지에 대한 문제는 여전히 논쟁의 여지가 있습니다. 본 연구에서는 서사적 유사성(narrative similarity) 프레임워크를 통해 LLM이 생성한 이야기의 다양성을 조사합니다. 대조 프레임워크(contrastive framework)와 r/WritingPrompts에서 수집한 인간이 작성한 이야기 및 프롬프트 데이터셋을 사용하여, 인간 평가와 세 가지 서로 다른 자동 주석(automatic annotation) 방법을 모두 활용하여 10개의 대표적인 LLM에 대한 서사적 유사성 판단을 수집합니다. 우리의 연구 결과는 일관된 경향을 보여줍니다: LLM이 생성한 서사는 인간이 작성한 이야기보다 서로 간에 지속적으로 더 높은 유사성을 보입니다. 우리는 특히 최첨단 모델(frontier models)들이 개별 인간의 이야기에는 근접하지만 인간 저자들의 집단적 다양성은 결여된, 하나의 "평균적인" 일반적 서사로 수렴한다는 것을 입증합니다. 마지막으로, 부정 프롬프팅(negative prompting)과 온도 스케일링(temperature scaling)을 포함한 일반적인 완화 전략들이 이러한 동질성(homogeneity) 문제를 의미 있게 해결하지 못한다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기