Poller: LLM은 시 이해 태스크를 평가하기에 적합한가?
요약
현대 중국 시 평가를 위해 LLM이 시인의 관점을 채택하여 평가하는 새로운 방법론인 Poller를 제안합니다. 실험 결과, Poller는 수사 기법 및 낯설게 하기 등 전문적 차원에서 기존 방식보다 인간과의 평가 오차를 획기적으로 줄였습니다.
핵심 포인트
- 시 이해 태스크를 위한 새로운 LLM 평가 방법론 Poller 제안
- LLM이 시의 저자 역할을 수행하여 인간의 관점을 모방
- 수사 기법 및 낯설게 하기 차원에서 높은 오차 감소율 달성
- 자동화된 효율성과 인간의 전문성 사이의 간극 해소
전통적인 자동 평가 방법들은 이 문학 장르의 독특한 특성 때문에 현대 중국 시를 평가하기에 부적합하다는 것이 밝혀졌습니다. 인간 평가(Human evaluation)는 여전히 신뢰할 수 있지만, 비용이 많이 들고 대규모 데이터에는 적용할 수 없습니다. 본 논문에서는 시 이해 태스크를 평가하기 위해 대규모 언어 모델(LLMs)을 활용하는 새로운 방법인 Poller (Poetry LLM Evaluator)를 제안합니다. 구체적으로, 우리의 방법은 LLM이 상세한 정보를 가진 시의 저자 역할을 수행하도록 요구하며, 이를 통해 시인의 관점을 채택함으로써 인간의 평가와 판단을 모방합니다. 우리는 여러 LLM을 대상으로 포괄적인 실험을 수행하여, 8가지 전문적인 차원에 걸쳐 시의 해석을 평가했습니다. 실험 결과, 우리의 방법이 LLM과 인간 사이의 평가 오차를 효과적으로 줄인다는 것을 입증했습니다. 특히 특정 차원 평가의 경우, Poller 기반의 LLM은 베이스라인(baseline) 방법들과 비교했을 때 수사 기법(rhetorical techniques)과 낯설게 하기(defamiliarization)에서 각각 94.55%와 89.53%의 오차 감소를 달성했습니다. 이러한 성능은 기존의 LLM 평가 방법으로는 달성할 수 없는 수준입니다. 다양한 차원에 걸친 여러 LLM의 실험 결과는 우리 방법의 효능을 입증합니다. 본 연구는 자동화된 효율성과 인간의 전문성 사이의 간극을 메우며, 시 관련 태스크에서의 자동 평가를 위한 토대를 마련합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기