DEFINED: 토론 시나리오에서의 미세한 창의성 평가를 위한 데이터 효율적 계산 프레임워크
요약
토론 시나리오에서 LLM의 창의성을 미세하게 평가하기 위한 데이터 효율적 프레임워크 DEFINED를 제안합니다. 계층적 8차원 지표와 혼합 입도 학습 전략을 통해 기존 방식보다 정확하고 안정적인 자동 채점 성능을 입증했습니다.
핵심 포인트
- 토론 맥락을 활용한 다차원적 창의성 평가 프레임워크 제안
- 계층적 8차원 지표 시스템 및 계층적 채점 헤드 도입
- 엘리트 편향 해결을 위한 제약된 데이터 증강 전략 사용
- 기존 LLM 평가기 및 토론 채점 방식 대비 우수한 성능 달성
대규모 언어 모델 (Large Language Models, LLMs) 시대에 인간의 창의성은 핵심 역량으로 부상했습니다. 복잡하고 개방적인 환경에서 창의성을 평가하는 것은 데이터 마이닝 (Data Mining) 분야의 거대한 도전 과제이며, 현재 표준화된 단순 작업에 대한 의존도와 미세한 (Fine-grained) 전문가 데이터의 부족으로 인해 어려움을 겪고 있습니다. 생태학적 타당성 (Ecologically valid)이 있는 평가 맥락으로서, 토론은 확산적 사고 (Divergent thinking)와 수렴적 사고 (Convergent thinking)를 모두 포함하며 창의성의 다차원적인 측면을 반영합니다. 또한, 토론은 공개적으로 접근 가능한 방대한 양의 자료를 보유한 데이터 풍부 영역입니다. 현재의 주류 자동 채점 방식은 토론과 같은 복잡한 환경에는 적합하지 않으며, 따라서 여전히 비용이 많이 드는 인간 평가에 의존하고 있습니다. 이를 위해 본 논문은 토론 시나리오에서 미세한 창의성 평가를 위한 데이터 효율적 계산 프레임워크인 DEFINED를 제안합니다. DEFINED는 계층적 8차원 지표 시스템을 통해 토론 창의성을 구체화하며, 이는 미세한 (Fine-grained) 평가와 거친 (Coarse-grained) 평가를 모두 지원하는 계층적 채점 헤드 (Hierarchical scoring head)를 갖춘 사전 학습된 자기회귀 언어 모델 (Pre-trained autoregressive language model)을 통해 구현됩니다. 진정한 토론 대회에서 발췌한 진술(Statements)과 그에 따른 전문가 점수를 확보하였으며, 원본 데이터에 내재된 엘리트 편향 (Elite bias)을 해결하기 위해 제약된 데이터 증강 (Data augmentation) 전략을 채택했습니다. DEFINED는 훈련된 대학원 전문가들이 주석을 단 제한된 미세 지도 학습 (Fine-grained supervision)으로부터 견고한 학습을 가능하게 하는 혼합 입도 (Mixed-granularity) 학습 전략을 채택합니다. 합성 벤치마크를 넘어 생태학적 타당성을 엄격하게 검증하기 위해, 우리는 토론에 익숙하지 않은 참가자들을 대상으로 한 실증 연구를 통합하였으며, 이러한 실제 데이터를 중·저 숙련도 인구 집단에 대한 질적 사례 연구로 활용했습니다. 우리의 평가 프로토콜 전반에 걸쳐, 제안된 채점 모델은 정확하고 안정적인 채점을 달성하였으며, 프롬프트 기반의 대규모 언어 모델 (Large Language Model) 평가기 및 기존의 토론 채점 방식보다 뛰어난 성능을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기