arXiv논문2026. 06. 30. 12:59

인간 창의성 벤치마크 (The Human Creativity Benchmark)

요약

창의적 AI 평가 시 전문가 간의 의견 불일치를 노이즈가 아닌 취향의 차이로 보는 새로운 벤치마크인 HCB를 제안합니다. 수렴(기술적 정확성)과 발산(미적 취향) 신호를 모두 보존하여 모델의 성능을 다각도로 측정합니다.

핵심 포인트

창의적 영역의 의견 불일치는 측정 오류가 아닌 취향의 차이임
수렴(Convergence)과 발산(Divergence) 신호를 모두 보존하는 평가 필요
HCB는 5개 영역과 3개 워크플로 단계에 걸친 15,000건의 전문가 판단 활용
모델의 기술적 정확성과 제어 가능성을 동시에 평가하는 것이 핵심

현대의 AI 평가 프레임워크는 평가자 간의 의견 불일치를 해결해야 할 노이즈(noise)로 취급합니다. 창의적인 영역에서 전문가들의 의견 불일치는 측정 오류가 아니라 취향의 진정한 차이를 반영합니다. 우리는 창의적 AI를 평가하기 위해서는 두 가지 뚜렷한 신호, 즉 전문가들이 공유된 최선의 관행(best practices)을 중심으로 일치하는 수렴(convergence)과 개인의 취향이 정당하게 변하는 발산(divergence)을 모두 보존해야 한다고 주장합니다. 우리는 도메인 전문가들로부터 쌍체 선호도(pairwise preferences), 프롬프트 준수(prompt adherence), 사용성(usability), 시각적 매력(visual appeal)에 대한 스칼라 등급(scalar ratings), 그리고 질적 근거(qualitative rationale)를 수집함으로써 이러한 분리를 실행 가능한 형태로 구현한 벤치마크인 Human Creativity Benchmark (HCB)를 제시합니다. 5개의 창의적 영역과 3개의 워크플로 단계(아이디어 구상(ideation), 목업(mockup), 개선(refinement))에 걸친 15,000건의 전문가 판단을 통해, 우리는 수렴이 기술적 정확성(technical correctness) 및 시각적 계층 구조(visual hierarchy)와 같이 검증 가능한 차원에 집중되는 반면, 발산은 미적 방향성(aesthetic direction) 및 개념적 위험(conceptual risk)과 같이 취향 중심적인 차원에 집중된다는 것을 발견했습니다. 어떤 모델도 모든 단계에서 균일하게 탁월하지는 않습니다. 이러한 신호들을 단일한 품질 지표로 통합하는 것은 가장 실행 가능한 정보, 즉 모델이 반드시 정확해야 하는 부분과 모델이 제어 가능(steerable)하게 유지되어야 하는 부분을 버리는 것과 같습니다.

AI 자동 생성 콘텐츠

원문 바로가기

인간 창의성 벤치마크 (The Human Creativity Benchmark)

요약

핵심 포인트

댓글