arXiv논문2026. 06. 02. 11:49

"이게 어떻게 흘러가는지 봤어요": 점진적 조건부 놀라움(Progressive Conditional Surprise)을 통한 다양성 특성화

요약

창의적 출력물의 다양성을 측정하기 위해 인컨텍스트 학습을 활용한 새로운 지표인 'Decan'을 제안합니다. 별도의 임베딩 모델이나 참조 코퍼스 없이 단일 순전파만으로 AI와 인간의 글쓰기 다양성을 정량화할 수 있습니다.

핵심 포인트

인컨텍스트 학습 기반의 새로운 다양성 측정 지표 Decan 제안
임베딩 모델이나 추가 훈련 없이 단일 순전파로 측정 가능
사후 학습 단계(SFT, DPO 등)에서의 다양성 손실 탐지 유효성 입증
인간 작성 응답과 AI 응답을 동일한 파이프라인으로 평가 가능

창의적 출력물의 다양성(diversity)을 측정하는 것은 사후 학습(post-training) 단계의 모드 붕괴(mode collapse)를 평가하고, 디코딩 전략(decoding strategies)을 비교하며, AI와 인간의 글쓰기 모두에서 창의적 행동을 정량화하는 데 핵심적입니다. 우리는 인컨텍스트 학습(in-context learning)을 사용하여 다양성을 측정하는 새로운 접근 방식을 제안하며, 그 실행 사례로서 "Decan" 지표인 $D_{Ca_n} = C imes a_n$을 평가합니다. 이는 임베딩 모델(embedding model), 참조 코퍼스(reference corpus), 인간의 라벨(human labels) 없이, 순열(permutation)당 단 한 번의 extit{단일 순전파(single forward pass)} 과정에서 베이스 모델 $\theta$의 토큰별 로그 확률(log-probabilities)로부터 읽어낸 바이트당 점수입니다. 이 접근 방식은 정보 이론(information theory)에 근거하며, 언어 모델의 인컨텍스트 학습(in-context learning)을 활용하여 임의의 수의 입력값 사이의 광범위한 유사성을 탐지하고, 특수 목적 모델을 훈련할 필요성을 제거합니다. 동일한 파이프라인으로 AI 샘플과 인간이 작성한 응답 세트를 점수화하며, 이때 다양성은 (응답, 프롬프트, 점수 모델)의 속성으로 취급됩니다. Tevet과 Berant의 인간 기반 McDiv 벤치마크에서, $D_{Ca_n}$은 가장 성능이 좋은 McDiv prompt_gen 세트에서 OCA 0.846을 기록하였으며, 이는 Tevet과 Berant가 보고한 가장 강력한 신경망 베이스라인(SentBERT, 0.897)에 뒤처지는 수치입니다. OLMo-2-7B 사후 학습(post-training) 파이프라인에서 $D_{Ca_n}$은 base $\to$ SFT $\to$ DPO $\to$ RLVR 단계에 따라 단조 감소하며, 창의적 글쓰기 애플리케이션에서 중요하게 여기는 유형의 다양성 손실(diversity loss)을 탐지해냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

"이게 어떻게 흘러가는지 봤어요": 점진적 조건부 놀라움(Progressive Conditional Surprise)을 통한 다양성 특성화

요약

핵심 포인트

댓글