생성적 퍼플렉시티(Generative Perplexity) 해킹: 무조건부 텍스트 평가에 분포 기반 지표(Distributional
요약
본 논문은 생성적 퍼플렉시티(gen-PPL)가 언어 모델의 문법성이나 의미론적 일관성을 제대로 측정하지 못한다는 점을 지적합니다. 연구진은 낮은 엔트로피를 유지하면서도 품질이 낮은 텍스트를 생성하는 샘플러를 통해 gen-PPL의 한계를 증명하고, 분포 기반의 새로운 평가 방식을 제안합니다.
핵심 포인트
- gen-PPL은 모델의 예측 가능성만 측정할 뿐 문법적 품질을 보장하지 않음
- 낮은 엔트로피를 유지하며 품질이 낮은 텍스트를 생성하는 샘플러 구축
- 비자기회귀 모델 평가를 위한 분포적 발산(distributional divergence) 지표 권장
- 기존 gen-PPL 기반 벤치마크의 신뢰성 재검토 필요성 제기
확산 모델(Diffusion) 및 연속 흐름(continuous flow) 기반 언어 모델은 언어 모델링의 선도적인 비자기회귀(non-autoregressive) 대안으로 부상했습니다. 두 패러다임 모두에서의 발전은 생성적 퍼플렉시티(generative perplexity, gen-PPL)에 의해 압도적으로 추적됩니다. gen-PPL은 gpt2-large와 같은 고정된 자기회귀(autoregressive, AR) 평가 모델 하에서의 샘플당 토큰 음의 로그 가능도(negative log-likelihood)를 의미하며, 일반적으로 저엔트로피 붕괴(low-entropy collapse)를 배제하기 위해 경험적 엔트로피(empirical-entropy) 가드레일과 함께 사용됩니다. 우리는 이 지표가 타당하지 않다고 주장합니다. 구조적으로 gen-PPL은 평가에 사용되는 AR 모델 하에서의 예측 가능성(predictability)만을 측정할 뿐, 문법성(grammaticality)이나 의미론적 일관성(semantic coherence)을 측정하지 않습니다. 또한 예측 가능하지만 여전히 품질이 낮은 시퀀스의 집합은 조합론적으로 매우 방대합니다. 이를 구체화하기 위해, 우리는 LM1B 및 OpenWebText 데이터셋에서 퇴화하지 않은 엔트로피를 유지하면서도 최신 확산 모델 및 연속 흐름 모델을 능가하는 최첨단(state-of-the-art) gen-PPL을 달성하는, 의도적으로 단순하게 설계된 제로 파라미터(zero-parameter) 샘플러 세트를 구축했습니다. 이 샘플러들은 구조적으로 일관성이 없는 텍스트를 생성합니다. 우리는 생성된 텍스트와 참조 텍스트 사이의 분포적 발산(distributional divergence)을 직접 정량화하는 평가 세트를 권장하며, 이러한 세트를 사용하여 최근의 비자기회귀 모델들을 재벤치마킹함으로써 현재 기술 수준(state of the art)에 대한 더욱 충실한 모습을 복원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기