arXiv논문2026. 05. 14. 04:37

답변 타당성 점수 산출을 통한 대규모 언어 모델(LLMs)의 질문 난이도 추정

요약

본 논문은 LLM 평가 및 개선의 핵심 요소인 질문 난이도를 추정하는 새로운 방법 Q-DAPS(Question Difficulty based on Answer Plausibility Scores)를 제안한다. Q-DAPS는 후보 답변들의 타당성 점수 엔트로피를 계산하여 질문 난이도를 측정하며, 기존 방식들이 포착하지 못했던 LLM의 복잡한 추론 과제를 평가할 수 있다. 광범위한 실험을 통해 Q-DAPS가 다양한 QA 데이터셋에서 높은 성능과 강건성을 입증했으며, 인간 평가와도 높은 일치성을 보였다.

핵심 포인트

Q-DAPS는 후보 답변들의 타당성 점수 엔트로피를 활용하여 질문 난이도를 추정하는 새로운 접근 방식이다.
기존의 가독성 공식이나 인기도 통계 기반 방법보다 LLM의 복잡한 추론 과제를 더 잘 포착한다.
TriviaQA, NQ, MuSiQue, QASC 등 주요 QA 데이터셋에서 베이스라인 모델들을 지속적으로 능가하는 성능을 보였다.
광범위한 어블레이션 연구와 인간 평가를 통해 높은 강건성과 해석 가능성을 입증했다.

질문 난이도를 추정하는 것은 질문 답변 (QA)을 위한 대규모 언어 모델 (LLMs)을 평가하고 개선하는 데 있어 핵심적인 구성 요소입니다. 기존의 방식들은 가독성 공식, 검색 기반 신호 또는 인기도 통계에 의존하는 경우가 많으며, 이는 현대의 LLMs에 제기되는 추론 과제를 완전히 포착하지 못할 수 있습니다. 본 논문에서는 후보 답변들에 대한 타당성 점수 (plausibility scores)의 엔트로피 (entropy)를 계산함으로써 질문 난이도를 추정하는 새로운 접근 방식인 Q-DAPS (Question Difficulty based on Answer Plausibility Scores) 방법을 소개합니다. 우리는 TriviaQA, NQ, MuSiQue, QASC 등 네 가지 주요 QA 데이터셋에 대해 Q-DAPS를 체계적으로 평가하였으며, 이를 통해 Q-DAPS가 베이스라인 (baselines) 모델들을 지속적으로 능가함을 입증했습니다. 또한, Q-DAPS는 하이퍼파라미터 (hyperparameter) 변화와 질문 유형 전반에 걸쳐 강력한 강건성 (robustness)을 보여줍니다. 광범위한 어블레이션 연구 (ablation studies)를 통해 Q-DAPS가 서로 다른 타당성 추정 패러다임, 모델 크기 및 실제 설정에서도 강건하게 유지됨을 추가로 확인했습니다. 인간 평가 (Human evaluations)를 통해서도 Q-DAPS의 난이도 추정치와 인간의 질문 난이도 판단 사이에 강력한 일치성이 있음을 확인했습니다. 종합적으로, Q-DAPS는 현대 QA 시스템에서 질문 난이도 추정을 위한 해석 가능하고, 확장 가능하며, 편향에 강한 (bias-resilient) 접근 방식을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

답변 타당성 점수 산출을 통한 대규모 언어 모델(LLMs)의 질문 난이도 추정

요약

핵심 포인트

댓글