Persona Non Grata: MCQA에서 LLM의 페르소나 기반 생성(PDG)은 다양한 차원에서 불안정함
요약
본 연구는 다지선다형 질의응답(MCQA) 작업에서 LLM의 페르소나 기반 생성(PDG)이 보이는 불안정성을 분석합니다. 성능, 결과, 질문 정확도의 세 가지 차원에서 지표를 개발하여 모델 크기와 도메인에 따른 불안정성 패턴을 규명했습니다.
핵심 포인트
- MCQA 작업에서 페르소나 기반 생성의 불안정성 확인
- 수학 및 상식 도메인에서 더 높은 불안정성 관찰
- 프롬프트 형식이 온도(temperature)보다 불안정성에 더 큰 영향
- 불안정성과 작업 정확도 사이의 상관관계 입증
페르소나 기반 생성 (Persona-driven generations, PDGs)은 대규모 언어 모델 (LLM)이 특정 작업을 수행하는 동안 '페르소나 (persona)'를 채택하는 방식으로, 연구 및 산업 응용 분야에서 활발하게 사용되어 왔습니다. 자유 형식의 텍스트(대화 등)를 통해 표현되는 페르소나의 안정성이나 일관성에 대해서는 상당한 연구가 이루어진 반면, 텍스트 비중이 낮은 출력(다지선다형 질의응답, 즉 MCQA 등)에서 표현되는 페르소나는 상대적으로 간과되는 경우가 많습니다. 본 연구는 이러한 격차를 해소하고자 하며, MCQA 작업에서 LLM PDG의 불안정성을 이해하는 것을 목표로 합니다. 우리는 성능(performance), 결과(outcome), 그리고 질문 정확도(question correctness)의 안정성을 조사하여 세 가지 별개의 차원을 평가하는 세 가지 지표를 개발했습니다. 이 지표들을 사용하여, 우리는 불안정성이 모델 제품군(model families)과 모델 크기, 그리고 질문 도메인에 따라 일관되게 변한다는 것을 발견했으며, 특히 수학/상식(math/commonsense) 질문에서 더 큰 불안정성이 나타남을 확인했습니다. 또한, 작업 프롬프트 형식(task prompt format)이 온도(temperature)와 같은 다른 하이퍼파라미터(hyperparameters)보다 더 많은 예측 불안정성을 유발한다는 것을 발견했습니다. 마지막으로, 불안정성이 작업 정확도(task accuracy)와 관련이 있음을 확인하였으며, 우리의 불안정성 지표를 사용하여 유사함에도 불구하고 작업에 따라 서로 다른 최적 및 최악의 페르소나를 초래하는 다양한 실험 설정들을 찾아냈습니다. 이는 PDG에서 하이퍼파라미터 불안정성을 점검하는 것이 중요하다는 점을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기