arXiv논문2026. 06. 09. 12:00

비판-정제(Critique-Refinement)를 통한 에이전트 페르소나 생성: 산업적 평가

요약

PerGent는 생성기와 비판자 LLM 에이전트 간의 반복적인 비판-정제 루프를 통해 산업 등급의 페르소나를 자동 생성하는 방법론을 제안합니다. Kinaxis 산업 현장 평가 결과, 기존 단발성 생성 방식보다 높은 96.9%의 전문가 승인율을 기록하며 우수한 성능을 입증했습니다.

핵심 포인트

비판-정제(Critique-Refinement) 루프를 통한 페르소나 생성 자동화
생성기, 비판자, 오케스트레이터 에이전트 구조 활용
외부 리소스(인터뷰, 설문 등)를 활용한 반복적 정제 프로세스
전문가 승인율 96.9% 달성 및 기존 베스트 프랙티스 상회

페르소나(Personas)는 요구사항 도출(requirements elicitation), 설계 및 검증을 지원하기 위해 소프트웨어 공학에서 널리 사용되지만, 수동으로 생성하는 것은 비용이 많이 들고 시간이 오래 걸리며 확장하기 어렵습니다. 최근의 LLM(Large Language Model) 기반 접근 방식은 텍스트 데이터로부터 페르소나 생성을 자동화하지만, 일반적으로 단발성 생성(single-shot generation)과 주관적인 평가에 의존하여 실질적인 신뢰성이 제한적입니다. 본 논문에서는 반복적인 비판-정제(critique-refinement) 루프를 중심으로 구축된 산업 등급의 페르소나 생성 방법론인 PerGent를 제안합니다. 구체적으로, PerGent는 생성기(generator)와 비판자(critic) LLM 에이전트를 사용하며, 이들은 오케스트레이터(orchestrator)에 의해 조정됩니다. 이들은 사용자가 정의한 최대 라운드 수 내에서 인터뷰, 설문 조사, 채용 공고와 같은 외부 리소스를 활용하여 비판-정제 루프를 통해 페르소나를 반복적으로 정제합니다. 우리는 Kinaxis의 산업 현장에 PerGent를 배포하여 평가하였으며, 단발성 방법론을 포함한 세 가지 베이스라인(baselines)과 비교하였습니다. 전문가 현장 평가(expert in-situ evaluation)에서 PerGent는 모든 베이스라인을 능가하는 가장 높은 전문가 승인율(96.9%)을 달성했습니다. 나아가 우리는 PerGent로 생성된 페르소나를 LLM 도입 이전에 도메인 전문가들이 수동으로 작성한 베스트 프랙티스(best-practice) 페르소나와 비교하였습니다. 베이스라인과 비교했을 때, PerGent는 전문가 콘텐츠의 더 큰 비율을 재현하는 동시에, LLM 도입 이전의 페르소나를 넘어서는 상당한 양의 새로운 콘텐츠를 제공합니다. 마지막으로 Kinaxis에서 PerGent를 배포하고 평가하며 얻은 교훈을 바탕으로 결론을 맺습니다.

AI 자동 생성 콘텐츠

원문 바로가기

비판-정제(Critique-Refinement)를 통한 에이전트 페르소나 생성: 산업적 평가

요약

핵심 포인트

댓글