arXiv논문2026. 04. 23. 23:53

프롬프트 최적화로 법률 QA 평가 성능 극대화 방안

요약

본 연구는 자유 형식의 법률 질의응답(Legal QA) 평가에서 'LLM을 심판으로 활용하는 방식 (LLM-as-a-judge)'의 효과를 탐구합니다. 특히, 프롬프트 설계와 심판 선택이 평가 결과에 미치는 영향을 분석했습니다. 저자들은 ProTeGi라는 방법을 사용하여 태스크 프롬프트를 자동으로 최적화하고, 이 과정에서 두 명의 가상 심판(Qwen3-32B, DeepSeek-V3)의 피드백을 활용했습니다. 주요 발견으로는, 자동 최적화가 수동 설계보다 일관되게 우수하며, 특히 관대한(lenient) 심판의 피드백이 높은 성능 향상

핵심 포인트

자동 프롬프트 최적화 기법이 인간 중심의 프롬프트 설계보다 법률 QA 평가에서 더 나은 성능을 보입니다.
심판의 피드백 스타일 중 관대한(lenient) 피드백이 가장 크고 일관된 성능 향상을 가져옵니다.
최적화된 프롬프트를 다른 심판에게 적용할 때, 관대한 피드백으로 최적화한 것이 엄격한 심판보다 더 높은 일반화 능력을 보여줍니다.

본 연구는 자유 형식의 법률 질의응답(Legal QA) 평가에서 LLM을 '심판'으로 활용하는 방식(LLM-as-a-Judge)에 초점을 맞춥니다. 핵심은 프롬프트 설계와 심판 선택이 평가 결과에 미치는 영향을 체계적으로 분석한 것입니다.

연구진은 ProTeGi라는 방법을 사용하여 태스크 프롬프트를 자동으로 최적화했습니다. 이 과정에서 Qwen3-32B, DeepSeek-V3 등 두 가상 심판의 피드백을 활용하여 네 가지 모델에 걸쳐 테스트를 진행하고, 그 결과를 다른 심판에게 전이(cross-judge transfer)시키는 실험까지 수행했습니다.

분석 결과, 자동 최적화 방식이 수동으로 설계된 프롬프트보다 일관되게 우수한 성능을 보였습니다. 특히 주목할 점은, 관대한(lenient) 피드백을 준 심판의 피드백이 엄격한(strict) 피드백보다 더 크고 안정적인 성능 향상을 가져왔다는 것입니다.

또한, 최적화된 프롬프트가 다른 심판에게 전이될 때도 이러한 경향이 나타났습니다. 관대한 피드백으로 최적화된 프롬프트는 엄격한 심판에게 적용했을 때 더 좋은 일반화 능력을 보였습니다. 이는 관대한 심판의 피드백이 광범위하게 적용 가능한(broad applicability) 프롬프트를 생성하는 반면, 엄격한 심판은 특정 심판에 과적합된(judge-specific overfitting) 제한적인 결과를 초래하기 때문입니다.

결론적으로, 법률 QA 평가에서는 알고리즘적으로 프롬프트를 최적화하는 것이 인간의 직관에 의존하는 설계보다 효과적이며, 심판의 태도(disposition)가 생성되는 프롬프트의 일반성을 결정한다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

프롬프트 최적화로 법률 QA 평가 성능 극대화 방안

요약

핵심 포인트

댓글