본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 15:51

LLM 기반 입지 감지를 위한 프롬프팅과 다중 에이전트 방법의 체계적 비교

요약

본 논문은 입지 감지(Stance detection) 작업을 위해 제로샷 프롬프팅부터 다중 에이전트 논쟁까지 다양한 LLM 기반 전략들을 체계적으로 비교 분석했습니다. 15개의 다양한 크기의 LLM을 사용하여 총 5가지 방법을 4개 데이터셋의 14개 서태스크에 걸쳐 실험한 결과, 가장 좋은 성능은 프롬프팅 기반 방법에서 나왔으며, 에이전트 기반 방법은 높은 API 호출 비용을 요구하는 것으로 나타났습니다. 또한, 모델 스케일이 방법 선택보다 성능에 더 큰 영향을 미치며, 특정 크기(약 32B) 이후에는 성능 향상이 정체되는 경향을 발견했습니다.

핵심 포인트

  • 입지 감지 작업에서 프롬프팅 기반 추론 방식이 다중 에이전트 논쟁 방식보다 전반적으로 우수한 성능을 보였다.
  • 에이전트 기반 방법은 높은 계산 비용(샘플당 7~12배 많은 API 호출)을 요구한다.
  • LLM의 성능 향상은 방법론적 차이보다는 모델 자체의 스케일(Scale)에 더 크게 의존하며, 약 32B 파라미터 부근에서 포화되는 경향을 보인다.
  • 추론 강화 모델(DeepSeek-R1 등)이 반드시 동일 크기의 일반 모델보다 이 작업에서 우수하다고 단정하기는 어렵다.

입지 감지 (Stance detection) 는 텍스트 저자가 주어진 대상에 대해 갖는 태도를 식별하는 작업입니다. 최근 연구들은 이 작업을 위해 제로샷 프롬프팅从零-shot prompting) 에서 다중 에이전트 논쟁 (multi-agent debate) 에 이르기까지 다양한 LLM 기반 전략을 탐구해 왔습니다. 그러나 기존 연구들은 데이터 분할, 기본 모델, 평가 프로토콜에서 차이가 있어 공정한 비교가 어렵습니다. 우리는 15 개의 LLM(6 개 모델 패밀리, 파라미터 크기가 7B 에서 72B+) 을 사용하여 프롬프팅 기반 추론 (Direct Prompting, Auto-CoT, StSQA) 과 에이전트 기반 논쟁 (COLA, MPRF) 이라는 두 범주에 속하는 5 가지 방법을 4 개 데이터셋의 14 개 서태스크에서 체계적으로 비교했습니다. 우리의 실험은 다음과 같은 결과를 도출했습니다. 첫째, 완전한 결과가 있는 모든 모델에서 가장 좋은 프롬프팅 기반 방법은 가장 좋은 에이전트 기반 방법보다 성능이 우수했으며, 에이전트 방법은 샘플당 API 호출 횟수가 7 배에서 12 배 더 많이 요구됩니다. 둘째, 모델 스케일 (scale) 이 방법 선택보다 성능에 더 큰 영향을 미치며, 성능 향상은 약 32B 부근에서 정체 (plateauing) 됩니다. 셋째, 추론 강화 모델 (DeepSeek-R1) 은 동일한 크기의 일반 모델보다 이 작업에서 일관되게 우수한 성능을 보이지 않습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
8

댓글

0