LLM 기반 입지 감지를 위한 프롬프팅과 다중 에이전트 방법의 체계적 비교

입지 감지 (Stance detection) 는 텍스트 저자가 주어진 대상에 대해 갖는 태도를 식별하는 작업입니다. 최근 연구들은 이 작업을 위해 제로샷 프롬프팅从零-shot prompting) 에서 다중 에이전트 논쟁 (multi-agent debate) 에 이르기까지 다양한 LLM 기반 전략을 탐구해 왔습니다. 그러나 기존 연구들은 데이터 분할, 기본 모델, 평가 프로토콜에서 차이가 있어 공정한 비교가 어렵습니다. 우리는 15 개의 LLM(6 개 모델 패밀리, 파라미터 크기가 7B 에서 72B+) 을 사용하여 프롬프팅 기반 추론 (Direct Prompting, Auto-CoT, StSQA) 과 에이전트 기반 논쟁 (COLA, MPRF) 이라는 두 범주에 속하는 5 가지 방법을 4 개 데이터셋의 14 개 서태스크에서 체계적으로 비교했습니다. 우리의 실험은 다음과 같은 결과를 도출했습니다. 첫째, 완전한 결과가 있는 모든 모델에서 가장 좋은 프롬프팅 기반 방법은 가장 좋은 에이전트 기반 방법보다 성능이 우수했으며, 에이전트 방법은 샘플당 API 호출 횟수가 7 배에서 12 배 더 많이 요구됩니다. 둘째, 모델 스케일 (scale) 이 방법 선택보다 성능에 더 큰 영향을 미치며, 성능 향상은 약 32B 부근에서 정체 (plateauing) 됩니다. 셋째, 추론 강화 모델 (DeepSeek-R1) 은 동일한 크기의 일반 모델보다 이 작업에서 일관되게 우수한 성능을 보이지 않습니다.

Insights

LLM 기반 입지 감지를 위한 프롬프팅과 다중 에이전트 방법의 체계적 비교

요약

핵심 포인트

댓글

Codex가 이제 Claude Code의 메모리를 읽을 수 있습니다

Lip-Bu Tan 체제 하의 Intel 파운드리, 첫 외부 고객사 확보. 실적 발표 2일 전 주가 8% 이상 급등

Claude가 이제 어떤 웹사이트의 인터페이스도 직접 복제할 수 있습니다

AI를 상당히 사용하고 있음에도 AI 활용 설문에서는 낮은 점수였다──제2세대 AI 인재라는 생각

Codex가 이제 Claude Code의 메모리를 읽을 수 있습니다

Lip-Bu Tan 체제 하의 Intel 파운드리, 첫 외부 고객사 확보. 실적 발표 2일 전 주가 8% 이상 급등

Claude가 이제 어떤 웹사이트의 인터페이스도 직접 복제할 수 있습니다

AI를 상당히 사용하고 있음에도 AI 활용 설문에서는 낮은 점수였다──제2세대 AI 인재라는 생각