READER: 추출된 표현을 통한 강건한 증거 기반 저자 디코딩 (Robust Evidence-based Authorship Decoding
요약
블랙박스 LLM 응답의 출처를 식별하기 위한 경량 프레임워크인 READER를 제안합니다. 프록시 활성화 공간과 베이지안 증거 축적 방식을 통해, 비정의 프롬프트 환경에서도 모델별 저자 흔적을 효과적으로 디코딩합니다.
핵심 포인트
- 비정의 프롬프트 환경에서의 동적 LLM 출처 식별 연구
- 프록시 LLM을 활용한 경량 출처 프레임워크 READER 소개
- 베이지안 증거 축적을 통한 단일 및 다중 응답 정확도 향상
- Agent500 데이터셋에서 기존 문장 인코더 방식 대비 높은 성능 입증
에이전트 기반 애플리케이션 (agentic applications)이 사용자 작업을 공식 및 제3자 LLM API를 통해 점점 더 많이 라우팅함에 따라, 출처 (provenance)는 운영상의 문제가 되었습니다: 즉, 어떤 모델이 주어진 블랙박스 (black-box) 응답을 생성했는가 하는 점입니다. 우리는 동적 블랙박스 LLM 출처 (Dynamic Black-Box LLM Provenance)를 연구합니다. 이는 고정된 입력 세트나 벤치마크 제품군이 아니라, 쿼리가 변하는 비정의 프롬프트 (non-predefined prompts)에 의해 유도된 생성물로부터 소스 LLM을 식별하는 것입니다. 이 설정은 프롬프트의 의미론 (semantics)이 텍스트를 지배하는 반면, 모델별 저자 흔적 (authorship traces)은 표면 수준에서 약하고 일관되지 않기 때문에 어렵습니다. 우리는 고정된 프록시 LLM (proxy LLM)을 숨겨진 저자 증거의 독자 (reader)로 취급하는 경량 출처 프레임워크인 READER (Robust Evidence-based Authorship Decoding via Extracted Representations)를 소개합니다. READER는 블랙박스 출력을 프록시 활성화 공간 (proxy activation space)으로 매핑하고, 각 응답 내의 토큰 상태를 시간적으로 필터링하며, 독립적으로 샘플링된 프롬프트 전반에 걸쳐 단일 응답 로그 사후 증거 (log-posterior evidence)를 합산함으로써 베이지안 증거 축적 (Bayesian Evidence Accumulation)을 수행합니다. 이는 보정된 신뢰도 (calibrated confidence)에 필요한 쿼리별 증거를 보존하면서, 프롬프트별 표현의 취약한 평균 풀링 (mean-pooling)을 피합니다. 에이전트 스타일 프롬프트로 구축된 50개 타겟 데이터셋인 Agent500에서, READER는 단일 응답에서 $31.0$-$42.4%$의 top-1 정확도를, 50개 응답에서는 $70.0$-$84.0%$의 정확도를 달성하며 문장 인코더 지문 (sentence-encoder fingerprints)을 크게 능가했습니다. 9개의 프록시 리더 (proxy readers)에 걸쳐 확장했을 때, 더 강력한 LLM이 더 선형적으로 디코딩 가능한 저자 구조를 드러낸다는 점이 추가로 확인되었으며, 이는 저자 인식이 이미 고정된 LLM 표현 (frozen LLM representations)에 존재하며 신뢰할 수 있는 다중 쿼리 귀속 (multi-query attribution)으로 변환될 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기