arXiv논문2026. 05. 12. 00:02

판별적 인수분해를 이용한 블랙박스 모델 분류

요약

본 논문은 API를 통해 접근하는 블랙박스 모델 환경에서, 고품질 및 저품질 쿼리 세트를 구별하여 모델 수준 속성을 분류하는 새로운 프레임워크를 제안합니다. 핵심 방법론으로 '판별적 인수분해(discriminative factorization)'를 도입했으며, 이를 통해 우연 수준의 분류 확률이 쿼리 예산에 따라 지수적으로 감소함을 보였습니다. 또한, 이 방법을 사용하여 선택된 쿼리 세트가 오라클 쿼리 세트의 경험적 순서를 재현할 수 있음을 입증했습니다.

핵심 포인트

블랙박스 모델 분류는 API 호출에 의존하여 시스템 내부 속성을 추론하는 것이 핵심 과제입니다.
기존 연구와 달리, 본 논문은 쿼리 세트의 품질을 판별적 인수분해(discriminative factorization)를 통해 정량적으로 평가합니다.
판별적 인수분해 프레임워크는 쿼리 예산에 따른 분류 확률의 지수적 감소를 예측할 수 있게 합니다.
추정된 매개변수는 선택된 쿼리 세트가 최적의(오라클) 쿼리 순서를 따르는지 검증하는 데 사용됩니다.

최신 생성 시스템에 대한 접근은 종종 API를 쿼리하는 방식(‘블랙박스’ 설정)으로 제한되며, 사용자는 추론 시점에 시스템의 많은 속성을 알지 못합니다. 최근 연구에서는 일련의 쿼리에 대한 임베딩된 응답 간의 관계를 기반으로 하는 모델의 저차원 표현이 모델 수준의 속성을 추론하는 데 유용하다는 것을 보여주었지만, 이러한 표현의 품질은 쿼리 세트에 매우 민감합니다. 본 논문에서는 블랙박스 모델 수준 분류 맥락에서 고품질 및 저품질 쿼리 세트를 구별하기 위해 extit{판별적 인수분해 (discriminative factorization)}를 소개합니다. 이 프레임워크 하에서, 우연 수준의 분류 확률은 쿼리 예산에 따라 지수적으로 감소합니다. 세 가지 감사 작업에서 추정된 인수분해 매개변수는 경험적 성능 감소율을 예측합니다. 마지막으로, 추정된 판별적 필드를 사용하여 선택된 쿼리 세트가 오라클 쿼리 세트의 경험적 순서를 재현한다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

판별적 인수분해를 이용한 블랙박스 모델 분류

요약

핵심 포인트

댓글