arXiv논문2026. 06. 09. 10:44

블랙박스 언어 모델 설명하기: 언어적 구조를 가진 단어 부분 집합 최적화 학습

요약

블랙박스 언어 모델의 결정 근거를 설명하기 위해 입력 단어의 핵심 부분 집합을 최적화하여 선택하는 새로운 방법을 제안합니다. REINFORCE 기반의 정책 그래디언트를 사용하여 그래디언트 없이도 효율적인 원샷 추론이 가능하며, 언어적 구조를 반영하여 해석 가능성을 높였습니다.

핵심 포인트

블랙박스 모델에서도 작동하는 효율적인 설명 방법 제안
REINFORCE 스타일의 정책 그래디언트를 통한 이산적 단어 선택
그래프 구조 지식을 통합하여 언어적 일관성 확보
기존 그래디언트 기반 방식보다 뛰어난 성능 입증

심층 언어 모델 (Deep Language Models, DLMs)이 의료와 같은 고위험 영역에 점점 더 많이 배치됨에 따라, 신뢰성, 안전성 및 책임성을 보장하기 위해 모델의 결정 근거를 이해하는 것이 무엇보다 중요해졌습니다. 그러나 이러한 DLM이 블랙박스 시스템(예: API를 통한 접근)으로 작동하여 내부 모델 상태(예: 파라미터, 그래디언트)에 대한 접근이 제한되는 경우, 이러한 필수적인 수준의 해석 가능성 (Interpretability)을 달성하는 것은 특히 어렵습니다. 수많은 노력에도 불구하고, 기존의 설명 방법들은 다음 세 가지 핵심 요구 사항을 동시에 충족하지 못하는 경우가 많습니다: (i) 추론 시간 효율성 (Inference-time efficiency), (ii) 분포 외 (Out-of-distribution) 동작을 유발하지 않는 블랙박스 호환성, (iii) 입력의 언어적 구조에 기반한 이해 가능한 설명. 이러한 과제를 해결하기 위해, 우리는 입력 단어의 작고 정보가 풍부한 부분 집합을 선택함으로써 DLM의 예측을 설명하는 방법을 제안합니다. 우리는 이를 분할 상환 최적화 문제 (Amortized optimization problem)로 공식화하여, 입력별 탐색 없이도 효율적인 원샷 추론 (One-shot inference)을 가능하게 합니다. 우리의 선택 정책은 REINFORCE 스타일의 정책 그래디언트 (Policy gradients)를 통해 학습되며, 이를 통해 완전히 그래디언트가 없는 (Gradient-free) 환경에서 이산적인 단어 선택을 허용합니다. 해석 가능성을 높이고 인간의 언어적 직관과 일치시키기 위해, 우리는 이 선택 과정에 그래프 구조의 지식을 통합하여, 최종 사용자에게 매우 정보가 풍부하고 인지적으로 의미 있는 설명을 제공하는 언어적으로 일관된 부분 집합을 육성합니다. 우리는 다양한 DLM 아키텍처와 여러 실제 데이터셋에서 우리의 방법을 평가했습니다. 우리의 방법은 향상된 판별력과 언어적으로 중요한 단서와의 강력한 정렬을 가진 단어 부분 집합을 일관되게 식별하며, 기존의 블랙박스 호환 방식과 더 어려운 벤치마크를 위해 블랙박스 모델의 그래디언트에 대한 오라클 접근 권한 (Oracle access)이 주어진 그래디언트 기반 접근 방식 모두를 능가하는 성능을 보였습니다. 우리의 코드는 여기에 제공됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

블랙박스 언어 모델 설명하기: 언어적 구조를 가진 단어 부분 집합 최적화 학습

요약

핵심 포인트

댓글