부적절한 질문의 위상학: LLM의 탐지 및 조정을 위한 지속성 호몰로지 (Persistent Homology)
요약
LLM이 모호하거나 모순된 부적절한 질문을 처리할 때 발생하는 내부 상태의 위상학적 구조를 분석하는 연구입니다. 지속성 호몰로지를 활용해 은닉 상태를 특징짓고, 이를 통해 모델의 응답을 명확화하거나 기권하도록 조정하는 기술을 제안합니다.
핵심 포인트
- 지속성 호몰로지를 이용해 LLM 은닉 상태의 기하학적 구조를 특징화함
- 위상학적 조건부 활성화 조정을 통해 모델의 응답 품질을 개선함
- AmbigQA, SituatedQA 등 주요 벤치마크에서 분류 및 응답 성능 향상 입증
- 부적절한 질문에 대한 해석 가능한 표현과 효과적인 조정 메커니즘 제공
모호하거나, 정보가 불충분하거나, 모순된 질의를 포함하는 부적절한 질문(Ill-posed questions)은 유효한 답변이 없거나 여러 개의 그럴듯한 답변이 존재할 수 있어, 대규모 언어 모델 (LLMs)에게 도전 과제가 됩니다. 기존 방식들은 주로 모델의 출력을 통해 부적절성을 분석하며, 종종 특정 하위 클래스에 집중합니다. 본 연구에서는 다양한 부적절성의 원인들이 LLM 내부 상태의 통합된 위상학 (topology) 내에서 표현될 수 있는지, 그리고 이 구조가 응답 동작을 조정 (steer)하는 데 사용될 수 있는지 조사합니다. 우리는 각 트랜스포머 (transformer) 레이어에서의 프롬프트 토큰의 문맥적 은닉 상태 (contextual hidden states)를 포인트 클라우드 (point cloud)로 모델링하고, 유한 0차원 지속성 호몰로지 (finite zero-dimensional persistent homology)를 사용하여 그 기하학적 구조를 특징짓습니다. 각 레이어는 세 가지 압축된 기술자(descriptor)인 평균 유한 수명 (mean finite lifetime), 정규화된 수명 엔트로피 (normalized lifetime entropy), 그리고 최대 수명 집중도 (largest-lifetime concentration)로 요약됩니다. 이러한 기술자들을 레이어 전반에 걸쳐 연결하면 질문의 위상학적 표현이 생성됩니다. 나아가 우리는 위상학적 조건부 활성화 조정 (topology-conditioned activation steering)을 도입합니다. 이는 위상학적으로 유사한 예시를 검색하고, 출처를 인식한 명확화 (clarification) 또는 기권 (abstention)을 장려하는 질의 특화적 활성화 개입 (activation interventions)을 구축합니다. 세 가지 오픈 웨이트 (open-weight) LLM에 대해 테스트한 결과, 위상학적 특징은 부적절성 분류에서 프롬프트 기반 및 풀링된 은닉 상태 (pooled-hidden-state) 베이스라인보다 일관되게 우수한 성능을 보였으며, AmbigQA에서는 평균 정확도를 (67.4%)에서 (78.9%)로, SituatedQA에서는 (79.9%)에서 (88.5%)로, CLAMBER 9-way 분류에서는 (57.6%)에서 (69.6%)로 향상시켰습니다. 위상학적 조건부 조정은 평균 총 수용 가능한 응답률을 (61.4%)에서 (70.6%)로, 근거 있는 수용 가능한 응답을 (11.9%)에서 (16.4%)로 증가시켰습니다. 이러한 결과는 지속성 호몰로지 (persistent homology)가 부적절성에 대한 해석 가능한 표현과 표적화된 응답 조정을 위한 효과적인 메커니즘을 모두 제공함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기