arXiv논문2026. 06. 23. 14:07

부적절한 질문의 위상학: LLM의 탐지 및 조정을 위한 지속성 호몰로지 (Persistent Homology)

요약

LLM이 모호하거나 모순된 부적절한 질문을 처리할 때 발생하는 내부 상태의 위상학적 구조를 분석하는 연구입니다. 지속성 호몰로지를 활용해 은닉 상태를 특징짓고, 이를 통해 모델의 응답을 명확화하거나 기권하도록 조정하는 기술을 제안합니다.

핵심 포인트

지속성 호몰로지를 이용해 LLM 은닉 상태의 기하학적 구조를 특징화함
위상학적 조건부 활성화 조정을 통해 모델의 응답 품질을 개선함
AmbigQA, SituatedQA 등 주요 벤치마크에서 분류 및 응답 성능 향상 입증
부적절한 질문에 대한 해석 가능한 표현과 효과적인 조정 메커니즘 제공

모호하거나, 정보가 불충분하거나, 모순된 질의를 포함하는 부적절한 질문(Ill-posed questions)은 유효한 답변이 없거나 여러 개의 그럴듯한 답변이 존재할 수 있어, 대규모 언어 모델 (LLMs)에게 도전 과제가 됩니다. 기존 방식들은 주로 모델의 출력을 통해 부적절성을 분석하며, 종종 특정 하위 클래스에 집중합니다. 본 연구에서는 다양한 부적절성의 원인들이 LLM 내부 상태의 통합된 위상학 (topology) 내에서 표현될 수 있는지, 그리고 이 구조가 응답 동작을 조정 (steer)하는 데 사용될 수 있는지 조사합니다. 우리는 각 트랜스포머 (transformer) 레이어에서의 프롬프트 토큰의 문맥적 은닉 상태 (contextual hidden states)를 포인트 클라우드 (point cloud)로 모델링하고, 유한 0차원 지속성 호몰로지 (finite zero-dimensional persistent homology)를 사용하여 그 기하학적 구조를 특징짓습니다. 각 레이어는 세 가지 압축된 기술자(descriptor)인 평균 유한 수명 (mean finite lifetime), 정규화된 수명 엔트로피 (normalized lifetime entropy), 그리고 최대 수명 집중도 (largest-lifetime concentration)로 요약됩니다. 이러한 기술자들을 레이어 전반에 걸쳐 연결하면 질문의 위상학적 표현이 생성됩니다. 나아가 우리는 위상학적 조건부 활성화 조정 (topology-conditioned activation steering)을 도입합니다. 이는 위상학적으로 유사한 예시를 검색하고, 출처를 인식한 명확화 (clarification) 또는 기권 (abstention)을 장려하는 질의 특화적 활성화 개입 (activation interventions)을 구축합니다. 세 가지 오픈 웨이트 (open-weight) LLM에 대해 테스트한 결과, 위상학적 특징은 부적절성 분류에서 프롬프트 기반 및 풀링된 은닉 상태 (pooled-hidden-state) 베이스라인보다 일관되게 우수한 성능을 보였으며, AmbigQA에서는 평균 정확도를 (67.4%)에서 (78.9%)로, SituatedQA에서는 (79.9%)에서 (88.5%)로, CLAMBER 9-way 분류에서는 (57.6%)에서 (69.6%)로 향상시켰습니다. 위상학적 조건부 조정은 평균 총 수용 가능한 응답률을 (61.4%)에서 (70.6%)로, 근거 있는 수용 가능한 응답을 (11.9%)에서 (16.4%)로 증가시켰습니다. 이러한 결과는 지속성 호몰로지 (persistent homology)가 부적절성에 대한 해석 가능한 표현과 표적화된 응답 조정을 위한 효과적인 메커니즘을 모두 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

부적절한 질문의 위상학: LLM의 탐지 및 조정을 위한 지속성 호몰로지 (Persistent Homology)

요약

핵심 포인트

댓글