arXiv논문2026. 05. 28. 12:08

BIRDNet: 해석 가능한 심층 신경망으로서의 불리언 함의 지식 그래프 채굴 및 인코딩

요약

BIRDNet은 정형 데이터에서 불리언 함의 관계(BIRs)를 채굴하여 지식 그래프를 형성하고, 이를 계층형 신경망의 구조로 인코딩하는 뉴로심볼릭 모델입니다. 외부 규칙 없이 데이터로부터 직접 구조적 사전 지식을 학습하며, 높은 해석 가능성과 파라미터 효율성을 동시에 제공합니다.

핵심 포인트

데이터에서 직접 불리언 함의 관계를 채굴하여 그래프로 인코딩
대리 모델 없이도 네트워크 내부의 규칙을 직접 읽을 수 있는 해석 가능성
밀집 MLP 대비 최대 96배 적은 활성 파라미터 사용으로 높은 효율성
전사체학 및 단백질체학 벤치마크에서 강력한 성능 입증

지식 집약적 도메인의 정형 데이터 (Tabular data)는 종종 특징 (feature) 쌍 사이의 불리언 함의 관계 (Boolean implication relationships, BIRs) 형태의 잠재적 사전 지식 (latent prior)을 포함하고 있습니다. 우리는 희소 예외 이항 검정 (sparse-exception binomial test)을 통해 이러한 관계를 채굴합니다. 채굴된 함의는 2-리터럴 절 (2-literal clauses)로 구성된 명제 규칙 베이스 (propositional rule base)와 동일한 타입 지정 유향 그래프 (typed directed graph)를 형성합니다. 우리는 이 그래프를 BIRDNet이라 불리는 계층형 신경망 (layered neural network)의 연결성으로 인코딩하며, 여기서 각 은닉 유닛 (hidden unit)은 하나의 채굴된 규칙에 대응하고 오직 해당 두 개의 특징에만 결합합니다. 우리는 이러한 설계의 두 가지 결과를 보여줍니다: 첫째, 이 아키텍처는 구조적으로 희소합니다 (sparse). 각 BIR 레이어의 가중치 중 최대 $2/d$만이 활성화되며, 여기서 $d$는 입력 차원입니다. 둘째, 이 모델은 해석 가능합니다 (interpretable). 모든 학습된 유닛은 안정적인 상징적 정체성 (symbolic identity)을 유지하므로, 대리 모델 (surrogate models) 없이도 네트워크에서 규칙을 읽어낼 수 있습니다. 대부분의 뉴로심볼릭 (neurosymbolic) 모델과 달리, BIRDNet은 외부 규칙 베이스를 소비하지 않습니다. 모델의 구조적 사전 지식 (structural prior)은 데이터로부터 직접 채굴됩니다. 우리는 6개의 전사체학 (transcriptomic) 및 단백질체학 (proteomic) 벤치마크에서 BIRDNet을 평가했습니다. 결과에 따르면, BIRDNet은 약간의 정확도 비용을 지불하면서도 가장 강력한 밀집 베이스라인 (dense baseline)의 AUROC 범위 내 0.02 이내를 유지하는 동시에, 아키텍처가 일치하는 밀집 MLP (dense MLP)보다 최대 $96 imes$ 적은 활성 파라미터 (active parameters)를 사용합니다. 첫 번째 레이어의 규칙들은 표준적 증폭 (canonical amplicons), 계통 정의 공동 발현 모듈 (lineage-defining co-expression modules), 면역 침윤 마커 (immune-infiltration markers)를 포함하여 여러 암 하위 유형 및 조직 유형에 걸친 알려진 생물학적 시그니처를 복구합니다. 데이터와 코드는 다음에서 확인할 수 있습니다: https://github.com/MAHI-Group/BIRDNet.

AI 자동 생성 콘텐츠

원문 바로가기

BIRDNet: 해석 가능한 심층 신경망으로서의 불리언 함의 지식 그래프 채굴 및 인코딩

요약

핵심 포인트

댓글