상관관계만으로는 부족하다: 개별 인과 관계 발견을 위한 인간 메타데이터 임베딩 (Embedding Human Metadata for
요약
기존 생물 의학 언어 모델이 상관관계와 인과관계를 구분하지 못하는 문제를 해결하기 위해 인간 메타데이터 임베딩 기법을 제안합니다. 대조 학습과 BODHI를 통해 도메인 간 분리도를 크게 향상시켰으며, Intel Xeon AMX 환경에서 OpenVINO를 통한 최적화 성능을 입증했습니다.
핵심 포인트
- 기존 모델의 도메인 간 판별 정확도 0% 문제 지적
- BODHI를 통한 하드 네거티브 채굴로 분리도 2.3배 향상
- Intel Xeon AMX 및 OpenVINO 활용 시 지연 시간 133배 단축
- 특정 실리콘 환경에서 FP16이 INT8보다 우수한 성능 기록
사전 학습된 생물 의학 언어 모델 (pretrained biomedical language model)에게 "코르티솔(cortisol) 28 ug/dL"과 "주식 시장 변동성(stock-market volatility)"이 관련이 있는지 묻는다면, 모델은 1.0이 동일함을 의미하는 척도에서 0.83의 코사인 유사도 (cosine similarity)를 반환합니다. 이 두 요소는 어떠한 메커니즘도 공유하지 않습니다. 이는 특이한 사례가 아닙니다. 우리가 테스트한 모든 기성 생물 의학 인코더 (off-the-shelf biomedical encoder; BioBERT, PubMedBERT, BioM-ELECTRA)는 정답이 0에 가까워야 하는 서로 관련 없는 도메인 간 쌍 (cross-domain pairs)에 대해 0.76에서 0.92 사이의 점수를 기록했습니다. 도메인 간 판별 (cross-domain discrimination) 정확도는 0%입니다. 검색 시스템 (Retrieval systems)은 하류의 언어 모델 (language model)이 노이즈를 걸러내기 때문에 이 문제를 견뎌낼 수 있습니다. 하지만 문장이 아닌 사람을 대상으로 하는 파운데이션 모델 (foundation model)인 대규모 행동 모델 (Large Behavioural Model, LBM)은 그렇지 않습니다. LBM은 사용자의 삶의 그래프를 기반으로 추론하며, 임베딩 근접성 (embedding proximity)을 두 사건이 인과적으로 연결되어 있다는 증거로 취급합니다. 잘못된 근접성은 잘못된 인과적 엣지 (causal edge)를 작성하며, 하류의 모든 과정이 이 오류를 상속받습니다. 여기서 임베딩 기하학 (embedding geometry)은 단순히 조정 가능한 노브 (tuning knob)가 아니라, 정답 여부 그 자체입니다.
우리는 이에 대한 해결책을 보고합니다. 72,034개의 쌍에 대한 대조 학습 (contrastive pass)을 통해 PubMedBERT의 BIOSSES 상관관계를 0.633에서 0.828로 높였으며, 도메인 내 대 도메인 간 분리도 (within-vs-across-domain separation)를 1.05배에서 1.63배로 향상시켰습니다. 두 번째 단계인 BODHI는 생물 의학 지식 그래프 (biomedical knowledge graph)에 존재하지 않는 엣지로부터 하드 네거티브 (hard negatives)를 채굴하여, 4.5%의 BIOSSES 비용으로 분리도를 2.30배로, 판별 격차 (discrimination gap)를 +0.392로 끌어올렸습니다. AMX가 탑재된 Intel Xeon 6737P에서 OpenVINO를 사용하면 단일 쿼리 지연 시간 (single-query latency)을 1367ms에서 10ms로 (133배) 단축하고 초당 555개의 문장에 도달할 수 있습니다. 한 가지 발견은 표준적인 권장 사항과 상충됩니다. 이 실리콘 (silicon) 환경에서는 모든 서빙 배치 크기 (serving batch size)에서 FP16이 INT8보다 우수하며, 우리는 그 이유를 설명합니다. AMX가 없는 Ice Lake 인스턴스에서 동일한 모델을 실행하면 13~27배 더 느리게 작동합니다. 우리는 벤치마크 제품군, 학습 코퍼스 (training corpora), BODHI 생성기 및 OpenVINO 스크립트를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기