arXiv논문2026. 05. 18. 20:02

언어 모델과 그래프 신경망을 활용한 관계형 데이터베이스용 파운데이션 모델 연구

요약

본 연구는 관계형 데이터베이스의 맥락을 보존하기 위해 언어 모델(BART)과 그래프 신경망(GraphSAGE)을 결합한 하이브리드 아키텍처를 제안합니다. BART를 통해 행 내부의 의미론을 포착하고 GNN을 통해 관계적 맥락을 주입함으로써, 기존의 평탄화 방식이 가진 한계를 극복하고자 합니다. 실험 결과, 제안된 모델은 RelBench 데이터셋에서 지도 학습 베이스라인과 경쟁할 만한 성능을 보이며 관계형 데이터베이스용 파운데이션 모델로서의 가능성을 입증했습니다.

핵심 포인트

BART 인코더와 GraphSAGE 기반 GNN을 결합하여 행 내부 의미와 관계적 맥락을 동시에 포착하는 하이브리드 구조 제안
기존의 데이터 평탄화(Flattening) 방식이 유실하던 관계적 맥락을 REG(Relational Entity Graphs)를 통해 복원
RelBench 실험 결과, driver-dnf 작업에서 67.40 ROC-AUC를 달성하며 LightGBM과 유사한 수준의 성능 확보
경량화된 LM-GNN 아키텍처를 통해 자원 효율적인 관계형 데이터베이스 파운데이션 모델 구축 경로 제시

관계형 데이터베이스 (Relational databases)는 세상의 구조화된 정보 중 상당수를 저장하며, 복잡한 예측 애플리케이션을 구동하는 데 필수적입니다. 그러나 기존 방식은 수동적인 특징 공학 (Feature engineering)을 통해 데이터베이스를 단일 테이블로 평탄화하여 관계적 맥락 (Relational context)을 버리기 때문에, 관계형 데이터에 대한 딥러닝 (Deep learning)의 발전은 여전히 제한적입니다. 관계형 딥러닝 (Relational deep learning, RDL)은 데이터베이스를 그래프 신경망 (Graph neural networks, GNNs)을 위한 관계형 엔티티 그래프 (Relational entity graphs, REGs)로 모델링하여 이 문제를 해결하려 하지만, 여전히 특정 작업 및 데이터베이스에 국한되어 있습니다. 두 패러다임의 장점을 결합하기 위해, 본 연구에서는 행 내부의 의미론 (Intra-row semantics)을 포착하기 위해 미세 조정된 (Fine-tuned) BART 인코더와 관계적 맥락을 주입하기 위해 REG 상의 GraphSAGE 기반 GNN을 결합한 하이브리드 아키텍처를 제안합니다. RelBench에서의 실험 결과, GNN이 BART의 행 임베딩 (Row embeddings)을 실질적으로 풍부하게 하여 rel-f1 데이터셋의 driver-dnf 작업에서 67.40의 ROC-AUC를 달성함을 보여주었습니다. 이 성능은 LightGBM (68.86)과 같은 지도 학습 (Supervised) 베이스라인과 경쟁할 만한 수준이며, RDL (72.62)과의 격차를 5.22 포인트 이내로 좁혔으나, KumoRFM (82.63)과 같은 최첨단 (State-of-the-art) 파운데이션 모델 (Foundation models)과는 여전히 상당한 격차가 존재합니다. 이러한 결과는 경량화된 하이브리드 LM-GNN 아키텍처가 관계형 데이터베이스를 위한 파운데이션 모델로 나아가는 유망하고 자원 효율적인 경로를 제공함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 모델과 그래프 신경망을 활용한 관계형 데이터베이스용 파운데이션 모델 연구

요약

핵심 포인트

댓글