본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 03. 02:34

벡터 검색에서 교차 도메인 온톨로지 그래프로: 2asy.ai가 관세 뉴스를 읽는 방법

요약

2asy.ai가 단순 벡터 RAG에서 교차 도메인 온톨로지 그래프 RAG로 진화한 과정을 설명합니다. 개별 기사 단위의 그래프를 넘어, 표준화된 온톨로지를 통해 서로 다른 도메인의 엔티티와 이벤트를 연결함으로써 인과 관계를 파악하는 기술적 발전을 다룹니다.

핵심 포인트

  • 단순 벡터 RAG는 유사도 기반 검색으로 인과 관계 파악에 한계가 있음
  • 기사별 그래프 RAG는 단일 문서 내 관계는 파악하나 문서 간 연결이 부족함
  • 교차 도메인 온톨로지 그래프는 표준화된 어휘로 전 세계적 엔티티를 통합함
  • 온톨로지 기반 RAG를 통해 도메인을 넘나드는 이벤트 간 연결 가능

이번 주 2asy.ai에 새로운 관세 브리핑이 올라왔으며, 처음으로 해당 브리핑이 구축된 그래프를 페이지에서 바로 확인할 수 있습니다. 이 그래프는 조용히 진행된 재구축 작업의 가시적인 결과물입니다. 2asy.ai의 검색(Retrieval) 방식은 단순한 벡터 검색(Vector Search)에서 시작하여, 개별 기사 단위의 단순한 그래프를 거쳐, 교차 도메인 온톨로지 그래프 RAG(Cross-domain Ontology Graph RAG)로 진화했습니다. 각 단계에서 무엇을 얻었는지, 그리고 여전히 무엇이 부족한지에 대해 설명하겠습니다.

2asy.ai의 시작점: 단순 벡터 RAG

2asy.ai의 첫 번째 버전은 평범한 벡터 RAG였습니다. 저는 각 무역 및 관세 기사를 청크(Chunk) 단위로 나누고, 이 청크들을 임베딩(Embedding)한 뒤 유사도(Similarity)에 따라 검색했습니다. "철강 관세에 어떤 일이 일어나고 있는가"와 같은 질문에는 이 방식이 효과적입니다. 시스템은 질문과 유사해 보이는 구절을 찾아 모델에 전달하여 요약하게 합니다.

벡터 RAG가 할 수 없는 것은 "왜"라는 질문에 답하는 것입니다. 유사도 검색은 쿼리(Query)와 닮은 텍스트를 찾아낼 뿐입니다. 특정 제품에 대한 일몰 재심사(Sunset Review)가 다른 제품에 대한 반덤핑 명령(Antidumping Order)과 연결되어 있다는 사실이나, 한 국가에 대한 조치가 두 번째 국가의 공급업체에 영향을 미친다는 사실을 알지 못합니다. 각 청크는 고립되어 있습니다. 무역 뉴스를 읽을 가치가 있게 만드는 인과 구조(Causal Structure)는 바로 임베딩(Embeddings)이 버리는 핵심 요소입니다.

다음 단계: 단순 기사별 그래프

그래서 저는 그래프 RAG(Graph RAG)로 넘어갔습니다. 각 기사에서 엔티티(Entity), 이벤트(Event), 그리고 그들 사이의 관계(Relation)를 추출하여, 청크의 묶음 대신 작은 그래프 형태로 저장했습니다. 이는 실질적인 개선이었습니다. 이제 단일 기사 내에서는 "이 조사가 이 관세로 이어졌고, 이것이 이 생산자 집단에 영향을 미쳤다"와 같은 체인을 따라갈 수 있었습니다.

한계는 기사 간의 관계에서 나타났습니다. 각 문서는 자신만의 작은 그래프를 생성했고, 그 그래프들은 서로 소통하지 않았습니다. 철강 관련 기사에서 언급된 "South Korea"와 타이어 관련 기사에서 언급된 "South Korea"는 서로 관련 없는 두 개의 노드(Node)였습니다. 엔티티 유형(Entity Type)과 관계 유형(Relation Type)에 대한 공유된 어휘(Shared Vocabulary)가 없었기 때문에, 시스템은 한 기사에서 보고된 원인이 다른 기사에서 보고된 결과와 어떻게 연결되는지 파악할 수 없었습니다. 그래프가 '세계(World)' 단위가 아닌 '문서(Document)' 단위였던 것입니다.

교차 도메인 온톨로지 그래프 RAG가 바꾸는 것

현재 버전의 2asy.ai는 공유된 온톨로지 (Ontology) 위에서 작동합니다. 모든 엔티티 (Entity), 이벤트 (Event), 관계 (Relation)는 동일한 고정된 타입 세트와 동일한 표준 관계 어휘 (Canonical relation vocabulary)를 기준으로 추출되며, 엔티티는 문서 전반에 걸쳐 해소 (Resolved)됩니다. 따라서 아무리 많은 기사에서 언급되더라도 동일한 현실 세계의 대상은 하나의 노드 (Node)가 됩니다. 이것이 바로 교차 도메인 (Cross-domain) 부분입니다. "일몰 재심 (Sunset Review)"는 그것이 메티오닌 관련 뉴스에 등장하든, 타이어 관련 뉴스에 등장하든, 혹은 철강 관련 뉴스에 등장하든 동일한 "일몰 재심"입니다. 이제 이벤트 간의 엣지 (Edge)는 한 도메인에서 다른 도메인으로 가로질러 연결될 수 있습니다.

최신 브리핑에서 그 결과를 확인할 수 있습니다. 6월 2일자 뉴스인 "글로벌 조사 속 미국 무역 구제 조치 확대 (US Trade Remedies Expand Amid Global Investigations)"에 대한 인과 관계 지도 (Causal map)를 보면, "일몰 재심" 노드가 루트 (Root)로서 중심에 위치하며, 이와 연결된 엔티티들로 유향 관계 (Directed relations)가 부채꼴 모양으로 뻗어 나가는 것을 볼 수 있습니다. 일부 엣지에는 "한국을 통해 (via South Korea)" 또는 "대만을 통해 (via Taiwan)"와 같은 한정어 (Qualifiers)가 포함되어 있는데, 이는 시스템이 단순히 두 대상이 연관되어 있다는 사실뿐만 아니라 원인이 거쳐온 경로를 기록하고 있음을 의미합니다. 해당 뉴스 한 건에 대한 전체 추출 결과는 약 41개의 노드와 60개의 엣지로 구성되며, 체인이 읽기 쉬운 상태를 유지하도록 루트와 브릿지 노드 (Bridge nodes)에 초점을 맞추어 보여줍니다.

현재 그래프는 희소하며, 이는 예상된 결과입니다

오늘 그래프를 열어본다면 매우 희소하게 (Sparse) 보일 것입니다. 이 뉴스 건의 경우 수십 개의 노드에 불과하며, 그중 일부는 여전히 거칠게(Coarse) 처리되어 있습니다. 예를 들어, 온톨로지에 깔끔하게 배치되는 대신 "알 수 없음 (Unknown)" 타입으로 분류된 노드나, 원래보다 너무 일반적인 엔티티가 포함되어 있을 수 있습니다. 저는 이를 숨기기보다는 솔직하게 밝히고자 합니다.

이것은 설계상의 한계가 아니라 데이터 축적의 문제입니다. 교차 도메인 그래프 (cross-domain graph)는 더 많은 문서가 흐를수록 더 좋아집니다. 데이터의 양이 늘어남에 따라 해상도 (resolution)와 유형 분류 (typing)가 모두 향상되기 때문입니다. 엔티티 (entity)가 처음 등장할 때는 문맥이 거의 없으므로, 약하거나 유형이 지정되지 않은 노드로 남게 됩니다. 하지만 서로 다른 기사들을 통해 열 번째 등장하게 되면, 주변 구조가 충분히 형성되어 확신을 가지고 해상도를 높일 수 있으며 세상의 나머지 부분과 연결될 수 있습니다. 형태는 이미 올바릅니다. 필요한 것은 시간과 처리량 (throughput)이며, 파이프라인이 계속 실행됨에 따라 이 두 가지 모두 축적되고 있습니다.

왜 이런 방식으로 구축했는가

2asy.ai의 핵심은 인과 관계 체인 (causal chains)입니다. 단순히 "당신의 쿼리와 일치하는 뉴스가 여기 있습니다"가 아니라, "이 무역 조치가 저 조치와 어떻게 연결되는지, 그리고 그 사이의 생산자와 국가들은 누구인지"를 보여주는 것입니다. 벡터 RAG (Vector RAG)는 이를 표현할 수 없습니다. 개별 기사 단위의 그래프 (per-article graph)는 하나의 이야기 내부에서는 이를 표현할 수 있지만, 전체 코퍼스 (corpus)에 걸쳐서는 불가능합니다. 교차 도메인 온톨로지 그래프 (cross-domain ontology graph)는 연결 관계가 뉴스 전체를 실제로 가로지를 수 있는 첫 번째 버전이며, 바로 그 지점에 흥미로운 인과 관계가 존재합니다.

이 모든 과정은 RTX 4090과 AMD W6800을 갖춘 로컬 하드웨어에서 실행되며, 오픈 모델 (open models)이 추출 (extraction)과 해상도 (resolution) 작업을 수행합니다. 이로 인한 클라우드 추론 (cloud inference) 비용은 발생하지 않습니다. 현재 상태를 확인하고 싶다면, 최신 브리핑과 그 그래프를 https://www.2asy.ai/ 에서 확인할 수 있습니다. 아직 초기 단계이며, 코퍼스가 성장함에 따라 더욱 밀도 있게 변할 것입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0