일본의 연구소들이 실제로 작동하는 RAG 시스템을 구축하는 방법 — 그리고 서구권 팀들이 계속해서 실수하는 것 - Insights | Molayo

당신의 벡터 데이터베이스(Vector Database)는 관련 있는 청크(Chunk)들을 반환하고 있습니다. 당신의 임베딩 모델(Embedding Model)은 검색 벤치마크에서 0.89의 점수를 기록합니다. 당신의 PM은 이를 "AI 기반 검색"이라고 부릅니다. 하지만 연구자가 "우리 연구실의 이전 연구를 고려할 때 연구 X의 방법론적 한계는 무엇인가?"라고 질문하면, 시스템은 도쿄의 날씨에 관한 문단을 반환합니다.

이것이 바로 검색 환각(Retrieval Hallucination) 문제이며, 이는 모델의 실패가 아닙니다. 이는 LLM 튜닝(Tuning)을 아무리 해도 해결할 수 없는 검색 아키텍처(Retrieval Architecture)의 실패입니다.

저는 실제 현장에서 실제로 작동하는 접근 방식을 발견했습니다. 과학 논문 이해 작업에서 90%의 정확도 향상을 달성한 일본 연구팀의 지식 그래프(Knowledge Graph) RAG 시스템입니다. 일본 최대의 개발자 커뮤니티인 Qiita의 게시물은 그들의 구현 내용을 상세히 기록하고 있습니다. 하지만 제 눈길을 끌었던 점은 이것입니다. 그들의 솔루션은 더 나은 임베딩 모델이 아니었습니다. 그것은 대부분의 서구권 팀들이 고려하지 않은 근본적으로 다른 검색 아키텍처였습니다.

아무도 인정하지 않는 의미론적 격차 (The Semantic Gap)

표준 RAG는 다음과 같이 작동합니다: 문서를 청크(Chunk)로 나누고, 청크를 임베딩(Embed)하며, 벡터 DB에 저장하고, 코사인 유사도(Cosine Similarity)를 기반으로 검색합니다. 문제는 무엇일까요? 의미론적 유사성(Semantic Similarity)이 곧 관련성(Relevance)은 아니라는 점입니다. "단백질 구조 예측 방법(Protein folding methods)"에 관한 청크는 "CRISPR 편집의 한계(CRISPR editing limitations)"에 대한 당신의 질문과 주제적으로 유사할 수 있지만, 만약 그 청크가 문헌 검토(Literature review) 과정에서 두 가지를 모두 언급한 것이라면, 그것은 당신의 질문에 답하는 것이 아닙니다.

AI for Science 애플리케이션을 연구하는 이 일본 팀은 이러한 격차를 식별하고, 그들이 "지식 그래프 RAG(Knowledge Graph RAG)"라고 부르는 것을 구축했습니다. 여기서는 엔티티(Entity) 관계가 원문 텍스트 검색과 함께 명시적으로 모델링됩니다. 단순히 청크를 저장하는 대신, 그들은 다음을 추출합니다: 엔티티(단백질, 방법론, 연구자), 관계(억제한다, 합성한다, 인용한다), 그리고 속성(신뢰도 점수, 시간적 맥락).

# 단순화된 지식 그래프 구조
{
  "entity": "CRISPR-Cas9",
...

검색(retrieval)은 두 단계로 작동합니다. 첫째, 관련 엔티티 서브그래프를 식별하고; 둘째, 해당 엔티티에 고정된 텍스트 청크를 검색하는 것입니다. 이는 의미적 표류(semantic drift)를 극적으로 줄여줍니다. 단순히 유사한 텍스트를 검색하는 것이 아니라, 관련된 맥락을 검색하기 때문입니다.

지금 왜 중요한가 (2026년 6월)

GraphRAG는 서구권에서 논의되어 왔지만, 대부분 '개념 증명(proof of concept)' 수준에 머물렀습니다. 일본 팀이 문서화한 것은 블로그 게시물이 건너뛰는 운영 현실을 포함하는 프로덕션 규모 구현입니다. 그들의 핵심 통찰은 다음과 같습니다: 그래프는 단순히 검색용이 아니라는 것입니다. 추론 검증(reasoning verification)을 위한 것입니다.

시스템이 질문에 답변할 때, 단순히 청크를 인용하는 것이 아니라 그래프 순회(graph traversal)를 통해 추론 체인(reasoning chain)을 추적할 수 있습니다. 이는 다음을 의미합니다:

교차 참조 검증: 엔티티 간의 관계에 대한 질문은 임베딩 유사도가 연결점을 찾아주기를 기대하는 것이 아니라, 그래프 순회를 통해 답변될 수 있습니다.
시간적 추론:

저는 2023년에 법률 문서 RAG (Retrieval-Augmented Generation) 시스템을 구축하며 이 실수를 저질렀습니다. 엔티티 식별 (entity identification)에서 94%의 정밀도 (precision)를 달성하는 엔티티 추출 (entity extraction) 파이프라인을 구축하는 데 8주를 보냈습니다. 그러고 나서 시스템을 출시했지만, 업데이트 메커니즘은 전혀 만들지 않았습니다. 6개월 후, 그래프는 노후화되었고 정확도는 71%로 떨어졌으며, 선임 변호사가 잘못된 판례 인용을 발견할 때까지 아무도 알아채지 못했습니다. 그래프를 최신 상태로 유지하는 데 드는 유지보수 부담이 초기 구현 비용보다 더 많이 들었습니다.

실제로 작동하는 방법

일본 팀의 문서화된 접근 방식과 저의 경험을 바탕으로 한 방법은 다음과 같습니다:

기술이 아닌 엔티티 분류 체계 (entity taxonomy)부터 시작하라: 귀하의 도메인과 가장 관련이 깊은 20~30개의 엔티티 유형은 무엇입니까? 모든 것을 추출할 수는 없습니다. 정교하게 접근하십시오.
첫날부터 하이브리드 검색 (Hybrid retrieval)을 도입하라: 관계에 관한 질문에는 그래프 순회 (graph traversal)를, 주제 유사성 (topical similarity)에는 벡터 검색 (vector search)을 사용하십시오. 한 가지 방식에만 도박을 걸지 마십시오.
유지보수 파이프라인을 먼저 구축하라: 새로운 문서가 어떻게 그래프를 업데이트할 것입니까? 이 질문에 5분 안에 답할 수 없다면, 그래프는 부패할 것입니다.
단순한 답변이 아닌 추론 체인 (reasoning chains)을 측정하라: 시스템이 질문에 답하기 위해 3단계 이상의 홉 (hops)을 얼마나 자주 순회하는지 추적하십시오. 체인 길이가 길수록 실패 위험도 높습니다.

일본 팀이 달성한 90%의 정확도 향상은 마법이 아니라 아키텍처 (architecture)의 결과였습니다. 그들은 의미론적 드리프트 (semantic drift)를 줄이기 위해 인프라 비용을 사전에 지불하는 쪽을 택했습니다. 이것이 가치가 있는지는 유지보수 부담에 대한 귀하의 허용치와 검색 환각 (retrieval hallucinations)에 대한 허용치 사이의 관계에 달려 있습니다.

중요도가 높은 도메인 (과학 연구, 법률, 의료)의 경우, 저는 유지보수 비용을 감수하겠습니다. 일반적인 지식 Q&A의 경우, 더 나은 청킹 (chunking)을 적용한 표준 RAG로도 충분할 것입니다.

솔직한 비교

접근 방식 (Approach)	구축 시간 (Build Time)	유지보수 부담 (Maintenance Burden)	정확도 한계 (Accuracy Ceiling)	최적 용도 (Best For)
표준 RAG (chunk + embed)	2-4주	낮음	관계형 질문에서 약 75%	FAQ, 주제별 검색
...

일본 팀은 그들의 도메인(과학을 위한 AI, AI for Science)이 자주 바뀌지 않는 명확하게 정의된 엔티티 (entity) 유형과 관계를 가지고 있었기 때문에 순수 GraphRAG를 선택했습니다. 여러분의 도메인에서는 계산 방식이 다를 수 있습니다.

질문해 볼 가치가 있는 것

지식 그래프 (knowledge graph) 레이어를 추가하기 전에 다음을 자문해 보십시오: 여러분의 쿼리(query) 중 관계형 질문 (relationship questions)과 주제형 질문 (topical questions)의 비율은 각각 몇 퍼센트입니까? 만약 쿼리의 80%가 "X와 유사한 것을 찾아줘"라면, 벡터 검색 (vector search)으로도 충분할 것입니다. 만약 40% 이상이 "컨텍스트 C가 주어졌을 때 A와 B는 어떤 관계인가"라면, 그래프가 필요합니다.

일본 팀이 달성한 90%의 정확도 향상은 특정 질문 유형의 조합에 대한 결과였습니다. 먼저 여러분만의 쿼리 분석을 실행하십시오. 결과는 제각각 다를 것입니다.

여러분의 의견은 어떠신가요?

여러분의 도메인에 GraphRAG를 구현했거나 고려해 본 적이 있나요? 특정 아키텍처를 다른 아키텍처보다 선택하게 만든 결정적인 계기(breaking point)는 무엇이었나요? 댓글을 남겨주세요. 모든 댓글에 답변을 드리며, 특히 컨퍼런스 발표에서는 아무도 이야기하지 않는 유지보수 부담 (maintenance burden)에 관한 이야기에 관심이 많습니다.

과학 논문 이해도에서 90%의 정확도 향상을 달성한 일본의 AI for Science 연구팀의 지식 그래프 RAG 구현 사례를 기록한 @hisaho의 Qiita 포스트를 바탕으로 작성되었습니다.

토론: 여러분의 RAG 쿼리 중 관계형 질문과 주제형 질문의 비율은 각각 몇 퍼센트입니까? 그리고 그 조합이 검색 정확도 (retrieval accuracy)에 어떤 영향을 미치는지 측정해 보셨나요?

일본의 연구소들이 실제로 작동하는 RAG 시스템을 구축하는 방법 — 그리고 서구권 팀들이 계속해서 실수하는 것

요약

핵심 포인트

여러분의 의견은 어떠신가요?

댓글