과학 문헌에서의 모순 마이닝 (Contradiction Mining): RUMI가 논문 간의 충돌을 찾아내는 방법

과학 연구에서 가장 어려운 문제 중 하나는 논문들 사이의 모순을 식별하는 것입니다. 두 연구가 동일한 메커니즘에 대해 서로 반대되는 주장을 할 수 있으며, 두 논문을 모두 주의 깊게 읽고 기억하지 않는 한 그 충돌을 절대 알아차릴 수 없습니다.

RUMI는 이 과정을 자동화합니다. 기술적 접근 방식은 다음과 같습니다.

문제점 (The Problem)

과학 문헌은 기하급수적으로 증가하고 있습니다. PubMed에는 하루에 약 4,000편의 논문이 추가됩니다. 어떤 인간도 모든 것을 읽고, 기억하고, 상호 참조할 수 없습니다. 이는 다음과 같은 결과를 초래합니다:

해결되지 않은 모순 (Unresolved contradictions): 논문 A는 메커니즘 X가 결과 Y를 유발한다고 말합니다. 논문 B는 메커니즘 X가 결과 Y를 방지한다고 말합니다. 두 논문은 서로를 인용하지 않습니다.
숨겨진 합의 (Hidden consensus): 5편의 논문이 독립적으로 동일한 발견을 확인했지만, 아무도 이들을 연결하지 못했습니다.
눈앞에 숨겨진 새로운 발견 (Novel findings hiding in plain sight): 한 논문에서 설명된 새로운 메커니즘이 실제로는 다른 논문에서 설명된 퍼즐의 빠진 조각일 수 있습니다.

RUMI의 모순 마이닝 파이프라인 (RUMI's Contradiction Mining Pipeline)

1단계: 엔티티 정규화 (Stage 1: Entity Normalization)

모순을 찾기 전에, 두 논문이 동일한 것에 대해 이야기하고 있는지 알아야 합니다. RUMI는 여러 전략을 사용하여 엔티티 (Entity)를 정규화합니다:

유전자/단백질 이름 (Gene/protein names): 별칭을 표준 이름으로 매핑합니다 (예: "BRAF" = "B-Raf" = "v-Raf murine sarcoma viral oncogene homolog B")
약물 이름 (Drug names): 브랜드 이름을 일반명으로 매핑합니다 (예: "Lumakras" = "sotorasib" = "AMG 510")
경로 이름 (Pathway names): KEGG 및 Reactome ID를 사용하여 경로 참조를 정규화합니다
질병 이름 (Disease names): MeSH 용어 및 OMIM ID로 매핑합니다

정규화가 없다면 "sotorasib"와 "AMG 510"은 서로 다른 엔티티로 보일 것입니다. 정규화를 통해 RUMI는 서로 다른 명명법을 사용하는 논문들 간의 발견을 연결할 수 있습니다.

2단계: 주장 추출 (Stage 2: Claim Extraction)

RUMI는 LLM (대규모 언어 모델) 지원 파싱을 사용하여 각 논문에서 구조화된 주장 (Claim)을 추출합니다:

@dataclass
class ScientificClaim:
    subject: Entity        # 논의되고 있는 대상
...

추출 예시:

Subject: KRAS G12C, Predicate: activates, Object: MAPK signaling, Direction: positive
Subject: Sotorasib, Predicate: inhibits, Object: KRAS G12C, Direction: negative

Stage 3: 모순 탐지 (Contradiction Detection)

두 주장(claims)이 동일한 주어(subject)와 목적어(object)를 가지면서 방향성(directions)이 반대이거나, 한 논문은 A가 B를 유발한다고 주장하는 반면 다른 논문은 A가 B를 방지한다고 주장할 때 두 주장은 모순됩니다.

RUMI는 세 가지 탐지 방법을 사용합니다:

직접적 모순 (Direct contradiction): 동일한 엔티티(entities), 반대되는 방향성.

논문 1: "AURKA는 KRAS 억제제 내성을 촉진한다"
논문 2: "AURKA 억제는 KRAS 변이 세포를 민감하게 만들지 않는다"
→ AURKA의 역할에 대한 직접적 모순

맥락적 모순 (Contextual contradiction): 동일한 관계, 서로 다른 조건.

논문 1: "MET 증폭은 초기 치료 단계에서 내성을 유발한다"
논문 2: "MET 증폭은 획득 내성(acquired resistance)에서 드물게 나타난다"
→ 맥락적 모순: 시점 의존적 (timing-dependent)

암시적 모순 (Implicit contradiction): 동일한 현상에 대해 서로 다른 메커니즘이 제안됨.

논문 1: "내성은 주로 MAPK 재활성화에 의해 유발된다"
논문 2: "내성은 주로 PI3K/AKT 활성화에 의해 유발된다"
→ 암시적 모순: 경쟁 모델 (competing models)

Stage 4: 해결 분석 (Resolution Analysis)

모든 모순이 실제적인 것은 아닙니다. 일부는 다음과 같습니다:

방법론적 (Methodological): 서로 다른 세포주 (cell lines), 서로 다른 용량 (doses), 서로 다른 시점 (timepoints)
시간적 (Temporal): 출판 날짜 사이에 해당 분야의 이해도가 진화함
정의적 (Definitional): 동일한 용어가 서로 다른 의미로 사용됨

RUMI는 각 모순을 분류하고 해결 전략을 제안합니다:

class Contradiction:
    claim_a: ScientificClaim
    claim_b: ScientificClaim
...

실제 사례: AURKA 역설 (The AURKA Paradox)

KRAS G12C 분석에서 RUMI는 실제적인 모순을 발견했습니다:

논문 A (2026): AURKA는 sotorasib 내성 세포에서 상향 조절(upregulated)되며 PHB2를 안정화하여 PI3K/AKT를 활성화한다
논문 B (2026): AURKA 억제만으로는 내성 세포주에서 sotorasib 민감도를 회복시키지 못한다

RUMI는 이를 **문맥적 모순 (contextual contradiction)**으로 분류했습니다. 즉, AURKA 상향 조절 (upregulation)은 실제 내성 기전이지만, 이를 끊어내기 위해서는 병용 억제가 필요한 양성 피드백 루프 (AURKA→PHB2→PI3K/AKT)의 일부라는 것입니다. 단일 약물 AURKA 억제가 실패하는 이유는 이 루프에 중복성 (redundancy)이 존재하기 때문입니다.

이러한 해결 과정은 AURKA와 PI3K를 동시에 억제하는 것이 더 효과적일 수 있다는 가설로 이어졌습니다. 이는 두 논문 모두 명시적으로 제시하지 않았던, 검증 가능한 예측입니다.

지식 그래프 (Knowledge Graph) 접근 방식

이 모든 과정은 RUMI의 지식 그래프 (knowledge graph)를 통해 구동됩니다. 각 노드 (node)는 엔티티 (entity, 유전자, 단백질, 약물, 질병, 경로)를 나타내며, 각 엣지 (edge)는 다음과 같은 속성을 가진 관계를 나타냅니다:

방향 (Direction): 활성화 (activation), 억제 (inhibition), 연관성 (association)
증거 강도 (Evidence strength): 이를 뒷받침하는 논문의 수
신뢰도 (Confidence): 추출 품질 및 논문 수에 기반함
시간적 문맥 (Temporal context): 해당 발견이 발표된 시점

모순은 동일한 노드 사이의 **음의 가중치 엣지 (negative-weight edges)**로 나타납니다. 이 그래프는 과학 문헌이 서로 충돌하는 지점을 시각적 및 계산적으로 명확하게 보여줍니다.

한계점

이 시스템은 아직 초기 단계입니다:

주장 추출 (Claim extraction)은 LLM의 품질에 의존합니다. 여러 자격 요건이 붙은 복잡한 주장은 종종 지나치게 단순화됩니다.
일부 "모순"은 실제로는 전문가의 해석이 필요한 미묘한 입장 차이일 수 있습니다.
시스템은 실험의 품질을 평가할 수 없습니다. 설계가 잘못된 연구도 동일한 가중치를 부여받습니다.
출판 편향 (Publication bias)으로 인해 문헌 자체가 구조적인 이유로 모순될 수 있습니다.

사용해 보기

git clone https://github.com/subhansh-dev/Rumi
cd rumi
pip install -e .
...

활발한 논쟁이 진행 중인 주제에 대해 /discover 명령어를 실행하여 RUMI가 어떤 모순을 찾아내는지 확인해 보세요.

링크

GitHub: https://github.com/subhansh-dev/Rumi
Portfolio: https://subhanshh.vercel.app

만약 여러분이 체계적 문헌 고찰 (Systematic reviews), 메타 분석 (Meta-analyses), 또는 증거 합성 (Evidence synthesis) 분야에서 일하고 계신다면, 저는 다음 내용이 정말 궁금합니다. 이와 같은 도구가 여러분의 워크플로우 (Workflow)에서 실제로 유용하게 쓰이려면 무엇이 필요할까요? 가장 큰 격차 (Gap)는 무엇인가요?

— Subhansh

과학 문헌에서의 모순 마이닝 (Contradiction Mining): RUMI가 논문 간의 충돌을 찾아내는 방법

요약

핵심 포인트

과학 문헌에서의 모순 마이닝 (Contradiction Mining): RUMI가 논문 간의 충돌을 찾아내는 방법

문제점 (The Problem)

RUMI의 모순 마이닝 파이프라인 (RUMI's Contradiction Mining Pipeline)

1단계: 엔티티 정규화 (Stage 1: Entity Normalization)

2단계: 주장 추출 (Stage 2: Claim Extraction)

Stage 3: 모순 탐지 (Contradiction Detection)

Stage 4: 해결 분석 (Resolution Analysis)

실제 사례: AURKA 역설 (The AURKA Paradox)

지식 그래프 (Knowledge Graph) 접근 방식

한계점

사용해 보기

링크

댓글