본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 06:03

PHAGE: 표현 학습을 위한 특허 이질적 어텐션 가이드 그래프 인코더

요약

PHAGE는 특허 청구항의 복잡하고 계층적인 종속 구조를 효과적으로 모델링하기 위해 설계된 새로운 그래프 인코더입니다. 기존 방식들이 청구항을 단순 텍스트로 선형화하여 구조적 정보를 손실하는 문제를 해결합니다. PHAGE는 결정론적 파이프라인으로 관계 유형을 이질적인 엣지로 분리하고, 연결성 마스크와 학습 가능한 바이어스를 통해 토폴로지 정보를 어텐션 메커니즘에 통합함으로써 청구항 수준의 구조를 유지하며 문맥적 이해도를 높입니다. 또한, 이중 그라뉼러리티 목적 함수를 사용하여 특허 내부 구조와 외부 분류학 모두에 대한 표현 학습을 최적화합니다.

핵심 포인트

  • PHAGE는 특허 청구항의 계층적 종속 구조(dependency structure)를 그래프 형태로 직접 인코딩하여 정보 손실을 방지합니다.
  • 결정론적 파이프라인을 통해 법률 인용과 규칙 기반 관계를 이질적인 엣지로 분리하여 모델의 해석 가능성과 정확도를 높입니다.
  • 연결성 마스크와 관계 인식 바이어스를 사용하여 청구항 수준의 토폴로지를 트랜스포머의 토큰 어텐션 메커니즘으로 효과적으로 끌어올립니다.
  • 이중 그라뉼러리티 대조 목적 함수를 통해 특허 내부 구조(intra-patent)와 외부 분류학(inter-patent) 모두에 대한 강력한 표현 학습을 수행합니다.

특허 청구항은 의존하는 청구항이 이전 청구항의 범위를 상속하고 정교화하는 방향성 종속 구조를 형성합니다. 그러나 기존의 특허 인코더는 청구항을 텍스트로 선형화하여 이러한 계층 구조를 버립니다. 이 구조를 자체 어텐션(self-attention)에 직접 인코딩하는 것은 두 가지 문제를 야기합니다. 첫째, 청구항 의존성은 의미론적 및 추출 신뢰도가 다른 관계 유형들을 혼합하며, 둘째, 종속성 그래프는 청구항을 기반으로 정의되지만 트랜스포머(Transformers)는 토큰에 대해 어텐션합니다. PHAGE는 결정론적 그래프 구성 파이프라인을 통해 첫 번째 문제를 해결하는데, 이 파이프라인은 근접 결정론적 법률 인용(legal citations)과 노이즈가 많은 규칙 기반 기술 관계를 분리하여 유형 구분을 이질적인 엣지(heterogeneous edges)로 보존합니다. 또한 연결성 마스크(connectivity mask)와 학습 가능한 관계 인식 바이어스(learnable relation-aware biases)를 통해 두 번째 문제를 해결하며, 이는 청구항 수준의 토폴로지를 토큰 수준의 어텐션으로 끌어올려 인코더가 각 관계 유형을 차별적으로 가중할 수 있게 합니다. 이어서 이중 그라뉼러리티 대조 목적 함수(dual-granularity contrastive objective)를 통해 표현을 특허 간 분류학(inter-patent taxonomy)과 특허 내 토폴로지(intra-patent topology) 모두와 정렬합니다. PHAGE는 분류, 검색 및 클러스터링에서 모든 기준 모델(baselines)을 능가하는 성능을 보였으며, 문서 내 청구항의 토폴로지가 문서 간 구조보다 더 강력한 귀납적 편향(inductive bias)이며, 이 편향이 학습 후 인코더 가중치에 지속됨을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0