대형 언어 모델 (LLM) 을 활용한 혁신 예측
요약
본 논문은 혁신의 출현이 특허 데이터의 집단적인 언어적 변화를 통해 예측될 수 있음을 제시합니다. 연구진은 국제 특허 분류(IPC) 코드를 단어로 취급하고 트랜스포머 기반 모델인 TechToken을 개발하여, 이 코드 임베딩 간의 문맥 유사성을 측정함으로써 기술적 조합의 초기 신호를 포착하는 방법을 제안했습니다. 이를 통해 수천 개의 특허에 걸친 집단적인 변화를 분석하여 미래의 혁신을 높은 정확도로 예측할 수 있음을 입증했습니다.
핵심 포인트
- 혁신의 출현은 단일 발명가가 아닌, 특허 데이터 내 기술적 언어의 집단적 변화(collective change)로 나타난다.
- TechToken이라는 트랜스포머 기반 모델을 사용하여 국제 특허 분류(IPC) 코드를 '기술 어휘'로 학습시켰다.
- 특정 코드 임베딩 간의 문맥 유사성(context similarity)을 측정하는 것이 기술적 조합의 초기 예측 지표가 된다.
- TechToken은 일반적인 표현 품질 개선뿐만 아니라, 다양한 특허 관련 과제에서 최첨단 모델 대비 우수한 성능을 보인다.
혁신의 출현을 의도한 기술적 조합의 예측은 과학과 정책의 근본적인 과제입니다. 우리는 미래의 조합이 특허의 집단 언어에 초기 흔적을 남긴다는 것을 보여주며, 이 예측 신호는 수십 년 전에 감지될 수 있음을 보여줍니다. 우리는 이러한 신호가 단일 발명가에 귀속되지 않으며, 수천 개의 특허에 걸쳐 기술이 어떻게 기술적으로 기술되는지에 대한 집단적 변화로 나타난다고 합니다. 이를 위해 우리는 국제 특허 분류 (IPC) 코드로 분류된 기술을 어휘의 단어로 취급하는 트랜스포머 기반 모델인 TechToken 을 소개합니다. 이 모델을 통해 우리는 이러한 코드를 미세 조정 (fine-tuning) 과정에서 임베딩함으로써 기술의 언어를 학습합니다. 우리는 코드 임베딩 간의 문맥 유사성 (context similarity) 을 언어적 수렴 (linguistic convergence) 의 측정으로 정의하며, 이는 첫 번째 기술적 조합을 정확하게 예측함을 보여줍니다. TechToken 은 또한 일반 표현 품질을 개선하여 다양한 특허 관련 과제에서 최첨단 모델보다 우수한 성능을 보입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기