그래프 네이티브 강화학습을 통한 개념적 재조합 기반의 추적 가능한 과학적 가설 생성
요약
Graph-PRefLexOR는 GRPO를 통해 미세 조정된 그래프 네이티브 추론 모델로, 재료 과학 분야에서 추적 가능한 가설 생성을 목표로 합니다. 신경 언어 생성과 기호적 관계 구조를 결합하여 인과 관계를 구축하고, 기존 모델 대비 높은 성능과 의미론적 다양성을 입증했습니다.
핵심 포인트
- GRPO를 활용한 그래프 네이티브 강화학습 모델 개발
- 기존 LLM 대비 추론 추적 가능성 및 성능 40-65% 향상
- 기호적 관계 구조를 통한 인과 관계 구축 및 검사 가능
- 테스트 시간 그래프 확장을 통한 개념적 재조합 능력 강화
재료 발견(materials discovery)을 가속화하려면 다단계의 도메인 기반 추론(domain-grounded reasoning)을 통해 과학적으로 타당한 가설을 생성할 수 있는 AI 시스템이 필요합니다. 표준적인 대규모 언어 모델(Large Language Models, LLMs)은 개방형 재료 설계 문제에 대해 유창하지만 추적 가능성이 낮은 응답을 생성하는 경우가 많으며, 이로 인해 최종 답변이 일관된 중간 추론에 의해 뒷받침되는지 판단하기 어렵습니다. 우리는 메커니즘 탐색, 그래프 구축, 패턴 추출 및 가설 합성을 위한 명시적인 단계로 추론을 구성하도록 Group Relative Policy Optimization (GRPO)를 통해 미세 조정(fine-tuned)된 그래프 네이티브 추론 모델 제품군인 Graph-PRefLexOR를 개발했습니다. 이러한 설계는 신경 언어 생성(neural language generation)을 기호적 관계 구조(symbolic relational structure)와 연결하여, 인과 관계(causal connections)를 구축, 검사 및 재사용할 수 있게 합니다. 재료 과학 및 역학 문헌에서 추출한 100개의 개방형 질문에 대해, Graph-PRefLexOR는 대응하는 베이스 모델(base models) 대비 40-65%의 성능 향상을 달성하였으며, 특히 추론 추적 가능성(reasoning traceability)에서 가장 큰 이득을 보였습니다. 임베딩 분석(Embedding analyses) 결과, 베이스라인보다 더 넓은 의미론적 탐색(semantic exploration)과 약 2-3배 더 높은 의미론적 다양성(semantic diversity)을 보여주었습니다. 의미론적 백트래킹(Semantic backtracking) 및 계층별 은닉 상태(layer-wise hidden-state) 분석은 구조화된 추론과 최종 답변 사이의 더 강력한 정렬(alignment)을 추가로 입증합니다. 마지막으로, 테스트 시간 그래프 확장(test-time graph expansion)을 통해 추가적인 연산(compute)이 단순히 의미론적 범위를 확장하기보다는 제한된 의미 공간 내에서 장기적인 개념적 재조합(long-range conceptual recombination)을 주로 증가시킨다는 것을 밝혀냈습니다. 이러한 결과는 그래프 네이티브 강화학습(graph-native reinforcement learning)이 재료 설계 및 기타 과학적 응용 분야에서 과학적 가설 생성을 위한 해석 가능한 AI 시스템으로 나아가는 경로임을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기