arXiv논문2026. 06. 24. 11:46

PETRA: 석유 공학 도메인 적응을 위한 웹 텍스트 변환 기술

요약

석유 공학 도메인의 검색 성능 향상을 위해 웹 데이터를 정제된 도메인 코퍼스와 합성 지도 학습 데이터로 변환하는 PETRA 파이프라인을 제안합니다. PETRA는 대규모 데이터셋을 통해 밀집 검색 및 재순위화 성능을 크게 개선하며, 효과적인 학습 레시피의 중요성을 입증합니다.

핵심 포인트

석유 공학 도메인 특화 검색을 위한 PETRA 데이터셋 및 파이프라인 제안
웹 데이터를 정제된 코퍼스와 합성 지도 학습 데이터로 변환
nDCG 및 Earth Science 벤치마크 성능의 유의미한 향상 달성
검색 마이닝된 데이터와 교사 모델 점수 활용의 중요성 확인

석유 공학 (Petroleum-engineering) 검색은 강력한 범용 검색기 (general retrievers)에 있어 지도 학습의 격차 (supervision gap)를 드러냅니다. 즉, 관련 증거는 공개된 웹 텍스트에 존재하지만, 도메인 관련성 레이블 (domain relevance labels)은 부족합니다. 이 격차를 해결하기 위해, 우리는 노이즈가 있는 공개 웹 데이터를 정제된 도메인 코퍼스 (domain corpus) 및 밀집 검색 (dense retrieval)과 재순위화 (reranking)를 위한 합성 지도 학습 (synthetic supervision) 데이터로 변환하는 대규모 석유 공학 검색 적응용 텍스트 (Petroleum Engineering Text for Retrieval Adaptation) 데이터셋 및 파이프라인인 PETRA를 제안합니다. PETRA는 136만 개의 정제된 청크 (chunks), 약 20억 토큰 상당량, 약 22.4만 개의 앵커 (anchors)로부터 생성된 약 85.9만 개의 임베딩 학습 행 (embedding training rows), 그리고 약 40만 개의 교사 모델 점수가 매겨진 재순위화 후보 행 (teacher-scored reranker candidate rows)을 포함합니다. PETRA의 구축 방식은 높은 재현율 (high-recall)의 에너지 도메인 큐레이션, 98.4%의 테스트 정확도를 가진 에너지 도메인 분류기 (energy-domain classifier), 청크 기반 쿼리 생성 (chunk-grounded query generation), LLM이 작성한 하드 네거티브 (hard negatives), 그리고 검색 마이닝된 후보 리스트 (retrieval-mined candidate lists)를 결합합니다. PETRA는 점수 융합 (score fusion)을 통해 1단계 도메인 내 정규화된 누적 이득 (Normalized Discounted Cumulative Gain, nDCG)을 0.703에서 0.763으로 향상시킵니다. 재순위화 적응 (Reranker adaptation)은 공개 Earth Science 벤치마크를 상대적으로 44% 향상시켰으며, 6개 작업의 추론 집약적 패널 (reasoning-intensive panel)을 23% 향상시켰습니다. 실패한 학습 레시피 (training recipes)에 따르면, 합성 레이블 (synthetic labels)에 대한 높은 학습-홀드아웃 정확도 (train-holdout accuracy)가 검색 성능 향상을 예측하지는 못함을 보여줍니다. 검색 마이닝된 데이터 (retrieval-mined data)는 추론 시점의 후보 분포 (inference-time candidate distribution)에서 샘플링된 교사 모델 점수 후보 리스트 (teacher-scored candidate lists)로 재구성된 후에만 도움이 됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

PETRA: 석유 공학 도메인 적응을 위한 웹 텍스트 변환 기술

요약

핵심 포인트

댓글