본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 06. 12:44

OracleProto: 지식 절단과 시간적 마스킹을 통한 LLM 네이티브 예측 능력 평가의 재현 가능한 프레임워크

요약

본 논문은 대형 언어 모델(LLM)의 실시간 예측 능력을 객관적이고 재현 가능한 방식으로 평가하기 위한 프레임워크인 OracleProto를 제안합니다. 기존의 라이브 또는 후행 벤치마크 방식의 한계를 극복하는 이 프레임워크는, 시간적 마스킹과 지식 절단(knowledge cutoff)을 결합하여 모델이 실제로 '알지 못하는' 상황에서의 예측 품질을 측정할 수 있게 합니다. OracleProto를 통해 LLM의 예측 능력을 일회성 평가가 아닌, 감사 가능하고 재사용 가능한 데이터셋 수준의 능력으로 전환함으로써 공정한 비교와 다운스트림 학습에 활용할 수 있는 통제된 신호원을 제공합니다.

핵심 포인트

  • LLM을 단순한 텍스트 생성기가 아닌 실시간 의사결정 지원 시스템으로 평가하기 위해 새로운 접근 방식이 필요하다.
  • OracleProto는 지식 절단(Knowledge Cutoff)과 시간적 마스킹(Temporal Masking)을 결합하여 모델의 진정한 예측 능력을 측정한다.
  • 제안된 프레임워크는 내용 수준 누출 감지 및 이산 답변 정규화 등의 기술을 통합하여 평가의 신뢰성과 재현성을 높인다.
  • OracleProto를 통해 얻은 데이터셋은 공정한 교차 모델 비교뿐만 아니라, 다운스트림 SFT(Supervised Fine-Tuning) 및 RL(Reinforcement Learning) 학습에 활용 가능한 통제된 신호원을 제공한다.

대형 언어 모델은 정적인 텍스트 생성기에서 실시간 의사결정 지원 시스템으로 이동하고 있으며, 여기서 예측 (forecasting) 은 정보 수집, 증거 통합, 상황 판단, 그리고 행동 지향적 의사결정을 연결하는 복합 능력입니다. 이러한 능력은 금융, 정책, 산업, 과학 연구 등 광범위한 분야에서 수요가 높지만 평가는 여전히 어렵습니다: 라이브 벤치마크는 답변이 존재하기 전에 예측을 평가하여 측정할 수 있는 가장 깨끗한 방법이지만, 사건이 해결되면 만료됩니다; 후행적 벤치마크는 재현 가능하지만 모델이 사전 학습 동안 이미 배운 사실과 진정한 예측 능력을 구별하는 데 신뢰할 수 없습니다. 모델을 "알고 있지 않은 척"하도록 프롬프트를 주는 것은 진정한 지식 경계를 대체할 수 없습니다. 우리는 OracleProto 를 제안합니다: LLM 네이티브 예측 능력을 평가하기 위한 재현 가능한 프레임워크입니다. OracleProto 는 모델 절단과 정렬된 샘플 입문, 도구 수준의 시간적 마스킹, 내용 수준 누출 감지, 이산 답변 정규화, 계층적 점수를 결합하여 해결된 사건을 시간 제한 예측 샘플로 재구성합니다. FutureX-Past 도출 데이터셋에 인스턴트화된 6 대 현대 LLM 을 사용하여 OracleProto 는 통제된 정보 경계 하에서 예측 품질, 샘플링 안정성, 비용 효율성을 구별하며 잔류 누출을 $1\ ext{%}$ 수준으로 줄입니다. 이는 도구만 시간적 필터링보다 10 배가 낮습니다. OracleProto 는 LLM 예측을 일회성 평가에서 감사 가능한, 재사용 가능한, 학습 가능한 데이터셋 수준의 능력으로 전환하여 공정한 교차 모델 비교를 위한 통합 인터페이스와 다운스트림 SFT 및 RL 을 위한 통제된 신호원을 제공합니다. 코드와 데이터는 https://github.com/MaYiding/OracleProtohttps://huggingface.co/datasets/MaYiding/OracleProto 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0