arXiv논문2026. 05. 06. 12:44

OracleProto: 지식 절단과 시간적 마스킹을 통한 LLM 네이티브 예측 능력 평가의 재현 가능한 프레임워크

요약

본 논문은 대형 언어 모델(LLM)의 실시간 예측 능력을 객관적이고 재현 가능한 방식으로 평가하기 위한 프레임워크인 OracleProto를 제안합니다. 기존의 라이브 또는 후행 벤치마크 방식의 한계를 극복하는 이 프레임워크는, 시간적 마스킹과 지식 절단(knowledge cutoff)을 결합하여 모델이 실제로 '알지 못하는' 상황에서의 예측 품질을 측정할 수 있게 합니다. OracleProto를 통해 LLM의 예측 능력을 일회성 평가가 아닌, 감사 가능하고 재사용 가능한 데이터셋 수준의 능력으로 전환함으로써 공정한 비교와 다운스트림 학습에 활용할 수 있는 통제된 신호원을 제공합니다.

핵심 포인트

LLM을 단순한 텍스트 생성기가 아닌 실시간 의사결정 지원 시스템으로 평가하기 위해 새로운 접근 방식이 필요하다.
OracleProto는 지식 절단(Knowledge Cutoff)과 시간적 마스킹(Temporal Masking)을 결합하여 모델의 진정한 예측 능력을 측정한다.
제안된 프레임워크는 내용 수준 누출 감지 및 이산 답변 정규화 등의 기술을 통합하여 평가의 신뢰성과 재현성을 높인다.
OracleProto를 통해 얻은 데이터셋은 공정한 교차 모델 비교뿐만 아니라, 다운스트림 SFT(Supervised Fine-Tuning) 및 RL(Reinforcement Learning) 학습에 활용 가능한 통제된 신호원을 제공한다.

대형 언어 모델은 정적인 텍스트 생성기에서 실시간 의사결정 지원 시스템으로 이동하고 있으며, 여기서 예측 (forecasting) 은 정보 수집, 증거 통합, 상황 판단, 그리고 행동 지향적 의사결정을 연결하는 복합 능력입니다. 이러한 능력은 금융, 정책, 산업, 과학 연구 등 광범위한 분야에서 수요가 높지만 평가는 여전히 어렵습니다: 라이브 벤치마크는 답변이 존재하기 전에 예측을 평가하여 측정할 수 있는 가장 깨끗한 방법이지만, 사건이 해결되면 만료됩니다; 후행적 벤치마크는 재현 가능하지만 모델이 사전 학습 동안 이미 배운 사실과 진정한 예측 능력을 구별하는 데 신뢰할 수 없습니다. 모델을 "알고 있지 않은 척"하도록 프롬프트를 주는 것은 진정한 지식 경계를 대체할 수 없습니다. 우리는 OracleProto 를 제안합니다: LLM 네이티브 예측 능력을 평가하기 위한 재현 가능한 프레임워크입니다. OracleProto 는 모델 절단과 정렬된 샘플 입문, 도구 수준의 시간적 마스킹, 내용 수준 누출 감지, 이산 답변 정규화, 계층적 점수를 결합하여 해결된 사건을 시간 제한 예측 샘플로 재구성합니다. FutureX-Past 도출 데이터셋에 인스턴트화된 6 대 현대 LLM 을 사용하여 OracleProto 는 통제된 정보 경계 하에서 예측 품질, 샘플링 안정성, 비용 효율성을 구별하며 잔류 누출을 $1\ ext{%}$ 수준으로 줄입니다. 이는 도구만 시간적 필터링보다 10 배가 낮습니다. OracleProto 는 LLM 예측을 일회성 평가에서 감사 가능한, 재사용 가능한, 학습 가능한 데이터셋 수준의 능력으로 전환하여 공정한 교차 모델 비교를 위한 통합 인터페이스와 다운스트림 SFT 및 RL 을 위한 통제된 신호원을 제공합니다. 코드와 데이터는 https://github.com/MaYiding/OracleProto 와 https://huggingface.co/datasets/MaYiding/OracleProto 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

OracleProto: 지식 절단과 시간적 마스킹을 통한 LLM 네이티브 예측 능력 평가의 재현 가능한 프레임워크

요약

핵심 포인트

댓글