Perplexity를 넘어: LLM 테스트 시간 학습(TTT)의 배포 메모리 주장에 대한 행동 평가 프레임워크
요약
LLM의 테스트 시간 학습(TTT)이 주장하는 '배포 메모리' 능력을 검증하기 위한 새로운 행동 평가 프레임워크를 제안합니다. 기존의 퍼플렉시티 등 대리 지표가 실제 모델의 회상이나 개인화 능력을 제대로 반영하지 못하는 격차를 분석합니다.
핵심 포인트
- TTT의 대리 지표(Perplexity 등)와 실제 배포 행동 간의 불일치 지적
- 회상, 강건성, 유지력 등 행동적 증거 중심의 평가 프레임워크 도입
- 주장 조정 증거 사다리와 명시적 메모리 베이스라인을 포함한 프로토콜 제안
- LoRA 업데이트가 손실 값은 낮추지만 실제 자유 형식 회상은 못함을 입증
대규모 언어 모델 테스트 시간 학습 (Test-Time Training, TTT)은 종종 국소적인 대리 지표 (proxy metrics)를 통해 평가됩니다. 모델은 최근 토큰, 검색된 컨텍스트, 타겟 도메인 데이터, 또는 검증 가능한 작업 시도에 대해 업데이트된 후, 퍼플렉시티 (perplexity), 미래 토큰 손실 (future-token loss), 긴 컨텍스트 성능 (long-context performance), 또는 보상 (reward)에 의해 판단됩니다. 이러한 지표들은 스트림 적응 (stream adaptation), 도메인 적응 (domain adaptation), 컨텍스트 압축 (context compression), 그리고 보상 기반의 테스트 시간 개선 (reward-backed test-time improvement)에 관한 주장들과는 잘 부합합니다. 그러나 TTT 결과가 점점 더 동기 부여로 사용되고 있는 능력, 즉 배포된 어시스턴트 메모리 (deployed assistant memory), 개인화 (personalization), 또는 희소한 배포 후 학습 (sparse post-deployment learning)에 대해서는 증거로서 더 취약합니다. 이러한 능력들은 대신 나중의 회상 (recall), 패러프레이즈 강건성 (paraphrase robustness), 유지 (retention), 국소성 (locality), 충돌 처리 (conflict handling), 그리고 원래의 지원 컨텍스트가 제거된 후의 다운스트림 작업에서의 사용과 같은 행동적 증거를 필요로 합니다.
우리는 TTT 메모리 주장을 이를 뒷받침하는 증거에 맞게 조정하는 행동 평가 프레임워크를 소개합니다. 이 프레임워크는 두 가지 구성 요소로 이루어져 있습니다: 스트림/도메인 적응, 브릿지 내재화 (bridge internalization), 그리고 배포 시간 행동 학습 (deployment-time behavioral learning)을 구분하는 주장 조정 증거 사다리 (claim-calibrated evidence ladder); 그리고 일치하는 명시적 메모리 베이스라인 (explicit-memory baselines)과 상호 배타적인 실패 범주 (mutually exclusive failure categories)를 갖춘 평가 프로토콜입니다. 우리는 최근의 TTT 및 메모리 인접 연구들을 감사하고, 이를 통제된 진단 도구로 구현함으로써 프레임워크를 검증합니다. 희소한 논스-팩트 (nonce-fact) 설정에서, 1단계 LoRA 업데이트는 세 가지 Qwen3 모델 규모 전체에서 지원 및 답변 손실 (support and answer loss)을 낮추는 반면, 생성된 자유 형식의 회상 (free-form recall)은 0에 머물러, 대리 지표의 개선과 배포 행동 사이의 측정 가능한 격차를 드러냅니다. 이 프레임워크는 저자와 평가자들에게 TTT 메모리 주장과 실제로 보고된 증거를 일치시키기 위한 구체적인 표준을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기