Perplexity를 넘어: LLM 테스트 시간 학습(TTT)의 배포 메모리 주장에 대한 행동 평가 프레임워크

대규모 언어 모델 테스트 시간 학습 (Test-Time Training, TTT)은 종종 국소적인 대리 지표 (proxy metrics)를 통해 평가됩니다. 모델은 최근 토큰, 검색된 컨텍스트, 타겟 도메인 데이터, 또는 검증 가능한 작업 시도에 대해 업데이트된 후, 퍼플렉시티 (perplexity), 미래 토큰 손실 (future-token loss), 긴 컨텍스트 성능 (long-context performance), 또는 보상 (reward)에 의해 판단됩니다. 이러한 지표들은 스트림 적응 (stream adaptation), 도메인 적응 (domain adaptation), 컨텍스트 압축 (context compression), 그리고 보상 기반의 테스트 시간 개선 (reward-backed test-time improvement)에 관한 주장들과는 잘 부합합니다. 그러나 TTT 결과가 점점 더 동기 부여로 사용되고 있는 능력, 즉 배포된 어시스턴트 메모리 (deployed assistant memory), 개인화 (personalization), 또는 희소한 배포 후 학습 (sparse post-deployment learning)에 대해서는 증거로서 더 취약합니다. 이러한 능력들은 대신 나중의 회상 (recall), 패러프레이즈 강건성 (paraphrase robustness), 유지 (retention), 국소성 (locality), 충돌 처리 (conflict handling), 그리고 원래의 지원 컨텍스트가 제거된 후의 다운스트림 작업에서의 사용과 같은 행동적 증거를 필요로 합니다.

우리는 TTT 메모리 주장을 이를 뒷받침하는 증거에 맞게 조정하는 행동 평가 프레임워크를 소개합니다. 이 프레임워크는 두 가지 구성 요소로 이루어져 있습니다: 스트림/도메인 적응, 브릿지 내재화 (bridge internalization), 그리고 배포 시간 행동 학습 (deployment-time behavioral learning)을 구분하는 주장 조정 증거 사다리 (claim-calibrated evidence ladder); 그리고 일치하는 명시적 메모리 베이스라인 (explicit-memory baselines)과 상호 배타적인 실패 범주 (mutually exclusive failure categories)를 갖춘 평가 프로토콜입니다. 우리는 최근의 TTT 및 메모리 인접 연구들을 감사하고, 이를 통제된 진단 도구로 구현함으로써 프레임워크를 검증합니다. 희소한 논스-팩트 (nonce-fact) 설정에서, 1단계 LoRA 업데이트는 세 가지 Qwen3 모델 규모 전체에서 지원 및 답변 손실 (support and answer loss)을 낮추는 반면, 생성된 자유 형식의 회상 (free-form recall)은 0에 머물러, 대리 지표의 개선과 배포 행동 사이의 측정 가능한 격차를 드러냅니다. 이 프레임워크는 저자와 평가자들에게 TTT 메모리 주장과 실제로 보고된 증거를 일치시키기 위한 구체적인 표준을 제공합니다.

Insights

Perplexity를 넘어: LLM 테스트 시간 학습(TTT)의 배포 메모리 주장에 대한 행동 평가 프레임워크

요약

핵심 포인트

댓글

네이버가 제 손으로 검색창을 지우기 시작했다 — AI 쇼핑 에이전트 정식 전환

내가 실제로 코드를 배포하기 위해 AI를 사용하는 방법: 영리한 프롬프트보다 컨텍스트 엔지니어링 (Context Engineering)

GraphRAG vs. RAG: 지식 그래프(Knowledge Graphs)의 복잡성이 정당화되는 시점

헤드 수준의 어텐션 융합을 통한 연산량 절감

네이버가 제 손으로 검색창을 지우기 시작했다 — AI 쇼핑 에이전트 정식 전환

내가 실제로 코드를 배포하기 위해 AI를 사용하는 방법: 영리한 프롬프트보다 컨텍스트 엔지니어링 (Context Engineering)

GraphRAG vs. RAG: 지식 그래프(Knowledge Graphs)의 복잡성이 정당화되는 시점

헤드 수준의 어텐션 융합을 통한 연산량 절감