본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 15:17

OCR-Memory: 장기적 에이전트 메모리를 위한 광학 컨텍스트 검색

요약

OCR-Memory는 자율 LLM 에이전트가 장기간의 상호작용적 환경에서 축적된 경험을 효율적으로 재사용할 수 있도록 설계된 새로운 메모리 프레임워크입니다. 기존 시스템의 토큰 비용 및 정보 손실 문제를 해결하기 위해, OCR-Memory는 역사적 궤적을 시각적 식별자가 주석 처리된 이미지로 변환합니다. 이를 통해 '시각 앵커'를 사용하여 관련 영역을 선택하고 정확한 텍스트를 검색하는 방식을 구현하여, 긴 시간대 에이전트의 메모리 용량을 늘리고 환각(hallucination) 위험을 줄입니다.

핵심 포인트

  • 기존 LLM 에이전트 메모리는 토큰 예산 제약과 요약 과정에서의 정보 손실이라는 근본적인 한계를 가집니다.
  • OCR-Memory는 이 문제를 해결하기 위해 광학 모달리티(Optical Modality)를 활용하여 경험을 고밀도 시각적 표현으로 인코딩합니다.
  • 핵심 검색 패러다임은 '시각 앵커' 기반의 영역 선택 및 정확한 텍스트 전사(locate-and-transcribe)로, 자유형 생성(freeform generation)에 따른 환각을 방지합니다.
  • 실험 결과는 OCR-Memory가 엄격한 컨텍스트 제한 하에서도 메모리 용량을 증가시키고 충실한 증거 복원을 유지함을 입증했습니다.

자율 LLM 에이전트는 성공이 확장된 역사 동안 축적된 경험을 재사용하는 데 달려 있는 긴 시간대 (long-horizon), 상호작용적인 환경에서 점차적으로 운영되고 있습니다. 그러나 기존 에이전트 메모리 시스템은 텍스트 컨텍스트 예산에 근본적으로 제한되어 있습니다: 원본 궤적을 저장하거나 다시 방문하는 것은 prohibitively token-expensive(과도한 토큰 비용) 이며, 요약 및 텍스트 전용 검색은 토큰 절약을 위해 정보 손실과 단편화된 증거를 희생합니다. 이 한계를 해결하기 위해 우리는 광학 모달리티를 에이전트 경험의 고밀도 표현으로 활용하여, 검색 시 최소한의 프롬프트 오버헤드로 임의의 긴 역사를 유지할 수 있는 메모리 프레임워크인 Optical Context Retrieval Memory(OCR-Memory) 를 제안합니다. 구체적으로, OCR-Memory 는 역사적 궤적을 고유한 시각적 식별자로 주석 처리된 이미지로 렌더링합니다. OCR-Memory 는 시각 앵커를 통해 관련 영역을 선택하고 해당 정확한 텍스트를 검색하는 extit{locate-and-transcribe} 패러다임을 통해 저장된 경험을 검색하여, 자유형 생성을 피하고 환각 (hallucination) 을 줄입니다. 긴 시간대 에이전트 벤치마크에 대한 실험은 엄격한 컨텍스트 제한 하에서 일관된 개선을 보여주며, 광학 인코딩이 유효한 메모리 용량을 증가시키면서도 충실한 증거 복원을 보존함을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
7

댓글

0