OCR-Memory: 장기적 에이전트 메모리를 위한 광학 컨텍스트 검색

자율 LLM 에이전트는 성공이 확장된 역사 동안 축적된 경험을 재사용하는 데 달려 있는 긴 시간대 (long-horizon), 상호작용적인 환경에서 점차적으로 운영되고 있습니다. 그러나 기존 에이전트 메모리 시스템은 텍스트 컨텍스트 예산에 근본적으로 제한되어 있습니다: 원본 궤적을 저장하거나 다시 방문하는 것은 prohibitively token-expensive(과도한 토큰 비용) 이며, 요약 및 텍스트 전용 검색은 토큰 절약을 위해 정보 손실과 단편화된 증거를 희생합니다. 이 한계를 해결하기 위해 우리는 광학 모달리티를 에이전트 경험의 고밀도 표현으로 활용하여, 검색 시 최소한의 프롬프트 오버헤드로 임의의 긴 역사를 유지할 수 있는 메모리 프레임워크인 Optical Context Retrieval Memory(OCR-Memory) 를 제안합니다. 구체적으로, OCR-Memory 는 역사적 궤적을 고유한 시각적 식별자로 주석 처리된 이미지로 렌더링합니다. OCR-Memory 는 시각 앵커를 통해 관련 영역을 선택하고 해당 정확한 텍스트를 검색하는 extit{locate-and-transcribe} 패러다임을 통해 저장된 경험을 검색하여, 자유형 생성을 피하고 환각 (hallucination) 을 줄입니다. 긴 시간대 에이전트 벤치마크에 대한 실험은 엄격한 컨텍스트 제한 하에서 일관된 개선을 보여주며, 광학 인코딩이 유효한 메모리 용량을 증가시키면서도 충실한 증거 복원을 보존함을 입증합니다.

Insights

OCR-Memory: 장기적 에이전트 메모리를 위한 광학 컨텍스트 검색

요약

핵심 포인트

댓글

Lip-Bu Tan 체제 하의 Intel 파운드리, 첫 외부 고객사 확보. 실적 발표 2일 전 주가 8% 이상 급등

Claude가 이제 어떤 웹사이트의 인터페이스도 직접 복제할 수 있습니다

AI를 상당히 사용하고 있음에도 AI 활용 설문에서는 낮은 점수였다──제2세대 AI 인재라는 생각

AI를 활용한 3D 게임 제작의 어려움을 해결해 주는 threejs-game-skills

Lip-Bu Tan 체제 하의 Intel 파운드리, 첫 외부 고객사 확보. 실적 발표 2일 전 주가 8% 이상 급등

Claude가 이제 어떤 웹사이트의 인터페이스도 직접 복제할 수 있습니다

AI를 상당히 사용하고 있음에도 AI 활용 설문에서는 낮은 점수였다──제2세대 AI 인재라는 생각

AI를 활용한 3D 게임 제작의 어려움을 해결해 주는 threejs-game-skills