
메모리 검색(Memory Retrieval) 개선: New Computer가 LangSmith를 통해 리콜(Recall)을 50% 높인 방법
요약
New Computer는 개인용 AI 'Dot'의 장기 메모리 시스템을 개선하기 위해 LangSmith를 활용하여 검색 성능을 최적화했습니다. 에이전트형 메모리(Agentic memory) 방식을 도입하고 합성 데이터를 통한 반복 실험을 거친 결과, 기존 베이스라인 대비 리콜(Recall) 50% 및 정밀도(Precision) 40% 향상을 달성했습니다.
핵심 포인트
- 정적 RAG를 넘어 문서를 동적으로 생성하고 구조화하는 에이전트형 메모리(Agentic memory) 시스템 구축
- 상태 및 날짜와 같은 메타 필드를 활용한 필터링을 통해 검색 정확도 향상
- LangSmith를 사용하여 합성 데이터 기반의 레이블링된 데이터셋을 구축하고 검색 성능을 정량적으로 평가
- 시맨틱 검색, 키워드, BM25, 메타 필드 필터링 등 다양한 검색 방법론의 반복 실험을 통한 최적화
New Computer 소개
New Computer는 사용자를 진정으로 이해하도록 설계된 최초의 개인용 AI인 Dot을 개발한 팀입니다. Dot의 장기 메모리(Long-term memory) 시스템은 언어적 및 행동적 단서를 관찰함으로써 시간이 지남에 따라 사용자의 선호도를 학습합니다. Dot의 메모리 시스템은 단순한 회상(Recall)을 넘어, 적시에 개인화된 지원을 제공하기 위해 사용자가 누구인지에 대한 이미지를 지속적으로 진화시키며, 진정한 이해를 하고 있다는 인식을 심어줍니다.
LangSmith를 통해 New Computer는 메모리 검색(Memory retrieval) 시스템을 테스트하고 개선할 수 있었으며, 그 결과 동적 메모리 검색(Dynamic memory retrieval)의 이전 베이스라인 구현과 비교하여 리콜(Recall) 50% 향상 및 정밀도(Precision) 40% 향상을 달anda했습니다.
Dot의 에이전트형 메모리(Agentic memory) 개요
New Computer 팀은 혁신적이고 최초의 에이전트형 메모리(Agentic memory) 시스템을 구축했습니다. 정적인 문서 세트에 의존하는 표준 RAG(Retrieval-Augmented Generation) 방식과 달리, 에이전트형 메모리는 나중에 검색될 문서들을 동적으로 생성하거나 미리 계산하는 과정을 포함합니다. 이는 검색을 가능하게 하고, 시간이 흐르며 메모리가 축적됨에 따라 정확하고 효율적으로 만들기 위해 메모리 생성 단계에서 정보가 구조화되어야 함을 의미합니다.
원시 콘텐츠(Raw content) 외에도 Dot의 메모리에는 검색에 유용한 일련의 선택적 "메타 필드(Meta-fields)"가 있습니다. 여기에는 상태(예: COMPLETED 또는 IN PROGRESS)와 시작일 또는 마감일과 같은 날짜 및 시간(Datetime) 필드가 포함됩니다. 이러한 필드들은 "이번 주에 완료하고 싶었던 작업이 무엇인가요?" 또는 "오늘 완료해야 할 남은 작업이 무엇인가요?"와 같이 검색 시 빈도가 높은 쿼리에 대한 추가적인 필터링 방법으로 사용될 수 있습니다.
LangSmith를 통한 메모리 검색 개선
시맨틱 (Semantic), 키워드 (Keyword), BM25, 메타 필드 필터링 (Meta-field filter) 기술 중 하나 또는 여러 개를 사용하는 다양한 검색 방법론을 보유한 New Computer는, 레이블이 지정된 예시 데이터셋(Labeled examples)을 바탕으로 빠르게 반복 실험(Iterate)할 수 있는 새로운 방법이 필요했습니다. 사용자 개인정보를 보호하면서 성능을 테스트하기 위해, 이들은 LLM으로 생성된 배경 이야기를 가진 가상 사용자 코호트(Cohort)를 만들어 합성 데이터(Synthetic data)를 생성했습니다. 각 가상 사용자의 메모리 데이터베이스를 초기화하기 위한 초기 대화를 진행한 후, 팀은 쿼리(가상 사용자의 메시지)와 사용 가능한 전체 메모리 세트를 LangSmith 데이터셋에 저장하기 시작했습니다.
LangSmith에 연결된 사내 도구를 사용하여, New Computer 팀은 각 쿼리에 대한 관련 메모리에 레이블을 지정하고 정밀도 (Precision), 재현율 (Recall), F1 점수와 같은 평가 지표를 정의했습니다. 이를 통해 에이전트 메모리 시스템 (Agentic memory system)의 검색 성능을 개선하기 위한 반복 실험을 빠르게 진행할 수 있었습니다.
이 실험 세트를 위해, 이들은 먼저 쿼리당 고정된 수의 가장 관련성 높은 메모리를 검색하는 시맨틱 검색 (Semantic search) 기반의 간단한 베이스라인 (Baseline) 시스템으로 시작했습니다. 그 다음, 다양한 쿼리 유형에 걸친 성능을 평가하기 위해 다른 기술들을 테스트했습니다. 어떤 경우에는 유사도 검색 (Similarity search)이나 BM25와 같은 키워드 방식이 더 효과적이었고, 또 어떤 경우에는 이러한 방법들이 효과적으로 작동하기 위해 메타 필드 (Meta-fields)를 통한 사전 필터링 (Pre-filtering)이 필요했습니다.
짐작하시겠지만, 이러한 여러 방법을 병렬로 실행하면 실험의 조합 폭발 (Combinatorial explosion)이 발생할 수 있습니다. 따라서 다양한 데이터셋에서 서로 다른 방법들을 빠르게 검증하는 것이 진전을 이루는 데 매우 중요합니다. LangSmith의 사용하기 쉬운 SDK와 실험 UI (Experiments UI) 덕분에 New Computer는 이러한 실험들을 빠르고 효율적으로 실행, 평가 및 검사할 수 있었습니다.
이러한 실험을 통해 New Computer는 메모리 시스템을 크게 개선할 수 있었으며, 결과적으로 동적 메모리 검색 (Dynamic memory retrieval)의 이전 베이스라인 구현 방식과 비교했을 때 재현율 (Recall) 50% 향상 및 정밀도 (Precision) 40% 향상이라는 성과를 거두었습니다.
LangSmith를 통한 대화 프롬프트 조정
Dot의 응답은 동적인 대화형 프롬프트(conversational prompt)에 의해 생성됩니다. 이는 관련 메모리(memories)를 포함하는 것 외에도, 정확하고 자연스러운 방식으로 응답하기 위해 도구 사용(예: 검색 결과) 및 고도의 문맥적 행동 지침(behavioral instructions)에 의존할 수 있음을 의미합니다.
이와 같이 변동성이 큰 시스템을 개발하는 것은 하나의 쿼리(query)를 개선하기 위한 변경 사항이 다른 쿼리에는 해로운 영향을 미칠 수 있기 때문에 매우 어려울 수 있습니다.
프롬프트를 최적화하기 위해, New Computer 팀은 다시 한번 합성 사용자(synthetic users) 코호트를 사용하여 광범위한 의도(intents)를 가진 사용자 쿼리를 생성했습니다. 그 후 LangSmith의 실험 비교 뷰(experiment comparison view)를 통해 프롬프트 변경이 미치는 전역적인 영향을 쉽게 검토할 수 있었습니다. 이를 통해 프롬프트 변경으로 인해 발생한 성능 저하 실행(regressed runs)을 매우 시각적인 방식으로 식별할 수 있었습니다.
또한, 출력이 부정확한 실패 사례의 경우, 팀은 내장된 프롬프트 플레이그라운드(prompt playground)를 사용하여 LangSmith UI를 벗어나지 않고도 프롬프트를 직접 조정할 수 있었습니다. 이는 대화 프롬프트를 평가하고 조정하는 동안 팀의 반복(iteration) 속도를 크게 향상시켰습니다.
New Computer의 향후 계획
New Computer가 인간과 AI 간의 관계를 심화시키기 위해 노력함에 따라, 팀은 사용자가 진정으로 인지되고 이해받고 있다고 느끼게 만들 방법을 끊임없이 모색하고 있습니다. 여기에는 Dot이 사용자의 대화 스타일이나 어조(tonal) 선호도에 적응하도록 하거나, 맞춤형 메시지로 사용자에게 선제적으로 다가감으로써 사용자별로 완전히 맞춤화(bespoke)된 서비스가 되는 것이 포함됩니다.
최근의 출시로 인해 새로운 사용자 층이 유입되었으며, 이들 중 45% 이상이 무료 메시지 제한에 도달한 후 앱의 유료 티어로 전환되었습니다. 이들은 Dot이 시간이 지남에 따라 자신과 함께 성장하고 진화하기를 기대합니다. LangChain 팀과의 파트너십 및 LangSmith의 활용은 New Computer 팀이 새로운 AI 재료를 사용하여 인간 사용자와의 심화되는 관계의 복잡성을 시뮬레이션하는 방식에 있어 계속해서 중추적인 역할을 할 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 LangChain Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기