심층 연구 구축: 최첨단에 도달한 방법

요약

본 글은 장기적인 깊이 있는 연구(Deep Research) 작업을 수행하는 AI 에이전트를 설계하고 구현한 경험을 공유합니다. 핵심은 단순히 복잡한 아키텍처를 만드는 것이 아니라, 모델의 진화 방향과 사용 사례에 맞춰 시스템을 재설계하는 '엔지니어링 마인드셋'에 있습니다. 특히 컨텍스트 관리(Context Management) 측면에서 기존 ReAct 기반 에이전트가 발생하는 토큰 폭증 문제를 해결하기 위해, 인간의 연구 과정처럼 정보를 '정제된 성찰(Reflections)'로 축적하고 최종 결과물 작성 시에만 원본 데이터를 활용

핵심 포인트

깊은 리서치 에이전트 설계는 모델의 진화 방향을 예측하고, 컨텍스트 관리와 도구 호출 신뢰성 확보에 초점을 맞춰야 합니다.
기존 ReAct 기반 아키텍처 대비, 정보 축적 과정에서 원본 데이터를 제외하고 '정제된 성찰(Reflections)'만을 컨텍스트로 사용함으로써 토큰 소비를 최대 66% 절감했습니다.
성능 최적화보다 중요한 것은 시스템의 신뢰성과 실용적인 방향성을 검증하는 것이며, 실패 모드(Failure Modes)를 핵심 설계 고려 사항으로 다루어야 합니다.
최고의 에이전트 성능은 복잡한 아키텍처가 아닌, 간소화된 오케스트레이션 로직과 자율성(Autonomy)을 극대화하는 데서 나옵니다.

심층 연구 구축: 최첨단에 도달한 방법

에이전트 하네스(agent harness)를 구축하는 작업은 컨텍스트 관리(context management), 툴 호출(tool invocations), 루프 제어(loop control), 오케스트레이션(orchestration), 오류 처리(error handling) 등을 통해 모델의 런타임 실행을 향상시키는 소프트웨어 계층을 만드는 것입니다. 하지만, 빠르게 발전하는 모델들 위에 애플리케이션을 구축하는 것은 현대적인 엔지니어링 과제입니다. 우리는 오늘날 어떤 소프트웨어를 설계해야 미래 모델 출시에서 오는 성능 향상을 흡수할 수 있을까요?

이를 위해서는 모델이 어떻게 진화할지 예측하고, 그 발전에 대해 낙관적으로 유지하며, 가정을 제한하고, 수작업으로 최적화하는 것을 피해야 합니다.

우리는 7개월 전, 심층 연구(deep research)에 대한 첫 시도를 포기하고 시스템 전체를 처음부터 다시 구축해야 했을 때 이 점을 힘든 경험을 통해 배웠습니다. 초기 아키텍처는 복잡하고 정교했습니다(저희는 이것이 좋은 것이라고 생각했지만). 하지만 다음 세대 모델이 도착했을 때, 그 가정들이 병목 현상이 되었습니다.

지난 7개월 동안, 모델의 기능은 조용하지만 의미 있게 진화해 왔습니다(특히 툴 호출 능력에서). 이 단일 최적화 초점 덕분에 저희는 워크플로우(workflows)를 넘어 에이전트(agents)로 나아갈 수 있었습니다. 저희는 미래의 모델들이 현재 에이전트 개발자들이 겪고 있는 고충 지점을 해결하도록 훈련될 것이라고 믿습니다. 모든 모델은 궁극적으로 하네스에 의해 소비되므로, 모델들은 그 하네스를 위해 진화해야 합니다. 저희는 모델들이 높은 재현율(high-recall) 요약(컨텍스트 압축용), 툴 호출 신뢰성, 그리고 간결한 글쓰기 능력에서 개선되기를 바랍니다.

마찬가지로, 툴들 역시 LLM과 광범위하게 채택되는 에이전트 하네스를 지원하도록 진화해야 합니다. 최고의 툴들은 에이전트로부터 추상화된 방식으로 툴 측면에서 일부 컨텍스트 엔지니어링을 수행해야 합니다. 이들은 대량의 토큰을 컨텍스트 창에 쏟아붓는 대신 가장 관련성 높은 데이터만을 반환해야 합니다. 툴 제공업체로서, 저희는 컨텍스트 엔지니어링이 내장된 고급 검색 기능에 막대한 투자를 했습니다. 이는 결과적으로 다운스트림 에이전트 프로세스의 환각(hallucinations)과 지연 시간(latency)을 낮춥니다.

시간이 지나도 개선되는 에이전트를 구축하기 위해, 저희는 몇 가지 핵심 원칙을 따랐습니다:

오케스트레이션 로직을 단순화하고 자율성(autonomy)에 집중합니다.
모델과 툴이 무엇을 위해 최적화되고 있는지에 세심한 주의를 기울이고, 그들의 새로운 기능을 활용합니다.
컨텍스트 엔지니어링에 초점을 맞춥니다 (자세한 내용은 다음 섹션에서 다룹니다).

장기적인 연구 작업(Long-horizon research tasks)은 현재 에이전트 설계의 근본적인 과제를 노출시킵니다: 시간이 지남에 따라 깨끗하고 최적화된 컨텍스트 창을 유지하는 작업입니다. 만약 컨텍스트 큐레이션(curating context)이 엔지니어가 수행해야 하는 작업이 아니라면...

AI 자동 생성 콘텐츠

원문 바로가기

심층 연구 구축: 최첨단에 도달한 방법

요약

핵심 포인트

심층 연구 구축: 최첨단에 도달한 방법

댓글