Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
LangChain Blog 84건필터 해제

Replit Agent의 복잡한 워크플로우를 통해 LangSmith의 한계를 넓히다
Replit은 Replit Agent의 복잡한 에이전트 워크플로우를 관리하기 위해 LangSmith와 협력하여 LLM 관측성 기능을 강화했습니다. 수백 개의 단계를 포함하는 대규모 트레이스 처리 성능을 개선하고, 트레이스 내부 검색 및 스레드 뷰 기능을 추가하여 디버깅 효율성을 높였습니다.

평가 주도 개발(Evaluation Driven Development)을 통한 LLM 신뢰성 확보 과정
Dosu는 오픈 소스 소프트웨어 유지관리의 비코딩 업무 부담을 줄여주는 AI 팀원입니다. Dosu 팀은 LLM의 확률적 특성으로 인한 신뢰성 문제를 해결하기 위해 '평가 주도 개발(Evaluation Driven Development, EDD)' 방식을 도입하여 제품의 성능을 지속적으로 개선하고 있습니다.

인간의 선호도에 맞춘 LLM-as-a-Judge 정렬
LLM 애플리케이션의 자연어 출력을 평가하기 위해 별도의 LLM을 사용하는 'LLM-as-a-Judge' 방식의 한계를 극복하는 새로운 솔루션을 소개합니다. LangSmith는 인간의 피드백을 퓨샷 예시로 저장하여 평가기가 스스로 개선되는 '자기 개선(Self-improvement)' 기능을 통해 프롬프트 엔지니어링 없이도 사용자 선호도를 반영할 수 있게 합니다.

메모리 검색(Memory Retrieval) 개선: New Computer가 LangSmith를 통해 리콜(Recall)을 50% 높인 방법
New Computer는 개인용 AI 'Dot'의 장기 메모리 시스템을 개선하기 위해 LangSmith를 활용하여 검색 성능을 최적화했습니다. 에이전트형 메모리(Agentic memory) 방식을 도입하고 합성 데이터를 통한 반복 실험을 거친 결과, 기존 베이스라인 대비 리콜(Recall) 50% 및 정밀도(Precision) 40% 향상을 달성했습니다.

AI 에이전트란 무엇인가?
AI 에이전트를 LLM이 애플리케이션의 제어 흐름(control flow)을 결정하는 시스템으로 정의하며, 에이전트의 능력을 단일 정의가 아닌 '에이전트적(agentic)'이라는 스펙트럼으로 이해할 것을 제안합니다. 시스템이 LLM을 통해 결정하는 비중이 높을수록 더 높은 수준의 에이전트적 특성을 갖게 됩니다.
.png)
에이전틱 엔지니어링 (Agentic Engineering): AI 에이전트 군집이 소프트웨어 엔지니어링을 재정의하는 방법
에이전틱 엔지니어링은 AI 에이전트들이 단순한 코드 생성을 넘어, 정의된 역할과 공유 메모리를 바탕으로 소프트웨어 전달 파이프라인 전체를 관리하는 다중 에이전트 조정 모델입니다. 실험 결과 디버깅 시간과 개발 워크플로우 실행 시간을 대폭 단축하며, 코드 생성보다는 다운스트림 테스트 압축에서 큰 효과를 보였습니다. 이는 단일 코딩 에이전트와 달리 소프트웨어 수명 주기 전반을 오케스트레이션하는 제어 평면 역할을 수행합니다.

LangSmith가 이제 Azure Marketplace에서 거래 가능한 서비스로 출시되었음을 발표합니다
LangSmith가 Azure Marketplace에 Azure Kubernetes Application으로 출시되어 기업들이 더욱 쉽게 구매하고 도입할 수 있게 되었습니다. LangSmith는 LLM 애플리케이션의 개발, 테스트, 모니터링을 지원하는 통합 DevOps 플랫폼으로, Microsoft와의 협력을 통해 강화된 데이터 보안과 컴플라이언스를 제공합니다.

에이전트 관측 가능성 (Agent Observability): 프로덕션 환경에서 LLM 에이전트를 모니터링하고 평가하는 방법
LLM 에이전트는 비결정론적 특성과 무한한 자연어 입력 공간으로 인해 전통적인 소프트웨어와는 다른 관측 가능성(Observability) 전략이 필요합니다. 본 글은 에이전트의 다단계 추론, 도구 호출, 검색 작업을 모니터링하고 프로덕션 트레이스를 통해 품질을 평가하는 방법론을 다룹니다.

LangSmith를 활용한 회귀 테스트 (Regression Testing)
LLM 애플리케이션의 성능을 지속적으로 추적하고 개선하기 위한 회귀 테스트(Regression Testing)의 중요성과 LangSmith의 접근 방식을 설명합니다. AI 테스트는 전통적인 소프트웨어 테스트와 달리 성능 추적과 실행 결과 간의 데이터 포인트 비교가 핵심이며, LangSmith는 이를 위해 비교 뷰와 지표 기반의 자동 강조 표시 기능을 제공합니다.

Open SWE: 내부 코딩 에이전트를 위한 오픈 소스 프레임워크
Open SWE는 Stripe, Ramp, Coinbase와 같은 기업들이 구축한 내부 코딩 에이전트의 공통적인 아키텍처 패턴을 구현한 오픈 소스 프레임워크입니다. Deep Agents와 LangGraph를 기반으로 하며, 격리된 샌드박스, 큐레이션된 도구 세트, 하위 에이전트 오케스트레이션 등 프로덕션 환경에 필수적인 구성 요소를 제공합니다.

테스트 실행 비교 (Test Run Comparisons)
LangChain은 LLM 애플리케이션 개발 시 프롬프트나 에이전트 변경 사항을 효과적으로 검증할 수 있도록 'Test Run Comparisons' 기능을 발표했습니다. 이 기능은 여러 테스트 실행 결과를 나란히 비교하여 입력값, 출력값, 평가 지표 등을 한눈에 확인할 수 있게 함으로써, 사용자가 LLM 보조 평가에 의존하기보다 직접 데이터를 수동으로 검토하며 직관을 얻을 수 있도록 돕습니다.

LangSmith Context Hub 소개
LangSmith가 에이전트의 성능을 결정짓는 핵심 요소인 컨텍스트(지침, 기술, 정책 등)를 중앙 집중적으로 관리할 수 있는 'Context Hub'를 출시했습니다. Context Hub는 엔지니어뿐만 아니라 도메인 전문가들도 쉽게 컨텍스트 파일을 저장, 버전 관리 및 협업할 수 있는 전용 저장 공간을 제공합니다.

LangSmith Sandboxes 정식 출시 (GA)
LangSmith Sandboxes가 정식 출시(GA)되어 하드웨어 가상화된 microVM 기반의 강력한 보안 격리 환경을 제공합니다. 이는 모델이 생성한 신뢰할 수 없는 코드를 실행할 때 발생할 수 있는 커널 수준의 보안 위협으로부터 사용자의 서비스를 보호합니다. 스냅샷, 블루프린트, CLI 등 에이전트 워크플로우를 위한 다양한 기능을 통해 프로덕션 환경에 적합한 실행 플랫폼을 구성합니다.
오픈 모델이 임계점을 넘었습니다
GLM-5 및 MiniMax M2.7과 같은 오픈 모델이 파일 작업, 도구 사용, 지시 이행 등 핵심 에이전트 작업에서 폐쇄형 프런티어 모델과 대등한 성능을 달성했습니다. 오픈 모델은 폐쇄형 모델 대비 훨씬 낮은 비용과 지연 시간(Latency)을 제공하여, 실제 프로덕션 환경의 에이전트 워크플로우를 구현하는 데 매우 효율적인 대안으로 부상했습니다.

에이전트 하네스(Agent Harness)의 구조
에이전트는 모델의 지능과 이를 유용하게 만드는 시스템인 '하네스(Harness)'의 결합으로 정의됩니다. 하네스는 모델이 수행할 수 없는 상태 유지, 코드 실행, 실시간 지식 접근 등의 기능을 제공하여 모델을 실제 작업 엔진으로 전환하는 역할을 합니다.

에이전트 관측 가능성 (Observability)을 위한 데이터 레이어, SmithDB를 구축했습니다
에이전트 트레이스의 폭발적인 데이터 증가와 복잡한 쿼리 패턴을 처리하기 위해 특수 설계된 분산 데이터베이스 SmithDB가 출시되었습니다. SmithDB는 기존 범용 데이터베이스의 한계를 넘어 멀티모달 콘텐츠와 중첩된 스팬을 효율적으로 관리하며, LangSmith의 핵심 워크로드를 최대 15배 빠르게 처리합니다.

Managed Deep Agents: 프로덕션급 딥 에이전트(Deep Agent)를 배포하는 가장 빠른 방법
LangSmith가 프로덕션급 딥 에이전트를 신속하게 배포할 수 있는 'Managed Deep Agents'를 프라이빗 베타로 출시했습니다. 이 서비스는 에이전트 구축에 필요한 내구성 있는 실행, 메모리, 샌드박스, 관측성 등의 복잡한 런타임 인프라를 관리형 API로 제공하여 개발자의 운영 부담을 줄여줍니다.

Interrupt에서 출시한 모든 것
Interrupt는 에이전트 개발 라이프사이클을 가속화하기 위한 다양한 신제품과 기능을 발표했습니다. LangSmith Engine을 통해 에이전트의 실패 사례를 자동으로 진단하고 수정 PR을 생성하며, SmithDB와 Managed Deep Agents를 통해 복잡한 에이전트 인프라 관리를 자동화합니다.

Deep Agents v0.6의 새로운 기능
Deep Agents v0.6는 오픈 웨이트 모델을 활용한 비용 효율적인 에이전트 실행, 체크포인트 저장 용량을 획기적으로 줄인 Delta 채널, 그리고 실시간 UI 구축을 위한 스트리밍 프리미티브를 도입했습니다. 또한, 에이전트가 직접 코드를 작성하고 실행할 수 있는 코드 인터프리터와 모델 불가지론적 PTC(Programmatic Tool Calling)를 통해 에이전트의 워크플로를 혁신합니다.

LangSmith Engine 소개
LangSmith Engine은 에이전트 개발 라이프사이클을 자동화하여 운영 환경의 실패 사례를 클러스터링하고 근본 원인을 진단합니다. 사용자는 Engine이 제안하는 수정 사항과 평가기 초안을 검토 및 병합함으로써 에이전트의 성능을 지속적으로 개선할 수 있습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.