Interrupt에서 출시한 모든 것

핵심 요약 (Key Takeaways)

에이전트 개발 라이프사이클 (agent development lifecycle) 가속화. LangSmith Engine이 프로덕션 트레이스 (production traces)를 모니터링하고, 실패 사례를 클러스터링하며, 수정 사항이 담긴 PR (Pull Request)을 생성합니다. 이를 통해 사용자는 문제를 찾아 헤매는 대신 개선 사항을 검토하는 데 집중할 수 있습니다.

사용자가 직접 할 필요 없도록 인프라 관리. Managed Deep Agents, SmithDB (핵심 LangSmith 워크로드에서 최대 15배 더 빠름), 그리고 Sandboxes GA (General Availability)를 통해 팀은 런타임 레이어 (runtime layer)를 직접 결합할 필요 없이 로컬 프로토타입에서 프로덕션으로 나아갈 수 있는 경로를 확보했습니다.

관측성 (Observability) 및 거버넌스 (governance) 동시 출시. Messages View는 멀티 턴 트레이스 (multi-turn traces)를 한눈에 읽을 수 있게 해주며, Context Hub는 에이전트가 따르는 지침과 정책의 버전을 관리합니다. 또한 LLM Gateway는 요청이 환경을 벗어나기 전에 지출 한도를 강제하고 개인정보 (PII)를 마스킹합니다.

오늘 Interrupt에서 우리는 팀의 에이전트 개발 라이프사이클을 가속화하는 데 도움이 될 수많은 신제품과 기능을 발표했습니다. 어떤 기능은 직접 구축하려면 몇 분기가 걸릴 인프라를 처리합니다. 다른 기능들은 무엇이 고장 났는지 찾고, 그 이유를 이해하며, 수정 사항을 더 빠르고 자동으로 배포할 수 있도록 돕습니다. 우리가 출시한 내용은 다음과 같습니다.

LangSmith Engine

지금까지 에이전트를 개선하는 과정은 트레이스를 읽고, 패턴을 찾고, 평가 (evals)를 작성하고, 수정 사항을 만드는 수동적인 과정이었습니다. LangSmith Engine은 이 루프를 대신 실행해 주는 자율 에이전트 (autonomous agent)입니다. 프로덕션 트레이스를 모니터링하고, 실패 사례를 이름이 지정된 이슈로 클러스터링하며, 코드를 바탕으로 근본 원인을 진단하고, 회귀 (regressions) 현상이 재발하지 않도록 수정 사항과 평가 커버리지 (eval coverage)를 제안합니다. 사용자는 개선 사항을 검토하고 병합하기만 하면 됩니다.

Engine이 제시하는 각 이슈에 대해 다음과 같은 작업을 수행할 수 있습니다:

타겟팅된 코드 또는 프롬프트 수정 사항이 포함된 PR (Pull Request) 생성
정확한 문제에 범위가 지정된 맞춤형 온라인 평가기 (online evaluator)를 생성하여, 재발 시 자동으로 다시 나타나도록 설정
실패한 트레이스를 오프라인 평가 (offline eval) 스위트에 정답 (ground truth) 예시로 추가

Engine은 LangSmith의 기존 트레이싱 (tracing) 및 평가 (evaluation) 인프라를 기반으로 구축되었으므로, 팀이 이미 실행 중인 워크플로에 바로 연결할 수 있습니다. Cogent와 Campfire은 이를 사용하여 수천 개의 트레이스에 영향을 미치는 문제를 해결했습니다. 현재 퍼블릭 베타 (public beta)로 이용 가능합니다.

SmithDB

SmithDB는 에이전트 관측성 (agent observability)을 위해 특수 제작된 데이터베이스로, 현재 LangSmith의 핵심 워크로드를 지원합니다. 에이전트 트레이스는 깊게 중첩된 스팬 (spans), 장시간 실행되는 작업, 그리고 몇 시간에 걸쳐 조각조각 도착하는 이벤트 등으로 인해 그 양과 크기가 폭발적으로 증가했습니다. 이를 분석하는 데 필요한 쿼리 패턴 (무작위 액세스 (random access), 대화형 필터링 (interactive filtering), 전체 텍스트 검색 (full-text search), JSON 필터링, 트리 인식 쿼리 (tree-aware queries), 스레드 재구성 (thread reconstruction), 집계 (aggregations))은 근본적으로 새로운 아키텍처를 요구합니다.

SmithDB는 Apache DataFusion과 Vortex를 기반으로 Rust로 구축되었으며, 내구성이 있는 트레이스 데이터를 위한 오브젝트 스토리지 (object storage), 소규모 Postgres 메타스토어 (metastore), 그리고 상태가 없는 (stateless) 수집 (ingestion), 쿼리, 컴팩션 (compaction) 서비스로 구성됩니다.

제공 기능:

성능 (Performance): 핵심 LangSmith 경험에서 최대 15배 더 빠르며, P50 트레이스 트리 로드 시간은 92ms, P50 단일 실행 (single run) 로드 시간은 71ms입니다.
이식성 (Portability): 오브젝트 스토리지 기반의 상태가 없는 (stateless) 구조이므로, 컴퓨팅 자원을 추가함으로써 확장할 수 있으며, 기존의 데이터베이스 클러스터보다 셀프 호스팅 (self-hosted) 및 멀티 클라우드 (multi-cloud) 환경에서 실행하기가 훨씬 쉽습니다.
에이전트 네이티브 쿼리 패턴 (Agent-native query patterns): 실행당 여러 이벤트가 포함된 장시간 실행 스팬, 대용량 페이로드 (payloads), 전체 텍스트 검색, 그리고 1초 미만의 지연 시간 (latency)을 가진 JSON 필터링에 최적화되어 설계되었습니다.

Managed Deep Agents

Managed Deep Agents는 개발자에게 LangSmith에서 딥 에이전트 (deep agents)를 생성, 실행 및 운영할 수 있는 API 우선 (API-first) 호스팅 런타임 (runtime)을 제공합니다. 오픈 소스인 Deep Agents 하네스 (harness)를 기반으로 구축된 이 서비스는 팀이 자체 에이전트 서버를 구축하거나 모든 에이전트마다 런타임 인프라를 새로 만들 필요 없이, 계획을 세우고, 도구를 사용하며, 하위 에이전트 (subagents)에게 위임하고, 파일을 작성하며, 더 긴 타임라인에 걸쳐 작업할 수 있는 에이전트를 지원합니다.

이것은 내구성이 있는 실행 (durable execution), 지속적인 컨텍스트 (persistent context), 도구 액세스 (tool access), 샌드박스 기반 코드 실행 (sandboxed code execution), 그리고 프로덕션 가시성 (production visibility)이 필요한 에이전트를 위해 설계되었습니다. 개발자는 익숙한 Deep Agents 프로젝트 구조를 사용하여 에이전트를 정의할 수 있으며, /v1/deepagents API를 통해 프로그래밍 방식으로 에이전트를 관리하고, LangSmith에서 모든 실행 과정을 검사할 수 있습니다.

주요 기능:

관리형 런타임 (Managed runtime): API를 통해 딥 에이전트 (deep agents)를 생성, 업데이트, 관리 및 실행
내구성이 있는 스레드, 스트리밍 실행, 체크포인팅 (checkpointing), 그리고 인간 참여형 (human-in-the-loop) 워크플로우: 장기 실행 작업용
에이전트 컨텍스트 및 파일: AGENTS.md, skills/, subagents/, 그리고 tools.json 지원
컨텍스트 허브 (Context Hub): 실행 전반에 걸쳐 에이전트 메모리, 운영 노트, 사용자 선호도 및 프로젝트 컨텍스트를 유지하고 업데이트
샌드박스 기반 실행 (Sandbox-backed execution): 코드, 셸 명령 (shell commands), 파일 I/O, 데이터 분석 또는 아티팩트 생성이 필요한 에이전트용

LangSmith Sandboxes 정식 출시 (GA)

LangSmith Sandboxes는 에이전트를 위한 보안 코드 실행 환경입니다. 에이전트에게 파일 시스템, 셸 (shell), 패키지 관리자, 지속적인 상태 (persistent state), 그리고 네트워크 경계 (network boundary)를 갖춘 런타임을 제공하여, 에이전트가 코드를 작성하고, 의존성 (dependencies)을 설치하며, 테스트를 실행하고, 실패를 검사하며, 더 긴 세션에 걸쳐 작업을 계속할 수 있도록 합니다.

각 샌드박스는 하드웨어 가상화된 마이크로VM (microVM)에서 실행되며, 사용자의 서비스 및 다른 샌드박스로부터 격리됩니다. 이러한 격리는 모델이 생성한 코드, 외부 의존성 또는 사용자가 제공한 스크립트를 실행하는 에이전트에게 특히 중요합니다.

샌드박스는 팀이 이미 사용 중인 것과 동일한 LangSmith SDK 및 API 키를 통해 작동하므로, 팀은 런타임 계층을 직접 구축하지 않고도 Deep Agents, Open SWE, LangSmith Deployment, LangSmith Fleet 또는 커스텀 에이전트 워크플로우에 안전한 코드 실행 기능을 추가할 수 있습니다.

정식 출시 (GA) 버전의 주요 하이라이트:

스냅샷 (Snapshots) 및 저렴한 포크 (cheap forks): 샌드박스 (sandbox)를 캡처하거나 Docker 이미지로부터 생성한 다음, 쓰기 시 복사 (copy-on-write) 방식을 사용하여 해당 상태로부터 병렬 샌드박스를 포크 (fork)할 수 있습니다.

블루프린트 (Blueprints): 새로 생성되는 샌드박스가 최신 의존성 (dependencies), 리포지토리 (repo) 상태, 그리고 예열된 캐시 (warmed caches)를 갖춘 상태로 시작할 수 있도록 갱신 가능한 기본 환경을 정의합니다.

비활성 시 일시 중지 (Pause when inactive): 유휴 (idle) 상태의 샌드박스는 자동으로 일시 중지되어 팀이 사용하지 않는 리소스에 대해 비용을 지불하지 않도록 합니다.

샌드박스 CLI (Sandbox CLI): 샌드박스 관리, 스냅샷 빌드, 콘솔 열기, TCP 터널링을 수행하며 ssh, scp, rsync, sftp와 같은 도구를 사용할 수 있습니다.

커스텀 콜백을 포함한 인증 프록시 (Auth Proxy with custom callbacks): 네트워크 계층에서 자격 증명 (credentials)을 주입하여 비밀 정보 (secrets)가 런타임 (runtime)에 유입되지 않도록 하며, 커스텀 비밀 정보 해결 (secret resolution), 감사 훅 (audit hooks), 도메인 허용 목록 (allowlists) 또는 차단 목록 (denylists)을 지원합니다.

컨텍스트 허브 (Context Hub)

LangSmith Context Hub는 AGENTS.md 파일, 스킬 (skills), 정책 (policies), 예시 (examples) 및 에이전트가 읽고 따르는 기타 컨텍스트 번들 (context bundles)을 포함하여, 에이전트의 동작을 형성하는 파일들을 관리할 수 있는 중앙 집중식 장소를 팀에 제공합니다.

컨텍스트 (Context)는 종종 하네스 코드 (harness code)와는 다르게 관리됩니다. 팀이 지침 (instructions)을 개선하고, 예시를 업데이트하며, 정책을 추가하고, 무엇이 효과적인지 학습함에 따라 컨텍스트는 빠르게 변합니다. 또한 디자이너, 마케터, 지원 리드, 제품 관리자, 컴플라이언스 (compliance) 팀 및 기타 주제 전문가 (subject matter experts)를 포함하여 조직 전반의 사람들에 의해 형성됩니다. Context Hub는 이러한 워크플로우를 LangSmith로 가져와, 팀이 모든 것을 GitHub을 거치게 강제하지 않고도 에이전트 컨텍스트에 대해 협업할 수 있도록 합니다.

주요 기능은 다음과 같습니다:

버전 관리 (Versioning): 컨텍스트 파일의 변경 사항을 추적하고, 이전 버전을 검사하며, 필요할 때 롤백 (roll back)할 수 있습니다.

태그 (Tags): 버전에는 dev, staging 또는 prod와 같은 라벨을 지정하여 에이전트가 적절한 환경에서 적절한 컨텍스트를 사용하도록 합니다.

댓글 (Comments): 컨텍스트 변경 사항에 대해 팀원과 직접 협업할 수 있습니다.

Context Hub를 통해 팀은 컨텍스트를 에이전트 시스템의 일급 시민 (first-class part)으로 취급할 수 있으며, 에이전트의 동작을 결정하는 지침, 예시 및 정책을 관리하기 위한 공유된 워크플로우를 가질 수 있습니다.

LangSmith LLM 게이트웨이 (LangSmith LLM Gateway)

LangSmith LLM Gateway는 에이전트(agents)와 에이전트가 호출하는 LLM 제공업체(LLM providers) 사이에 위치하는 새로운 런타임 거버넌스 계층(runtime governance layer)입니다. 이 게이트웨이는 요청이 환경을 벗어나기 전에 지출 한도(spend limits)를 강제하고 민감한 데이터를 탐지하며, 모든 정책 이벤트는 이를 트리거한 트레이스(trace)와 함께 LangSmith로 직접 흐릅니다. 별도의 대시보드나 감사 파이프라인(audit pipelines)을 구축할 필요가 없습니다.

베타 버전에는 조직(organization), 워크스페이스(workspace), 사용자(user), API 키(API key) 수준의 엄격한 지출 상한선(hard spend caps) 및 실시간 비용 합산(real-time cost rollups), 요청 및 응답 모두에 대한 개인정보(PII) 및 비밀(secrets) 삭제(redaction), 계층화된 정책 강제(layered policy enforcement), 그리고 관리 작업에 대한 전체 감사 로깅(audit logging) 기능이 포함되어 있습니다. 설정 방법은 base_url을 교체하는 것만큼 간단합니다. LangSmith API 키를 사용하여 에이전트를 게이트웨이 엔드포인트(gateway endpoint)로 지정하고, 제공업체 키를 워크스페이스 비밀(workspace secrets)에 추가한 뒤, UI에서 정책을 구성하면 됩니다.

현재 프라이빗 베타(private beta)에서 제공되는 기능:

지출 한도 (Spend limits): 조직, 워크스페이스, 사용자 또는 API 키 수준에서 엄격한 상한선을 적용하며, 한도 도달 시 402 에러를 반환합니다.
실시간 지출 가시성 (Real-time spend visibility): 워크스페이스, 사용자 및 API 키별로 확인 가능합니다.
PII 및 비밀 탐지 (PII and secrets detection): 데이터가 모델이나 트레이스에 도달하기 전, 요청과 응답에서 민감한 데이터를 삭제합니다.
트레이스 연속성 (Trace continuity): 게이트웨이를 거친 프록시 호출(proxied calls)이 나머지 트레이스와 동일한 워크스페이스에 기록됩니다.
LangSmith Engine 통합 (LangSmith Engine integration): 정책 이벤트를 노출하여 분류(triage)할 수 있게 하며, 클릭 한 번으로 근본적인 트레이스로 드릴다운(drill down)할 수 있습니다.
감사 로깅 (Audit logging): 모든 관리 작업에 대해 제공되며, 별도의 파이프라인을 구축할 필요가 없습니다.

LangSmith Fleet: 새로운 기능

샌드박스 (Sandboxes)

이제 Fleet에 퍼블릭 베타(public beta)로 샌드박스(Sandbox) 액세스가 포함되어, 에이전트가 코드를 작성하고 실행할 수 있는 안전한 공간을 제공합니다. 이는 Fleet 에이전트가 도구(tools)를 호출하는 수준을 넘어 수행할 수 있는 범위를 확장합니다. 에이전트는 데이터를 분석하고, 파일을 변환하며, PDF나 PPTX 같은 형식을 생성하거나 편집할 수 있습니다. 또한 셸 명령(shell commands)을 실행하고, 종속성(dependencies)을 설치하며, 작업에 실제 실행 환경이 필요한 경우 코딩 에이전트(coding agents)처럼 동작할 수 있습니다.

각 샌드박스(sandbox)는 LangSmith Sandboxes를 기반으로 에이전트에게 격리된 파일 시스템(filesystem)과 명령 환경(command environment)을 제공합니다. Fleet에서 샌드박스는 채팅 스레드(chat thread) 또는 에이전트(agent) 단위로 범위를 지정할 수 있으므로, 에이전트가 여러 스레드에 걸쳐 동일한 환경을 재사용하거나 모든 채팅에서 동일한 컴퓨터를 재사용할 수 있습니다. 유휴(Idle) 상태의 샌드박스는 기본적으로 15분의 소프트 TTL(soft TTL)을 가지며, 이는 샌드박스의 콘텐츠를 파괴하지 않으면서 비활성 세션에 대한 지속적인 비용 발생을 방지하고 효율적인 경험을 유지합니다.

샌드박스(Sandboxes)를 통해 Fleet 에이전트는 다음과 같은 더 복잡한 작업을 수행할 수 있습니다:

데이터 분석 (Data analysis): 데이터셋(datasets)에 대해 코드를 실행하고, 입력을 변환하며, 구조화된 출력(structured outputs)을 생성합니다.
파일 생성 및 변환 (File generation and transformation): PDF, 스프레드시트(spreadsheets), 슬라이드 덱(slide decks)과 같은 파일을 생성, 편집, 병합, 검증 또는 변환합니다.
코딩 작업 (Coding tasks): 문제를 재현하고, 파일을 편집하며, 종속성(dependencies)을 설치하고, 테스트를 실행합니다.
로컬 도구 및 CLI (Local tools and CLIs): Fleet에 아직 일급 시민(first-class) 통합이 되어 있지 않은 서비스에 대해 명령줄 도구(command-line tools)나 로컬 MCP 서버를 사용합니다.
사전 구축된 코딩 에이전트 (Prebuilt coding agents): 스레드 전반에 걸쳐 파일, 명령 및 상태(state)를 유지하는 지속적인 작업 공간이 필요한 에이전트를 구동합니다 (아래의 사전 구축된 에이전트 섹션에서 자세히 확인하세요).

사전 구축된 에이전트 (Prebuilt agents)

LangChain 팀이 매일 사용하는 5가지 사전 구축된 에이전트(prebuilt agents)를 통해 Fleet 에이전트 템플릿을 확장하고 있습니다. 이 에이전트들은 여러 도구와 활동을 아우르는 복잡하고 오래 걸리는 작업을 처리합니다. 이 중 일부는 매우 정교하여 유사한 개념을 중심으로 기업 전체가 구축되기도 했습니다. 이 모든 에이전트는 Fleet에서 즉시 무료로 제공됩니다.

초기 템플릿을 출시한 이후, 우리는 맞춤화(customization)가 일반적인 에이전트와 실제 가치를 전달하는 에이전트를 구분 짓는 핵심이라는 것을 배웠습니다. 따라서 이제 모든 사전 구축된 에이전트에는 사용자의 컨텍스트(context)에 맞게 필요한 세부 정보를 요청하는 온보딩 흐름(onboarding flow)이 포함되어 있습니다. 예를 들어, GTM 에이전트는 산업군, 제품 및 고객에 대해 질문하여 계정(accounts)을 조사하고 아웃바운드(outbound) 초안을 작성하는 방식을 결정합니다. 그 이후에는 에이전트를 사용하고 피드백을 제공함으로써 에이전트를 더욱 정교하게 다듬을 수 있습니다.

새로운 사전 구축된 에이전트(pre-built agents):

코딩 에이전트 (Coding agent, Open SWE 기반): 사용자의 리포지토리(repo)에 연결하여 변경 사항 초안 작성부터 PR(Pull Request) 생성까지 코딩 작업을 엔드 투 엔드(end to end)로 처리합니다.

GTM 에이전트: 고객 상태 및 사용량에 관한 즉석 질문(ad hoc questions)에 답변하고, 문제를 식별하며, 아웃바운드 커뮤니케이션(outbound communications) 초안을 작성합니다. 영업 및 마케팅 팀을 위한 오른팔 역할을 합니다.

X 콘텐츠 매니저: 비즈니스와 관련된 주제를 위해 X(구 트위터)를 모니터링하고, 검토를 위한 게시물 초안을 작성하며, 비즈니스에 중요한 대화에 계속 참여할 수 있도록 돕습니다.

비서 (Executive assistant): 받은 편지함 분류(inbox triage), 일정 관리, 회의 준비를 처리하여 사용자가 판단이 필요한 업무에 집중할 수 있도록 합니다.

경쟁사 조사관 (Competitive researcher): 경쟁사 뉴스를 모니터링하고, 살아있는 배틀카드(living battlecards)를 유지하며, 경쟁 상황에 관한 즉석 질문에 답변합니다.

Fleet에 포함된 무료 모델 사용량

이제 Fleet을 시작하는 것이 그 어느 때보다 쉬워졌습니다. 개발자(Developer) 및 플러스(Plus) 플랜에는 이제 Fireworks의 추론(inference)을 통한 무료 모델 사용량이 포함됩니다. 몇 분 안에 자신만의 에이전트에게 업무를 위임해 보세요.

Deep Agents 0.6

Deep Agents v0.6은 에이전트 계층과 규모(scale)에서의 성능을 개선합니다. 이번 릴리스에는 프로그래밍 방식의 도구 호출(programmatic tool calling)을 위한 경량 코드 인터프리터(REPL), 에이전트 UI를 위한 타입 지정 스트리밍(typed streaming), 그리고 더 효율적인 체크포인트(checkpoint) 저장을 위한 DeltaChannel이 추가되었습니다.