LangSmith Sandboxes 정식 출시 (GA)

핵심 요약

LangSmith Sandboxes가 이제 GA(Generally Available)로 출시되었습니다 — 각 샌드박스(Sandbox)는 하드웨어 가상화된 마이크로VM(microVM)으로 실행되며, 사용자의 서비스 및 다른 샌드박스로부터 커널 수준에서 완전히 격리되어 있습니다. 이는 컨테이너(Container)만으로는 보장할 수 없는, 신뢰할 수 없는 모델 생성 코드를 실행하기 위한 진정한 보안을 제공합니다.
에이전트(Agent)에게는 단순한 "샌드박스" 기능이 아닌 실제 격리가 필요합니다 — Shai-Hulud npm 웜(worm)이나 Copy Fail CVE와 같은 실제 공급망 공격(Supply chain attacks) 및 커널 익스플로잇(Kernel exploits) 사례는, 에이전트 코드를 컨테이너나 평가 경계(Eval boundaries)에서 실행하는 것이 프로덕션 워크로드(Production workloads)에 있어 위험할 정도로 불충분함을 보여줍니다.
GA 버전은 에이전트 워크플로우를 위한 강력한 새로운 프리미티브(Primitives)를 제공합니다 — 스냅샷(Snapshots) 및 저렴한 복사 시 쓰기(Copy-on-write) 포크(Forks), 사전 예열된 환경을 위한 블루프린트(Blueprints), 서비스 URL(Service URLs), 샌드박스 CLI(Sandbox CLI), 그리고 인증 프록시(Auth Proxy)를 통해 LangSmith Sandboxes는 완전한 실행 플랫폼을 구성합니다.

오늘, LangSmith Sandboxes가 정식 출시(GA)되었습니다. 이는 에이전트 코드 실행을 위해 구축된 보안적이고 확장 가능한 환경이며, Deep Agents SDK 및 LangSmith 플랫폼과 통합되어 있습니다.

각 샌드박스는 하드웨어 가상화된 마이크로VM(microVM)이며, 사용자의 서비스 및 다른 샌드박스로부터 커널 수준에서 격리됩니다. 샌드박스는 LangSmith의 나머지 부분과 동일한 SDK 및 API 키를 사용하며, 모든 프레임워크 또는 커스텀 코드와 함께 작동합니다.

왜 에이전트에게 샌드박스가 필요한가요?

지난 1년 동안, 새로운 유형의 에이전트들이 핵심 워크플로우의 일부로 코드 실행(Code execution)을 사용하기 시작했습니다. Cursor, Claude Code, OpenSWE, Deep Agents와 같은 시스템은 단순히 미리 정의된 도구를 호출하는 데 그치지 않습니다. 이들은 코드를 생성하고, 의존성(Dependencies)을 설치하며, 테스트를 실행하고, 실패를 조사하며, 파일을 편집합니다.

코드 실행이 필요한 몇 가지 일반적인 워크로드:

응답하기 전에 자신의 출력을 실행하고 검증하는 코딩 어시스턴트 (Coding assistant)
저장소를 클론하고, 의존성을 설치하고, 테스트를 실행하며, PR을 생성하는 CI 스타일 에이전트 (CI-style agent) (예: OpenSWE)
데이터셋에 대해 Python을 실행하는 데이터 분석 에이전트 (Data analysis agent)

이러한 에이전트(Agents)들은 파일 시스템(Filesystem), 패키지 관리자(Package manager), 셸(Shell), 그리고 지속적인 상태(Persistent state)를 갖춘 컴퓨터와 유사한 환경이 필요합니다. 또한, 이들이 실행하는 코드가 모델에 의해 생성되거나, 외부 의존성(External dependency)에서 가져오거나, 사용자에 의해 제공될 수 있기 때문에 격리(Isolation)도 반드시 필요합니다.

대부분의 팀은 노트북에서 이를 실행하는 것으로 시작합니다. 프로토타입(Prototype) 단계에서는 작동할지 모르지만, 프로덕션(Production) 환경에서는 한계에 부딪힙니다.

에이전트 코드는 강력한 격리가 필요합니다

실제 격리 경계(Isolation boundary) 외부에서 에이전트 코드를 실행할 때 발생하는 위험은 이론적인 수준에 그치지 않습니다.

공급망 공격(Supply-chain attacks)이 런타임(Runtime)까지 침투할 수 있습니다: 2025년 9월, 자기 복제형 Shai-Hulud npm 웜(Worm)은 @ctrl/tinycolor를 포함한 500개 이상의 패키지에 백도어(Backdoor)를 심었으며, 어떤 테스트가 실행되기도 전인 preinstall 단계에서 실행되었습니다. 11월에 발생한 두 번째 파동은 단 몇 시간 만에 796개의 패키지(주간 다운로드 수 2,000만 회 이상)와 25,000개 이상의 GitHub 리포지토리(Repos)를 타격했습니다.

"샌드박스(Sandbox)" 기능이 항상 샌드박스인 것은 아닙니다: n8n은 단 하루 만에 6개의 RCE CVE를 공개했는데, 여기에는 JS 표현식 샌드박스를 우회하는 CVE-2026-1470 (CVSS 9.9)과 Python 작업 실행기(Task executor)를 탈출하는 CVE-2026-0863이 포함되었습니다. JS의 eval 경계는 격리가 아닙니다.

컨테이너(Containers)는 커널(Kernel)을 공유하며, 커널은 깨질 수 있습니다: Copy Fail (CVE-2026-31431)은 커널 암호 API(Kernel crypto API)를 통해 2017년 이후의 모든 주요 리눅스 배포판(Linux distribution)의 루트(Root) 권한을 탈취하는 732바이트 크기의 Python 스크립트입니다. AI 툴링(Tooling)이 이를 약 한 시간 만에 찾아냈습니다. 컨테이너는 호스트와 커널을 공유하기 때문에 잘못된 스크립트를 실행하는 에이전트가 탈출할 수 있어 이 문제에 도움이 되지 않습니다.

컨테이너는 에이전트 워크로드(Agent workloads)를 위해 만들어지지 않았습니다. 컨테이너는 고정된 작업을 처리하고 사라지는 웹 서버와 같이, 검증된 애플리케이션 코드(Application code)를 상태가 없는(Stateless) 방식으로 실행하도록 설계되었습니다. 에이전트는 그 반대입니다. 에이전트는 패키지를 설치하고, 파일을 편집하며, 장기 실행되는 작업 스레드(Threads of work)를 따르고, 중단했던 지점으로 다시 돌아올 수 있는 상태가 있는(Stateful) 작은 컴퓨터를 원합니다. 그리고 이들이 실행하는 코드는 정의상 신뢰할 수 없습니다(Untrusted). LangSmith Sandboxes는 바로 그러한 실행 모델(Execution model)을 위해 구축되었습니다.

LangSmith Sandboxes

LangSmith Sandboxes는 에이전트(Agent)가 귀하의 인프라를 위험에 빠뜨리지 않고 사용할 수 있는 컴퓨터와 유사한 환경을 제공합니다. 각 샌드박스(Sandbox)는 자체 파일 시스템(Filesystem), 셸(Shell), 패키지 관리자(Package manager) 및 네트워크 경계(Network boundary)를 가진 일시적인 마이크로 VM(Ephemeral microVM)으로 실행됩니다. 에이전트는 코드를 작성하고, 종속성(Dependencies)을 설치하며, 테스트를 실행하고, 장기 실행 세션(Long-running sessions) 동안 작업을 계속할 수 있는 동시에, 샌드박스는 귀하의 서비스 및 다른 샌드박스로부터 격리된 상태를 유지합니다.

샌드박스는 팀이 이미 사용 중인 것과 동일한 LangSmith SDK 및 API 키를 통해 관리되므로, 런타임 계층(Runtime layer)을 직접 구축하지 않고도 에이전트 워크플로(Agent workflow)에 안전한 코드 실행을 결합할 수 있습니다. Sandboxes는 Deep Agents, Open SWE, LangSmith Deployment, LangSmith Fleet 및 커스텀 코드와 함께 작동합니다. 또한 자격 증명(Credentials), 리소스 제한(Resource limits), 라이프사이클(Lifecycle) 및 액세스(Access)에 대해 팀에 필요한 프로덕션 제어 기능을 포함하고 있으며, 이번 GA(General Availability)를 통해 병렬 워크로드(Parallel workloads), 스냅샷(Snapshotting) 및 엔터프라이즈 보안(Enterprise security)을 위한 새로운 기능이 추가되었습니다.

GA 출시와 함께 추가된 새로운 기능

스냅샷(Snapshots) 및 저렴한 포크(Forks): 실행 중인 샌드박스를 캡처하거나 Docker 이미지로부터 샌드박스를 구축한 다음, 이를 기반으로 새로운 샌드박스를 부팅할 수 있습니다. 포크(Forks)는 쓰기 시 복사(Copy-on-write) 방식을 통해 상태를 공유하므로, 10개의 병렬 브랜치를 생성하는 비용은 1개를 생성하는 비용과 거의 동일합니다. 에이전트가 잘못된 경로로 진행할 경우, 상태를 복구하고 다른 브랜치를 시도할 수 있습니다.

비활성 시 일시 중지(Pause when inactive): 유휴(Idle) 상태의 샌드박스는 자동으로 일시 중지되므로, 아무런 작업도 수행하지 않는 리소스에 대해 비용을 지불할 필요가 없습니다.

서비스 URL(Service URLs): 샌드박스 내부에서 실행되는 모든 항목에 대해 인증된 HTTP 액세스를 제공합니다. 샌드박스에서 호스팅되는 프리뷰를 브라우저에서 열거나, 스크립트에서 호출하거나, 팀원과 URL을 공유할 수 있습니다. 포트 포워딩(Port forwarding)이 필요하지 않습니다.

샌드박스 CLI(Sandbox CLI): Dockerfile로부터 스냅샷을 구축하고, 샌드박스를 관리하며, 대화형 콘솔을 열고, 로우 TCP(Raw TCP) 터널링을 수행하며, 표준 도구(ssh, scp, rsync, sftp)를 사용할 수 있습니다.

)을 일반적인 Linux 박스처럼 사용할 수 있습니다.

기본적으로 생성자 전용(Creator-private by default): Sandboxes에는 생성자 전용 인증(Auth)이 포함되어 있어, 샌드박스를 실행한 사용자(및 워크스페이스 관리자)만이 셸(Shell) 접속을 하거나 서비스 URL(Service URLs)을 열 수 있습니다. 공유할 준비가 되면 다른 워크스페이스 멤버에게 액세스 권한을 부여하세요.

커스텀 콜백(Callbacks)을 지원하는 인증 프록시(Auth Proxy): 샌드박스에서 나가는 아웃바운드 요청(Outbound requests)은 네트워크 계층에서 자격 증명(Credentials)을 주입하는 프록시를 통해 흐르므로, 비밀 정보(Secrets)가 런타임(Runtime)에 노출되지 않습니다. GA(General Availability)의 새로운 기능: 콜백을 통해 고급 설정(테넌트별 토큰, Vault 조회, 감사 훅(Audit hooks))을 위한 커스텀 비밀 정보 해결(Secret resolution) 기능을 연결할 수 있습니다. 또한 도메인 허용 목록(Allowlist)/차단 목록(Denylist)을 설정하여 액세스 경계(Access boundary)를 제어할 수 있습니다.

팀들이 Sandboxes를 사용하는 방식

Sandboxes는 팀들이 질문에 답하는 에이전트에서 안전하게 업무를 수행할 수 있는 에이전트로 전환하는 것을 이미 돕고 있습니다. monday.com의 경우, 이는 Sidekick에게 더 고급화된 사용자 워크플로(Workflows)를 위해 코드를 작성하고 실행할 수 있는 보안 환경을 제공하는 것을 의미합니다.

"LangSmith Sandboxes는 우리의 AI 어시스턴트인 Sidekick을 monday.com 사용자를 위해 훨씬 더 유능하게 만드는 데 도움을 주고 있습니다. 보안 환경을 통해 Sidekick은 코드를 작성하고 실행할 수 있으며, 그 결과를 사용하여 데이터 분석 및 멀티미디어 생성과 같은 더 풍부한 워크플로를 생성할 수 있습니다."

Omri Bruchim, monday.com AI 플랫폼 그룹 매니저

향후 계획

로컬-클라우드 에이전트(Local-to-cloud agents): 노트북의 샌드박스에서 에이전트를 개발한 다음, 코드 변경 없이 동일한 에이전트를 클라우드 호스팅 샌드박스로 승격시킬 수 있습니다.

공유 볼륨(Shared volumes): 에이전트 간의 협업이 가능해집니다. 에이전트 1이 볼륨에 내용을 작성하면, 에이전트 2가 중단된 지점부터 작업을 이어받습니다.

볼륨 마운트(Volume Mounts): 자체 Blob 스토리지나 Git 리포지토리(Repository)를 마운트하여 시작 시 즉시 액세스할 수 있습니다.

전체 실행 트레이싱(Full execution tracing): VM 내부의 모든 프로세스와 네트워크 호출을 추적하며, 이는 감사 로그(Audit log) 역할도 겸합니다.

여러분의 워크플로에서 가장 중요한 것이 무엇인지 공유하려면 저희 Slack 커뮤니티에 참여하세요.

시작하기

기존 SDK와 API 키를 사용하여 단 한 줄의 코드로 LangSmith Sandboxes를 사용하기 시작할 수 있습니다.

Insights