.png)
LangSmith와 LangChain OSS가 EU AI Act 요구사항 준수를 돕는 방법
요약
EU AI Act는 고위험 AI 시스템을 대상으로 리스크 관리, 자동 로깅, 투명성 및 인간의 감독 등 엄격한 준수 사항을 요구합니다. LangSmith와 LangChain OSS는 에이전트의 추론 과정과 도구 호출을 포함한 전체 실행 단계를 추적하고 관찰할 수 있는 인프라를 제공하여 이러한 규제 요구사항을 충족하도록 돕습니다.
핵심 포인트
- EU AI Act는 고위험 AI 시스템에 대해 리스크 관리, 자동 이벤트 로깅, 투명성, 인간의 감독 등을 의무화함
- 규정 미준수 시 최대 1,500만 유로 또는 전 세계 연간 매출액의 3%에 달하는 막대한 벌금이 부과될 수 있음
- LangSmith는 엔드 투 엔드 추적(End-to-end tracing)을 통해 LLM 호출, 도구 호출, 추론 단계를 구조화된 메타데이터와 함께 캡처함
- LangSmith의 관찰 가능성(Observability) 기능은 법안이 요구하는 추적 가능하고 해석 가능한 결정 과정을 지원함
EU AI Act 준수 마감일은 2026년 8월 2일입니다.
EU AI Act는 AI 시스템을 위한 최초의 포괄적인 규제입니다. 만약 여러분이 금융 서비스, 의료, 인사(HR), 제조 또는 핵심 인프라와 같이 EU 내에서 고위험(high-risk) AI 시스템을 구축하거나 배포하고 있다면, 시간은 계속 흐르고 있습니다. 고위험 규정을 준수하지 않을 경우 최대 1,500만 유로 또는 전 세계 연간 총 매출액의 3% 중 더 높은 금액의 벌금이 부과될 수 있습니다. 리스크 관리 시스템(Risk management systems), 자동 이벤트 로깅(automatic event logging), 배포자에 대한 투명성(transparency to deployers), 인간의 감독 메커니즘(human oversight mechanisms), 사후 시장 모니터링(post-market monitoring), 그리고 사고 보고(incident reporting)가 모두 작동해야 합니다.
많은 팀이 정책 작업을 시작했지만, 이를 뒷받침할 운영 인프라(operational infrastructure) 또한 구축해야 합니다.
이 법안은 신용 점수 산정, 의료 기기, 채용, 생체 인식, 핵심 인프라, 법 집행 등에서 사용되는 시스템으로 정의된 고위험 AI 시스템을 대상으로 합니다. 만약 여러분이 이러한 카테고리 중 하나에서 에이전트(agents)를 구축하고 있다면, 리스크 관리 시스템을 구축하고, 에이전트의 행동을 로깅하며, 출력값을 배포자에게 투명하게 공개하고, 인간이 개입할 수 있도록 유지하며, 배포 후 행동을 지속적으로 모니터링해야 하는 요구사항이 적용됩니다.
이러한 요구사항은 추론(reason)하고, 컨텍스트를 검색(retrieve context)하며, 도구를 호출(call tools)하고, 다단계 결정(multi-step decisions)을 내리는 에이전트를 포함한 모든 AI 시스템을 위해 작성되었습니다.
아래에서는 EU AI Act가 무엇을 요구하는지, 그리고 LangSmith와 LangChain OSS 제품이 각 요구사항을 충족하도록 어떻게 돕는지 자세히 설명합니다. 빠른 비교를 원하시면 마지막에 있는 표를 참조하십시오.
관찰 가능성(Observability) 및 트레이싱(tracing): 전체 실행 캡처
규제 기관은 AI 시스템이 취하는 조치에 대한 기록을 원합니다. 다단계 결정을 내리는 에이전트의 경우, 입력(inputs), 추론(reasoning), 도구 호출(tool calls), 그리고 출력(outputs)을 포함한 전체 스레드를 추적(trace)하는 것이 권장되는 관행입니다.
법안 요구사항:
- 제9조(Article 9)는 개발 수명 주기 전반에 걸친 살아있는 리스크 관리 시스템(living risk management system)을 요구합니다.
- 제12조(Article 12)는 리스크를 식별하고, 사후 시장 모니터링(post-market monitoring)을 지원하며, 배포자(deployers)의 운영 감독(operational oversight)을 가능하게 할 만큼 충분한, 시스템 수명 동안의 자동 이벤트 로깅(automatic event logging)을 요구합니다.
- 제13조(Article 13)는 추적 가능하고(traceable) 해석 가능한(interpretable) 결정을 요구합니다.
LangSmith는 에이전트 실행의 모든 단계에 대해 완전한 관찰 가능성(observability)과 평가(evaluation) 도구를 제공합니다.
LangSmith가 제공하는 기능:
**엔드 투 엔드 추적(End-to-end tracing)**은 모든 LLM 호출, 도구 호출(tool invocation), 그리고 추론 단계(reasoning step)를 입력값(inputs), 출력값(outputs), 타임스탬프(timestamps), 에이전트 컨텍스트(agent context)와 같은 구조화된 메타데이터와 함께 캡처합니다. LangSmith Studio는 상태 전이(state transitions)와 도구 호출을 포함한 전체 실행 그래프(execution graph)를 시각화하여, 에이전트의 의사 결정 과정을 단계별로 검사할 수 있게 합니다. LangSmith Insights Agent는 추적 데이터(trace data)를 처리하여 반복되는 패턴을 자동으로 식별하고 클러스터링하며, 수동 검토가 필요했을 실패 모드(failure modes)와 사용 트렌드를 표면화합니다. **맞춤형 대시보드(Custom dashboards)**는 리스크 점수를 추적하고, 지표가 임계값(threshold)을 초과할 때 PagerDuty 또는 웹훅(webhooks)을 통해 알림을 트리거합니다.
보존 및 저장(Retention and storage):
셀프 호스팅(Self-hosted), BYOC(Bring Your Own Cloud), 그리고 관리형 클라우드(managed cloud) 배포 옵션을 통해 로그가 저장되는 위치와 보존 기간을 직접 제어할 수 있습니다.
관리형 클라우드에서는 단기 디버깅 및 임시 분석(ad-hoc analysis)을 위해 기본 추적(base traces)이 14일 동안 보존됩니다. 확장 추적(Extended traces)은 지속적인 모델 개선, 평가 및 인간 피드백(human feedback)을 목적으로 400일 동안 보존됩니다. 기본 추적을 언제든지 확장 추적으로 업그레이드할 수 있으며, 장기 보관을 위해 추적 데이터를 일괄 내보내기(bulk export)할 수 있습니다.
특히 EU 데이터 거주성(data residency) 요구사항의 경우, LangSmith EU는 모든 추적 데이터를 관할 구역(in-jurisdiction) 내에 유지합니다. 셀프 호스팅 및 BYOC 옵션을 사용하면 전체 스택이 사용자의 Kubernetes 클러스터 또는 클라우드 리전에서 실행됩니다. 데이터는 사용자의 경계(perimeter)를 절대 벗어나지 않습니다.
평가자(Evaluators): 지속적인 품질 및 안전성 점수 산정
EU AI Act는 프로덕션 트래픽(production traffic)에 대한 평가를 포함하여 지속적인 측정을 요구합니다.
법안의 요구사항: 여러 조항에서 에이전트(agent) 출력에 대한 지속적인 측정을 요구합니다:
- 제10조는 개발 및 테스트 데이터셋 전반에 걸친 데이터 거버넌스(data governance)와 편향성 검토(bias examination)를 요구합니다.
- 제13조는 배포자(deployers)가 출력을 해석하고 적절하게 사용할 수 있을 만큼 시스템이 충분히 투명할 것을 요구합니다.
- 제15조는 선언된 정확도 수준과 관련 정확도 지표(accuracy metrics), 적대적 회복탄력성(adversarial resilience), 그리고 일반적인 공격 표면(attack surfaces)에 대한 보호를 요구합니다.
LangSmith의 온라인 평가기(online evaluators)는 사용자가 정의한 필터를 통해 프로덕션 트레이스(production traces)의 구성 가능한 샘플을 지속적으로 점수화합니다. 각 점수는 전체 트레이스 컨텍스트(trace context)와 함께 기록되어 증거 추적 경로(evidence trail)를 제공합니다. 지표가 임계값(threshold)을 넘어서면 PagerDuty 또는 웹후크(webhooks)를 통해 알림이 발생합니다.
LangSmith는 이 모든 영역에 대해 사전 구축된 평가기(prebuilt evaluators)를 제공합니다:
- 편향성 및 공정성 (Bias and fairness): 인종, 성별, 연령, 종교, 국적, 장애, 성적 지향과 같은 특성에 기반함
- 유해성 (Toxicity): 개인 또는 집단에 대한 유해성
- 민감한 이미지 및 노골적인 콘텐츠 (Sensitive imagery and explicit content)
- 환각 및 답변 관련성 (Hallucination and answer relevance): 사용자를 오도하는 출력을 포착하기 위함
- 개인정보(PII) 유출 (PII leakage): 민감한 속성의 우발적 노출을 표시하기 위함
- 프롬프트 인젝션 및 탈옥 (Prompt injection and jailbreaking): 적대적 입력(adversarial input) 탐지를 위함
- API 유출 및 코드 인젝션 (API leakage and code injection): 도구 호출(tool-calling) 에이전트의 일반적인 공격 표면을 다룸
- 정확성, 완전 일치, 계획 준수 및 작업 완료 (Correctness, exact match, plan adherence, and task completion): 정확도 측정을 위함
- 도구 선택 및 계획 준수 (Tool selection and plan adherence): 에이전트의 의사결정 품질을 점수화하기 위함
모든 평가기는 커스터마이징이 가능하며, 귀하의 사용 사례(use case)에 특화된 동작을 위한 새로운 평가기를 생성할 수 있습니다.
인간의 감독: 중단, 검토 및 에스컬레이션
인간의 감독(Human oversight)은 이 법안의 핵심 원칙 중 하나입니다. AI 시스템에 의해 내려지는 중대한 결정은 사람이 이의를 제기하고 수정할 수 있어야 합니다. 실제로 이는 정의된 에스컬레이션 경로(escalation paths), 구조화된 검토 워크플로(review workflows), 그리고 개입이 발생했다는 감사 증거(audit evidence)와 함께 아키텍처 내에 감독 기능을 구축하는 것을 의미합니다.
에이전트 시스템(agentic systems)의 경우, 이는 더욱 큰 비중을 차지합니다. 다단계 결정을 내리는 에이전트는 사람이 오류를 발견할 기회를 갖기도 전에 오류를 누적시킬 수 있습니다. 어떤 경우에는 실행 그래프(execution graph) 자체에 감독 메커니즘이 내장되어야 합니다.
법안의 요구사항: 제14조는 인간이 시스템을 이해하고, 개입하며, 무시(override)하고, 중단할 수 있어야 한다고 규정합니다.
LangSmith가 제공하는 기능:
**LangGraph의 중단 프리미티브(interrupt primitive)**는 인간 참여형(human-in-the-loop, HITL) 방식을 에이전트 그래프의 일급 시민(first-class part)으로 만듭니다. 실행을 일시 중지하고, 상태를 검사하고, 수정하며, 임의의 노드에서 재개할 수 있습니다. LangSmith Deployment는 그 아래에서 내구성이 있는 런타임(runtime)을 제공합니다. 즉, 자동 체크포인팅(automatic checkpointing), 정확히 한 번 실행(exactly-once execution), 그리고 일시 중지된 실행에 대해 정확한 지점부터 재개하는 복구(resume-from-exact-point recovery) 기능을 제공합니다. 이를 통해 프로덕션 환경에서 신뢰할 수 있는 HITL 중단 기능을 보장합니다. **어노테이션 큐(Annotation queues)**는 프로덕션 트레이스(production traces)를 인간 검토자에게 전달하여 구조화된 피드백을 받을 수 있게 합니다. **웹훅(Webhooks)**은 평가자가 정의된 임계값을 초과하거나 중단 이벤트가 발생할 때 트리거되어, PagerDuty 또는 선호하는 사고 대응 시스템을 통해 적절한 담당자에게 알림을 보낼 수 있게 합니다.
시작하는 방법
8월 2일이 다가오고 있습니다. 고위험 AI 시스템을 운영하는 팀을 위해, LangSmith가 법안의 핵심 기술 요구사항을 충족하도록 돕는 방법은 다음과 같습니다.
**관측성(Observability) 및 트레이싱(tracing)**은 기초입니다. 모든 도구 호출(tool call), 검색 단계(retrieval step), 추론 노드(reasoning node)에 걸친 전체 트레이싱은 감사 추적(audit trail)과 평가(evaluations)를 실행할 수 있는 기반을 제공합니다.
편향(bias), 환각(hallucination), 독성(toxicity), 정확성(accuracy) 및 적대적 입력(adversarial inputs)에 대한 점수 산정을 포함하여, 프로덕션 트래픽에 대한 **평가(Evaluations)**를 수행함으로써 법안의 사후 시장 모니터링(post-market monitoring) 요구사항을 해결합니다.
**인간 참여형(Human-in-the-loop)**은 아키텍처 요구사항입니다. 법안은 인간이 시스템에 개입하고, 무시하며, 중단할 수 있어야 한다고 요구합니다. LangGraph의 중단 프리미티브와 LangSmith의 어노테이션 큐는 해당 메커니즘을 감사 가능하게(auditable) 만듭니다.
EU 데이터 거주성(data residency) 요구사항을 충족하려면 배포 방식 또한 중요합니다. LangSmith의 EU SaaS, BYOC(Bring Your Own Cloud), 그리고 완전한 셀프 호스팅(self-hosted) 옵션은 프로덕션 환경의 에이전트 워크로드(agent workloads)를 위해 설계되었습니다. 적절한 선택은 얼마나 많은 운영 제어권(operational control)이 필요한지에 따라 달라지며, 저희는 그 트레이드오프(tradeoffs)를 함께 검토해 드릴 준비가 되어 있습니다.
이것들은 팀들이 프로덕션 환경에서 에이전트를 원활하게 실행하기 위해 이미 따르고 있는 것과 동일한 관행들입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 LangChain Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기