모델 성능이 좋다고 해서 당신의 AI 에이전트가 HIPAA를 준수하는 것은 아닙니다

2026년에는 모든 사람이 AI 에이전트를 출시했습니다. 하지만 감사(audit)에서 방어할 수 있는 에이전트를 출시한 사람은 훨씬 적습니다. 설문조사 결과는 계속해서 동일한 격차를 발견하고 있습니다. 대부분의 보안 책임자들은 AI 에이전트 리스크를 걱정하고 있지만, 실제로 그 주변에 성숙한 통제(controls)를 구축한 곳은 극소수에 불과합니다. 팀들은 거버넌스(governance)를 구축하는 속도보다 더 빠르게 에이전트를 배포하고 있으며, 의료, 금융 또는 규제 대상 산업에서는 이러한 상황이 훌륭한 데모를 보고 대상이 되는 데이터 유출 사고(breach)로 만드는 원인이 됩니다.

그 밑바탕에는 다음과 같은 범주 오류(category error)가 있습니다: 유능한 모델이 곧 준수하는 시스템(compliant system)은 아닙니다. 세계 최고의 모델을 보호 대상 건강 정보(PHI)에 적용하더라도 여전히 심각하게 규정을 준수하지 못할 수 있습니다. 컴플라이언스(Compliance)는 모델의 속성이 아니라, 모델을 둘러싼 아키텍처(architecture)의 속성입니다. (우리는 이전에도 좋은 모델이 도구를 HIPAA 준수 상태로 만들지는 않는다고 주장한 바 있으며, 에이전트의 경우 그 격차는 더욱 벌어집니다.)

에이전트의 컴플라이언스 표면은 챗봇보다 더 넓습니다

챗봇은 읽고 답합니다. 하지만 _에이전트(agent)_는 무언가를 수행합니다. 도구를 호출하고, 데이터베이스를 쿼리하며, 기록을 작성하고, 메시지를 보내며, 대화의 흐름(turns) 전반에 걸쳐 기억합니다. 이 모든 과정은 규제 대상 데이터가 유출되거나 기록되지 않은 작업(unlogged action)이 발생할 수 있는 새로운 지점이 됩니다:

도구 호출 (Tool calls): PHI를 보유한 시스템에 접근하며, 각 도구는 비즈니스 파트너 계약(BAA)과 최소 권한 범위 지정(least-privilege scoping)이 필요한 새로운 데이터 경로가 됩니다.
자율적 행동 (Autonomous actions): 실제 상태를 변경할 수 있습니다 (예약, 취소, 환자에게 메시지 전송). 케어(care)에 영향을 미치는 모든 것은 블랙박스(black-box) 결정이 되어서는 안 됩니다.
메모리 및 로그 (Memory and logs): PHI를 조용히 지속시키며, 종종 아무도 비즈니스 파트너 계약(BAA)을 체결하지 않은 곳에 저장됩니다.
데이터 유출 (Data egress): 호스팅된 모델 제공업체로의 데이터 유출은 제3자에게 PHI를 전송하는 것입니다. 해당 제공업체와 BAA가 없다면 컴플라이언스는 없습니다. 그것으로 끝입니다.

모델은 리스크의 약 10%에 불과할지도 모릅니다. 나머지 90%는 에이전트가 접촉하도록 연결된 모든 것입니다.

규제 대상 데이터를 다루는 에이전트를 위한 거버넌스 체크리스트

에이전트가 PHI 근처에 간다면, 다음 사항들은 있으면 좋은 기능(nice-to-haves)이 아니라, "감사 준비 완료"와 "법적 책임(liability)" 사이의 차이를 결정짓는 요소입니다:

모델 제공자를 포함한 BAA 체인. 귀하를 대신하여 PHI(Protected Health Information, 보호 대상 건강 정보)를 처리하는 모든 서비스(클라우드, 데이터베이스, 그리고 LLM API)는 단 하나의 토큰이 흐르기 전에 서명된 BAA(Business Associate Agreement, 비즈니스 협력자 계약)를 체결해야 합니다. BAA가 없는 소비자용 LLM 엔드포인트는 즉각적인 규정 위반입니다.
모델이 확인하기 전에 PHI를 최소화하고 마스킹(masking)할 것. 경계 지점에서 식별자를 제거하거나 토큰화(tokenize)하십시오. 모델에 도달하는 PHI가 적을수록 데이터 유출 시 피해 범위(blast radius)가 줄어듭니다.
진료에 영향을 미치는 모든 사항에 대한 Human-in-the-loop(인간 개입). 치료, 자격 요건 또는 기타 임상적 사항에 대해 자율적인 결정을 내리는 것이 아니라, 측정된 정확도와 인간의 최종 승인이 결합되어야 합니다.
모든 작업 및 도구 호출(tool call)에 대한 변조 방지 감사 로그(Tamper-evident audit logging). 누가, 무엇을, 언제, 왜 했는지를 HIPAA의 6년 보관 요구 사항에 따라 기록해야 합니다. "에이전트가 새벽 2시에 무엇을 했는가?"에 대해 반드시 답할 수 있어야 합니다.
최소 권한 원칙의 도구(Least-privilege tools). 각 도구의 범위를 필요한 최소한의 데이터와 작업으로 제한하십시오. 모든 기록을 읽을 수 있는 에이전트는 결국 잘못된 기록을 읽게 될 것입니다.
PHI를 이용한 학습 금지. 귀하의 데이터가 제공자의 모델을 학습시키는 데 사용되지 않음을 계약상으로 확인하십시오.
측정 및 보고된 정확도. 평가는 구축 과정의 일부이지 출시 당일에 생각나는 부차적인 것이 아닙니다. 규제 환경에서는 이를 입증할 수 있어야 합니다.

"하지만 이건 그냥 RAG일 뿐인데요 / 읽기 전용인데요"

상관없습니다. 읽기 전용이라 하더라도 PHI가 임베딩(embedding)되고 저장되는 곳으로 유출된다는 사실은 변하지 않습니다. RAG 역시 환자 데이터를 벡터 스토어(vector store)와 프롬프트(prompt)에 넣게 됩니다. 감사관이 던지는 질문("데이터가 어디로 갔는가, 누가 볼 수 있는가, 무엇이 기록되었는가, 누가 BAA에 서명했는가")은 귀하의 에이전트가 무언가를 쓰는지 여부에는 관심이 없습니다. 그들은 데이터가 어디로 갔는지에 관심을 가집니다.

핵심 요약 (The takeaway)

규제 대상 AI 분야의 승자는 가장 화려한 에이전트를 가진 팀이 아닙니다. 데모에서 박수를 받은 뒤에 거버넌스를 덧붙인 팀이 아니라, 거버넌스를 설계 단계부터 포함시켜 에이전트가 감사를 통과할 수 있게 만든 팀입니다. 만약 귀하의 에이전트가 PHI(또는 PCI 규정에 따른 카드 데이터)를 다룬다면, 프레임워크를 먼저 구축하십시오. 그러면 모델을 다루는 것은 쉬운 부분이 될 것입니다.

이것이 바로 우리가 규제 산업을 위한 프로덕션 AI (Production AI)를 구축하는 방식입니다. 즉, 에이전트 거버넌스 (Agent Governance) 감사인이 실제로 요구하는 수준의 설계에 의한 준수 (compliance by design)를 구현하는 것입니다. 만약 당신의 제품이 통과해야 할 기준이 이와 같다면, 우리의 작업 방식은 다음과 같습니다.

규제 대상 데이터를 기반으로 에이전트를 운영하고 있다면, 현재 가장 어려운 거버넌스 (Governance) 문제는 무엇입니까? 로깅 (Logging), BAA (Business Associate Agreements), 아니면 사용자 경험 (UX)을 해치지 않으면서 인간 참여 (Human-in-the-loop)를 유지하는 것입니까?

Insights

모델 성능이 좋다고 해서 당신의 AI 에이전트가 HIPAA를 준수하는 것은 아닙니다

요약

핵심 포인트

에이전트의 컴플라이언스 표면은 챗봇보다 더 넓습니다

규제 대상 데이터를 다루는 에이전트를 위한 거버넌스 체크리스트

"하지만 이건 그냥 RAG일 뿐인데요 / 읽기 전용인데요"

핵심 요약 (The takeaway)

댓글

Cursor 3.9 출시: 스마트폰에서 AI 에이전트를 원격 제어할 수 있게 되었습니다

일본의 소규모 팀을 위한 셀프 호스팅(Self-hosted) 비즈니스 도구를 구축하고 있습니다

What’s !important #14: Gap Decorations, random(), <select> 필드 크기 조정 및 기타 사항

중국의 Zhipu AI, 취약점 탐지에서 Claude Mythos와 대등한 성능을 보이며 글로벌 사이버 보안 우려를 높이다

일본의 소규모 팀을 위한 셀프 호스팅(Self-hosted) 비즈니스 도구를 구축하고 있습니다

What’s !important #14: Gap Decorations, random(), <select> 필드 크기 조정 및 기타 사항

중국의 Zhipu AI, 취약점 탐지에서 Claude Mythos와 대등한 성능을 보이며 글로벌 사이버 보안 우려를 높이다