자율주행에서의 MLOps와 2026년 5월 현재의 동향 조사

지난 기사에서는 AWS를 활용한 「실운용을 의식한 최소 구성」을 주제로, MLOps의 전체상이나 데이터·특징량(Feature) 관리, 그리고 지속적 학습(CT)의 메커니즘에 대해 해설했습니다. 저 자신도 머신러닝 시스템을 파괴하지 않고 지속적으로 운용하기 위한 라이프사이클 설계에 대해 공통된 이해를 심화할 수 있었다고 느끼고 있습니다.

지난 기사는 여기를 참조하세요: AWS 구축을 상정한 MLOps 파이프라인의 전체상과 사고방식

이번에는 그 속편으로서, 자율주행 시스템에서의 차세대 MLOps 아키텍처에 대해 조사하였기에 기사로 작성해 보고자 합니다. 특히 2026년 5월에 발표된 「5계층 아키텍처(5-Tier Connected ADS MLOps Architecture)」(참고 논문: arXiv:2605.12719)가 흥미롭고 향후의 흐름이 되지 않을까 생각했기에, 본 기사에서의 차세대 MLOps 아키텍처는 해당 논문에서 소개된 것을 기준으로 기술하겠습니다.

본 기사는 다음과 같은 분들을 대상으로 작성되었습니다.

일반적인 MLOps의 전체상(데이터 관리나 파이프라인)을 이해하신 분
자율주행(AD/ADAS) 영역에서의 최첨단 소프트웨어 및 시스템 아키텍처 동향에 관심이 있는 분
「안전성 보증」과 「지속적 학습」을 고도로 양립시키는 실천적인 지능형 시스템 설계에 흥미가 있는 분

이번 기사는 머신러닝의 기초 지식이나 지난 기사와 같은 MLOps의 기본 개념을 이해하고 있다는 것을 전제로 합니다.

이 기사를 읽음으로써 다음과 같은 지식을 체계적으로 배울 수 있습니다.

일반적인 Web 계열 MLOps와 자율주행 MLOps의 결정적인 차이
커넥티드 자율주행을 위한 최신 레퍼런스 「5계층 아키텍처(5-Tier ADS MLOps Blueprint)」의 전체상
차량(Edge)과 클라우드(차량군=Fleet)를 잇는 자기 진화형 「집합 학습(Federated Learning)」의 메커니즘
자율주행 MLOps 특유의 「시뮬레이션(SIL/HIL) 검증」과 「안전성 케이스(Safety CCA)」의 구조
ROS2, Zenoh, AUTOSAR Adaptive와 같은 차량 탑재 특유의 기술 스택 정리

그럼, 일반적인 MLOps와 자율주행 MLOps의 차이부터 살펴보겠습니다.

자율주행 시스템의 개발 및 운용(이하, 자율주행 MLOps 또는 AVOps라고도 불립니다)은 일반적인 웹 서비스의 MLOps와는 그 설계 사상 및 평가 축이 다릅니다.

먼저 자율주행 문맥에서 빈번하게 등장하는 자동차 업계 특유의 필수 키워드를 정리하고, 일반적인 MLOps와의 차이점에 대해 풀어가겠습니다.

자율주행이나 차량용 소프트웨어 영역에서는 독자적인 전문 용어가 많이 사용됩니다. 초심자분들도 이해하기 쉽도록 그 본질적인 의미를 해설하겠습니다.

ADAS / AD (첨단 운전자 보조 시스템 / 자율주행)

ADAS(Advanced Driver Assistance Systems)는 충돌 피해 경감 브레이크나 차선 유지 지원 등 드라이버의 운전 조작을 서포트하는 시스템의 총칭입니다. 반면, AD(Autonomous Driving)는 시스템 스스로가 주체가 되어 운전을 수행하는 자율주행을 가리킵니다. 둘 다 카메라나 LiDAR와 같은 차량용 센서로부터 얻은 데이터를 고도의 AI 모델로 인식·판단한다는 점이 공통적입니다.

ODD (운행 설계 영역: Operational Design Domain)

자율주행 시스템이 안전하게 작동하기 위한 전제 조건(장소, 날씨, 속도, 시간대 등)의 정의입니다. 예를 들어 「고속도로 상에서만」, 「시속 60km 이하」, 「맑은 날씨에만」과 같은 제약입니다. 이 범위(ODD)를 벗어나는 경우에는 시스템이 드라이버에게 운전 교체를 권고하거나, 안전하게 차선에 정지하는 페일 세이프(Fail-safe) 동작을 수행해야 합니다.

DDT (동적 운전 작업: Dynamic Driving Task)

스티어링 조작, 가감속, 주변 감시, 합류나 차선 변경 판단 등 주행 중의 모든 운전 조작을 가리키는 용어입니다. 자율주행용 AI 모델은 바로 이 DDT를 인간 대신 수행하는 「두뇌」 역할을 합니다.

가장 큰 차이점은 평가 축이 「비즈니스의 이익(정확도)」에서 「인명(안전성)」으로 이동한다는 것입니다. 아래 표에 주요 관점에서의 차이를 정리했습니다.

평가 관점	일반적인 MLOps (웹 계열 등)	자율주행 MLOps
최우선 평가 지표	정밀도 (F1 Score, AUC 등)의 평균값	안전성 (치명적인 에지 케이스 (Edge Case) 배제)
모델 검증 방식	기존 테스트 데이터를 통한 오프라인 검증	가상 공간에서의 폐루프 시뮬레이션 (Closed-loop Simulation)
어노테이션 (Annotation)	인력 (크라우드소싱 등)에 의한 분류	자동 라벨링 (Auto-labeling) + 액티브 러닝 (Active Learning)
배포 목적	신기능 추가 및 비즈니스 로직 개선	ODD 내에서의 안전 케이스 (Safety Case) 지속적 강화
업데이트 파이프라인	CI/CD (지속적 통합/배포)	CI/CD/CT + SafetyOps

일반적인 MLOps에서는 모델의 예측 정밀도가 99.9%라면 대성공입니다. 하지만 자율주행에서는 10,000번 중 9,999번 전방의 보행자를 올바르게 검출하더라도, 남은 1번에서 검출을 실패하여 사고를 일으킨다면 용납되지 않습니다.

따라서 평균적인 정밀도의 높이뿐만 아니라, 극한 상태에서 발생하는 「실패 케이스 (Failure Case, 최악의 시나리오)」를 확실하게 제로에 가깝게 만드는 안전성 보증이 가장 중요하게 여겨집니다.

일반적인 머신러닝 모델은 미리 준비한 평가용 데이터셋을 입력하여 정답률을 측정하는 「오프라인 평가 (Offline Evaluation)」를 수행합니다.

하지만 차량의 운전은 AI의 출력(핸들을 꺾거나 브레이크를 밟는 행위)에 의해 주변 차량이나 도로 상황(다음 입력 데이터)이 시시각각 변화하는 「폐루프 (Closed-loop)」 동적 시스템입니다.

그렇기 때문에 고정된 데이터만으로 검증을 수행하는 데에는 한계가 있으며, 가상의 3D 공간에서 차량 모델을 실제로 주행시켜 거동을 검증하는 「시뮬레이션 (SimulationOps)」이 필수 프로세스가 되고 있습니다.

이처럼 자율주행 MLOps에서는 단순한 파이프라인 자동화에 그치지 않고, 자동차 업계가 오랜 기간 쌓아온 「안전성 보증 프로세스」와 융합하는 고도의 접근 방식이 요구됩니다.

다음으로, 이러한 엄격한 요구사항을 충족하기 위해 제안되고 있는 차세대 아키텍처 「5계층 구조 (5-Tier Structure)」의 전체상에 대해 해설하겠습니다.

자율주행 시스템의 안전성과 지속적 학습을 높은 차원에서 양립시키기 위해서는 어떤 시스템이 필요할까요?

여기서 주목해야 할 것이 앞서 언급한 「5계층 아키텍처 (5-Tier Connected ADS MLOps Architecture)」입니다.

기존의 MLOps는 클라우드 상의 「자동 훈련 파이프라인」이나 「API 배포」와 같이 시스템의 일부(점)에 초점을 맞춘 것이 주류였습니다.

하지만 실제 자율주행에서는 실차(에지, Edge)에서 전송되는 방대한 주행 로그를 효율적으로 집약하고, 클라우드에서 새로운 모델을 안전하게 학습 및 평가한 뒤, 다시 차량용 SoC로 배포하는 등 차량과 클라우드를 잇는 광범위한 시스템(선과 면)의 설계가 필요합니다. 나아가 최근 소프트웨어 정의 차량 (SDV: Software-Defined Vehicle)의 흐름에 따라, 자동차의 지능을 며칠 또는 몇 주 단위로 신속하게 업데이트하는 중요성이 커지고 있습니다.

이번에는 그 핵심이 되는 아키텍처로 제안되고 있는 「5계층 아키텍처 (5-Tier Connected ADS MLOps Architecture)」를 중심으로 소개하겠습니다.

이 「5계층 아키텍처 (5-Tier Connected ADS MLOps Architecture)」는 학술적인 이론만으로 갑자기 만들어진 것이 아닙니다. Tesla가 선구자로서 실용화한 「섀도우 모드 (Shadow Mode, 백그라운드 검증)」나 Waymo 등이 실전에 투입하고 있는 「폐루프 시뮬레이션 검증」, 나아가 독일의 산학관 메가 프로젝트인 「UNICARagil」(주요 자동차 제조사, 기술 벤더, 대학이 참여하는 차세대 자율주행 컨소시엄) 등에서 각 OEM과 공급업체가 부분적으로 개발, 제안, 구현해 온 기술과 설계 사상을 학술적으로 집약하여 자동차 업계 공통의 종합 설계도로 체계화한 것입니다.

단순한 「AI 모델 학습 플로우」가 아니라 인프라, 플릿 운영 (Fleet Operation), 차량 에지 제어, 그리고 안전성 평가 (SafetyOps)까지 일관되게 커버하고 있습니다.

이 아키텍처는 개발 계층 (Layer 1)부터 차량 운용 계층 (Layer 5)까지 총 5개의 계층으로 구성됩니다. 각 계층은 독립적이면서도 양방향 데이터 순환 루프를 통해 밀접하게 연계되어 있습니다.

아래에 그 전체 구조를 나타냅니다.

이 아키텍처의 핵심은 계층 간을 흐르는 양방향 데이터 순환 메커니즘입니다.

업스트림 (Upstream, UP): 위협 감지 및 상향 전송

실차가 물리 세계에서 마주친 '미세한 이상(Minor Anomaly)'이나, 신구 모델의 출력이 일치하지 않는 '괴리 데이터(Discrepancy Data)'를 감지하여 차량에서 플릿 데이터 스토어(FDS, Fleet Data Store)로 전송합니다. 그리고 플릿 전체의 '집단 학습 (Collective Learning)'을 통해 과신을 바로잡고, 최종적으로 '평가층'으로 위험 이벤트를 에스컬레이션(Escalation, 상향 보고)합니다. 이를 통해 현실 세계의 미지의 위기(블랙 스완 이벤트)를 기지의 에지 케이스(Edge Case)로 변환합니다.

다운스트림 (Downstream, DOWN): 적응과 배포

개발 및 학습된 새로운 AI 모델을 안전성 검증(HIL/SIL 테스트) 및 '안전성 케이스 신뢰성 평가 (Safety CCA, Safety Case Credibility Assessment)'라는 엄격한 게이트키퍼(Gatekeeper)를 통과시킵니다. 안전성이 확인 및 승인된 모델만이 'Valid App Registry (승인 앱 등록소)'에 등록되며, OTA (Over-The-Air: 무선 업데이트)를 통해 실차 (에지, Edge)로 안전하게 배포됩니다.

이 양방향 루프가 정상적으로 기능함으로써, 시스템은 자기 진화하는 지능으로서 기능하며 더욱 복잡한 환경으로 자율적으로 적응해 나가는 것이 가능해집니다.

이어지는 제4장에서는 이 전체 구조를 구성하는 5개 각 레이어(Layer)의 역할과, 다중 분기 피드백을 관장하는 핵심 게이트키퍼인 'Safety CCA'의 구체적인 기능에 대해 자세히 살펴보겠습니다.

3장에서는 실차와 클라우드를 잇는 차세대 '5층 아키텍처 (5-Layer Architecture)'의 전체 모습과, UP/DOWN 루프를 통한 양방향 데이터 순환에 대해 해설했습니다.

4장에서는 이 전체 구조를 구성하는 5개 각 레이어의 역할을 파헤쳐 보겠습니다. 다만, 각 레이어의 해설에 들어가기에 앞서, 우선 그것들의 연계와 검증을 뒷받침하는 3가지 난해한 키워드에 대해 사전에 알기 쉽게 정리해 두겠습니다.

이러한 기본 컨셉을 이해해 두면 각 계층의 역할을 훨씬 수월하게 이해할 수 있습니다.

자율주행 시스템의 검증 및 운용 프로세스를 뒷받침하는 매우 중요한 3가지 기본 개념입니다.

자율주행 시스템 검증에서는 실차에 갑자기 미검증 AI를 탑재할 수는 없습니다. 따라서 다음과 같은 두 가지 테스트 기법 (X-in-the-Loop)을 단계적으로 실시하여 안전성을 확인합니다.

SIL (Software-in-the-Loop): 가상의 시뮬레이터 상에 구축한 3D 공간과 가상의 차량 탑재 소프트웨어를 PC 내에서 연결하여 거동을 테스트하는 기법입니다. 모든 과정이 소프트웨어만으로 구성된 가상 환경에서 완결됩니다.
HIL (Hardware-in-the-Loop): 시뮬레이터 외부에 실제로 차량에 탑재되는 'SoC나 ECU (차량용 컴퓨터의 물리 기판)'를 직접 연결하여, 실제 전기 신호 레벨에서 정합성 및 처리 지연 등을 포함하여 테스트하는 기법입니다.

새롭게 개발된 AI 모델을 실제 운전 조작에는 영향을 주지 않는 '섀도우 모델 (Shadow Model)'로서 차량용 컴퓨터의 백그라운드에서 병렬 실행하는 검증 기법입니다.

실제 운전은 실적이 있는 현행 모델 (액티브 모델, Active Model)이 수행하지만, 섀도우 모델도 동시에 카메라 등의 센서 입력을 받아 '만약 내가 운전한다면 이렇게 하겠다'라는 예측을 계속 출력합니다. 그리고 양자의 판단이 엇갈린 '괴리 데이터 (Discrepancy Data)'를 감지하여 클라우드로 전송해 검증에 활용합니다. 이를 통해 승객이나 차량을 위험에 빠뜨리지 않고도 실제 주행 데이터에 기반한 신규 모델의 안전 평가를 수행할 수 있습니다.

한 대의 차량이 도로 위에서 '제대로 인식하지 못한 물체'나 '예기치 않은 거동 (운전자의 개입)'을 경험했을 때, 그 정보 (에지 케이스)를 플릿 전체로 집약하여 학습함으로써 플릿 내 모든 차량의 지능을 동시에 업데이트하는 메커니즘입니다. 인간이 '타인의 실수로부터 배우는' 것과 마찬가지로, 차량이 '다른 차량의 실수로부터 집단적으로 학습'함으로써 자기 진화의 속도를 극적으로 가속화합니다.

사전 지식이 정리되었으니, Layer 1~~5 각각의 역할을 상세히 살펴보겠습니다. 이 아키텍처는 개발·학습·평가를 수행하는 '클라우드 측 (Layer 1~~3)'과 플릿 전체의 통괄 및 실차 주행을 수행하는 '플릿·차량 에지 측 (Layer 4~5)'으로 나뉩니다.

Layer 1: Development (개발층)

수동으로 모델을 조립하는 것이 아니라, '자동으로 모델이 훈련·평가되는 파이프라인 (Pipeline, 체계)' 그 자체를 설계 및 구축하는 층입니다. 또한, 평가층으로부터 '분석 요청'이 내려왔을 때 데이터의 불일치나 잘못된 라벨링 등의 근본 원인을 탐구하는 거점이기도 합니다.

Layer 2: Model Training (모델 트레이닝층)

추론 환경(차량 에지)으로부터 완전히 분리된, 자동화된 모델 제조 팩토리입니다. 특징량(Feature)을 일원 관리하는 「Feature Store(특징량 스토어)」를 사용하여 데이터의 재사용성을 높이고, 자동으로 학습 및 단체 평가를 수행합니다. 완성된 모델은 성능 프로파일을 명시한 「앱(App)」으로 패키지화되어 앱 레지스트리(App Registry)에 등록됩니다. -
Layer 3: Assessment (평가층)

시스템 전체의 「창발적 행동 (Emergent Behavior: 개별 부분의 합을 넘어 시스템 전체로서 예기치 않게 나타나는 거동)」을 검증하는 매우 엄격한 게이트키퍼(Gatekeeper)입니다. 모델 단독의 정적인 테스트만으로는 불충분하기 때문에, 앞서 언급한 SIL/HIL 검증을 이용한 시스템 레벨에서의 동적인 안전성 테스트를 수행합니다. -
Layer 4: Fleet Operation (플릿 운영층)

도로를 달리는 다수의 차량으로부터 전송되는 정보를 매크로한 관점(차량군 = 플릿)에서 통괄하는 두뇌입니다. 실제 차량의 주행 데이터나 이상 데이터를 집약하여, 앞서 언급한 **연합 학습 (Federated Learning)**을 수행하여 지식을 업데이트합니다. 나아가, 새로운 앱을 안전하게 실제 차량에 배포하기 위한 카나리 배포(Canary Release)나 A/B 테스트, 주행 영역을 한정하는 ODD 배포 전략도 담당합니다. -
Layer 5: Vehicle Operation (차량 운영층)

물리적인 도로 위에서, 배포된 앱을 사용하여 「동적 운전 태스크 (DDT: Dynamic Driving Task: 실제 핸들이나 가속 페달 조작)」를 실행하는 차량 에지 그 자체입니다. 앞서 언급한 **섀도우 모드 (Shadow Mode)**를 통해 안전하게 실증 검증을 수행하며, 추론의 불확실성이나 기능 부전이 감지될 경우에는 즉시 페일 세이프 (Fail-safe: 최소 위험 동작)를 작동시킵니다.

평가층 (Layer 3)의 핵심 기능인 「Safety CCA (안전성 케이스 신뢰성 평가: Safety Criticality and Credibility Assessment)」는 시스템 전체의 안전성을 담보하기 위한 궁극적인 분기점(Gate)입니다. 검증된 애플리케이션에 대해, 그 결과에 기반하여 다음과 같은 4가지 서로 다른 액션으로 정확하게 분류합니다.

Valid App 승인 (배포 가능 승인)

SIL/HIL 검증에서 충분한 안전성이 증명된 앱에 대해, 배포 가능한 정식 버전으로서의 승인을 부여하고, Valid App Registry에 등록하여 플릿 운영층 (Layer 4)으로 배포를 지시합니다. -
섀도우 모드 지정 태그 부여

「시뮬레이션상에서는 합격했지만, 아직 안전을 위해 실제 주행에서 직접 핸들을 잡게 할 단계는 아니다」라고 판단된 앱에 대해, 섀도우 모드 전용 태그를 부여하여 플릿 배포로 넘깁니다. -
재학습 트리거

「특정 위험 시나리오에서 성능이 약간 부족하다」 등 추가 학습이 필요하다고 판단될 경우, 해당 에지 케이스(Edge Case) 데이터를 부여하여 트레이닝층 (Layer 2)에 자동 훈련 재시작을 지시합니다. -
분석 요청 (Revoke: 상태 박탈)

중대한 안전성 이탈(예를 들어, 시뮬레이션 내에서 장애물을 놓쳐 사고를 일으키는 등)이 확인될 경우, 즉시 해당 앱의 진행을 중단시키고, 상태를 즉각 박탈(Revoke)하여 개발층 (Layer 1)에 근본 원인 분석을 요청합니다.

이러한 다중 분기에 의한 철저한 검증과 피드백이 있기에, 자율주행 시스템은 안전성을 최우선으로 지키면서도 지속적이고 신속한 지능 업데이트를 실현할 수 있는 것입니다.

이어지는 제5장에서는 이러한 5층 아키텍처를 구현하기 위해 어떤 「구체적인 기술 스택과 도구」가 사용되고 있는지 해설합니다.

자율주행 MLOps를 실현하기 위해서는 일반적인 AI 개발에서 사용되는 데이터 관리 및 파이프라인 도구 외에도, 차량 시뮬레이터나 차량용 에지 대상 미들웨어와 같은 자동차 산업 특유의 기술을 조합해야 합니다.

5장에서는 이러한 기술 스택의 전체 맵과, 초보자에게는 생소할 수 있는 전문 도구 및 기반의 역할을 정리하여 해설합니다.

자율주행 MLOps의 각 프로세스에서 채택되는 주요 기술의 대비표입니다.

카테고리	OSS / 대표 기술	클라우드 / 매니지드	자율주행에서의 구체적인 역할
Orchestration	Kubeflow, Argo	SageMaker, Vertex AI	대규모 학습·검증 파이프라인의 자동화
Data Validation	Great Expectations	AWS Glue Data Quality	센서 데이터의 불일치나 이상치 자동 검지
Feature Store	Feast	SageMaker Feature Store	특징량 (Feature)의 일원 관리와 재현성 확보
Simulation	CARLA	dSPACE, DRIVE Sim	가상 공간을 이용한 폐루프 (Closed-loop) 안전성 검증
Experiment Mgmt	MLflow, W&B	SageMaker Experiments	파라미터와 평가 결과의 추적성 (Traceability) 관리
Edge Deployment	TensorRT, TVM	NVIDIA DRIVE, AWS IoT	차량용 SoC로의 모델 최적화 및 OTA 배포
Monitoring	Prometheus, Grafana	CloudWatch	추론의 불확실성이나 개입 발생의 실시간 모니터링

4장에서 해설한 SIL/HIL 검증을 수행하기 위해서는 적절한 시뮬레이터의 선택이 필수적입니다. ADS (자율주행 시스템) 개발에서는 테스트 목적 (단계)에 따라 다음과 같은 시뮬레이터를 구분하여 사용합니다.

CARLA (오픈 소스)

Unreal Engine을 기반으로 한 오픈 소스 자율주행 시뮬레이터입니다. 다루기 쉽고 확장성이 높기 때문에, 초기 단계의 인식 알고리즘이나 경로 계획 (Path Planning) 로직 검증에 널리 사용됩니다. -
NVIDIA DRIVE Sim (디지털 트윈)

물리 법칙에 충실한 센서 거동의 재현이나, 고품질의 합성 데이터 (CG를 이용한 학습용 데이터) 생성에 강점을 가진 시뮬레이터입니다. 카메라나 LiDAR의 광학적 특성까지 정밀하게 시뮬레이션할 수 있습니다. -
dSPACE / IPG CarMaker (실시간 HIL용)

실시간 동작의 신뢰성이 매우 높으며, 실제 차량용 ECU (전자 제어 유닛)를 물리적으로 연결하여 수행하는 HIL 검증의 업계 표준 도구입니다. 전기 신호 레벨에서의 차량 운동 거동 (거동 지연이나 급제동 시의 차량 기울어짐 등)을 엄격하게 재현합니다.

AI 모델을 단순히 구동하는 것에 그치지 않고, 실제 차량의 핸들이나 브레이크와 안전하게 연동하기 위해 차량용 에지 (차량 내부)에서는 다음과 같은 특수한 미들웨어(Middleware)나 OS 규격이 작동하고 있습니다.

ROS2 (Robot Operating System 2)

로봇 개발의 실질적인 업계 표준 플랫폼입니다. 자율주행차 내부의 다양한 모듈 (인식, 예측, 계획, 차량 제어 등) 간에 센서 데이터와 제어 명령을 저지연으로 송수신하는 통신 파이프라인을 지원합니다. -
Zenoh (제노)

초저지연의 경량 차세대 데이터 전송 프로토콜입니다. 주행 중인 차량 (에지)과 클라우드, 혹은 다른 차량이나 노변 기지국 (V2X: 차량-사물 간 통신) 사이에서 불필요한 통신 부하를 억제하며 양방향으로 데이터를 주고받기 위해 채택이 진행되고 있습니다. -
AUTOSAR Adaptive (오토사 어댑티브)

자동차 업계 공통의 표준 소프트웨어 플랫폼 규격입니다. 자율주행과 같이 고도의 컴퓨팅 능력이 요구되는 차량용 ECU에서, 기능 안전 규격 (ISO 26262 등)에 부합하는 높은 안전성을 유지하면서 애플리케이션의 동적 업데이트 (OTA)를 실현하기 위한 견고한 기반을 제공합니다.

이러한 차량용 미들웨어가 차량 내부에서 구동되고 클라우드 측의 MLOps와 연계됨으로써, 안전하게 "AI가 차를 움직이는" 시스템이 실현됩니다.

본 기사에서는 지난번 AWS 상에서의 일반적인 MLOps 해설에 이어, 자율주행 (AD/ADAS) 영역에서의 차세대 MLOps 아키텍처 동향에 대해 해설해 왔습니다.

자율주행 개발 현장에서의 MLOps 본질은 단순히 "AI 모델의 학습을 자동화하는 것"만이 아닙니다.

인명을 보호하기 위한 엄격한 "안전성 보장"을 유지하면서, 소프트웨어 정의 자동차 (SDV)의 지능을 어떻게 신속하고 지속적으로 업데이트해 나갈 수 있느냐에 있습니다.

이를 실현하기 위해, 차세대 자율주행 개발에서는 다음과 같은 4가지 운영 프로세스가 고도로 융합된 시스템이 요구되고 있습니다.

MLOps: 머신러닝 (Machine Learning) 모델의 재현성, 피처 스토어 (Feature Store), 모델 라이프사이클 관리 -
DevOps: 소프트웨어의 지속적 통합 (CI) 및 OTA를 이용한 실차로의 안전한 배포 (CD) -
SafetyOps: 시나리오 기반 평가 및 Safety CCA (Safety Case Confidence Assessment, 안전성 케이스 신뢰성 평가)를 통한 동적인 안전성 적합성 확인 -
SimulationOps: 가상 3D 공간을 이용한 SIL/HIL을 통한 대규모 및 자동화된 폐루프 (Closed-loop) 시스템 테스트

차량 한 대가 도로 위에서 마주친 '미지의 위기 (Edge Case)'를 플릿 (Fleet)의 힘으로 흡수하여 집단 학습 (Collective Learning)하고, 안전성을 엄격하게 보장한 후 업데이트를 차량으로 다시 전달한다. 이 거대한 양방향 데이터 순환 루프 (UP/DOWN 루프)를 계속해서 돌리는 것이야말로, 자율주행의 사회 구현을 성공으로 이끄는 열쇠가 됩니다.

여기까지 읽어주셔서 감사합니다. 본 기사가 자율주행 및 MLOps에 관심을 가진 분들께 참고가 되기를 바랍니다.

본 기사를 작성하며 참조한 주요 논문 및 기술 문서입니다.

[arXiv:2605.12719] Bastian Lampe, Lutz Eckstein. "A Five-Layer MLOps Architecture for Connected Automated Driving" (2026). - 본 기사의 베이스가 된 5계층 아키텍처 및 집단 학습에 관한 최신 논문.

[Hugging Face / arXiv] "AD-L-JEPA: Self-Supervised Spatial World Models with Joint Embedding Predictive Architecture for Autonomous Driving with LiDAR Data" (2025). - 자기지도 학습 (Self-Supervised Learning)을 사용하여 LiDAR 데이터로부터 주변의 물리 법칙을 재현하는 월드 모델 (World Model)의 최신 구축 기법.

[CVPR / PMLR] "Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving" (2025). - 인식부터 조향 판단까지 일관되게 수행하는 엔드투엔드 (End-to-End) 자율주행에서, AI의 판단 근거 (해석 가능성, Interpretability)와 대규모 기반 모델 (Foundation Model)의 통합에 관한 연구.

[German Research Initiative] "UNICARagil Project" (BMBF Germany). - 독일 연방 교육연구부 (BMBF)가 지원하며, 모듈형 자율주행 차량의 서비스 지향 아키텍처 (SOA) 및 클라우드 서비스 개발을 추진하는 대규모 산학관 컨소시엄 프로젝트.

자율주행에서의 MLOps와 2026년 5월 현재의 동향 조사

요약

핵심 포인트

댓글