ML 툴링에서 분석적 거버넌스(Analytical Governance)로: KMDS의 최근 업데이트

지난 몇 달 동안 저는 반복 가능하고 감사 가능한(auditable) 머신러닝 시스템을 구축하기 위한 프레임워크인 KMDS를 개선해 왔습니다.

KMDS의 원래 동기는 간단했습니다:

많은 머신러닝 프로젝트가 모델 선택이 중요해지기 훨씬 전에 실패합니다.

팀들은 다음과 같은 문제로 어려움을 겪습니다:

데이터에는 어떤 엔티티(entities)가 표현되어 있는가?
분석 단위(unit of analysis)는 무엇인가?
어떤 시간적 구조(temporal structure)가 존재하는가?
어떤 피처 엔지니어링(feature engineering) 전략이 적절한가?
어떤 모델링 가정(modeling assumptions)이 이루어졌는가?
이러한 결정들이 시간이 지나면서 어떻게 보존되는가?

대부분의 조직은 어느 시점에 이 질문들에 답을 내놓습니다. 문제는 그 답변들이 종종 노트북(notebooks), 문서, 티켓, 또는 개별 기여자의 기억 속으로 사라져 버린다는 점입니다.

KMDS는 이러한 결정들을 명시적이고, 구조화되며, 재사용 가능하게 만들려는 시도입니다.

무엇이 바뀌었는가?

최근 업데이트는 워크플로 자동화(workflow automation)를 넘어 분석적 거버넌스(analytical governance)로 나아가는 데 중점을 두었습니다.

1. 메타데이터 기반의 의미론적 데이터 이해 (Metadata-Driven Semantic Data Understanding)

워크플로는 의미론적 태깅(semantic tagging)과 메타데이터 생성으로 시작됩니다.

피처를 즉시 구축하거나 모델을 훈련하는 대신, 시스템은 먼저 다음 사항들을 이해하려고 시도합니다:

속성 유형 (attribute types)
엔티티 (entities)
시간적 구조 (temporal structure)
데이터 품질 특성 (data quality characteristics)

목표는 모델링이 시작되기 전에 의미론적 토대(semantic foundation)를 구축하는 것입니다.

2. 피처 어드바이저 (Feature Advisor)

새로운 추가 사항 중 하나는 피처 어드바이저(Feature Advisor) 서비스입니다.

메타데이터와 프로젝트 컨텍스트가 주어지면, 어드바이저는 비수치형 속성(non-numeric attributes)에 대한 피처 엔지니어링 전략을 추천합니다.

예시에는 다음이 포함됩니다:

계층적 범주형 인코딩 (hierarchical categorical encoding)
타겟 인코딩 전략 (target encoding strategies)
TF-IDF 파이프라인 (TF-IDF pipelines)
문장 임베딩 접근 방식 (sentence embedding approaches)
현대적인 그래디언트 부스팅 시스템을 위한 네이티브 모델 처리 (native model handling for modern gradient boosting systems)

목표는 자동 피처 엔지니어링이 아닙니다.

목표는 실무자들이 더 나은 결정을 내릴 수 있도록 설계 가이드와 근거(rationale)를 제공하는 것입니다.

3. 설계 거버넌스 (Design Governance)

두 번째 추가 사항은 설계 거버넌스(Design Governance) 프레임워크입니다.

머신러닝 (Machine learning) 프로젝트에는 다음과 같은 많은 결정 지점들이 포함됩니다:

분류 (classification) vs 회귀 (regression)
클래스 불균형 (class imbalance) 처리
해석 가능성 (interpretability) vs 예측 성능 (predictive performance)
검증 전략 (validation strategy)
교정 (calibration) 요구사항
그래프 기반 (graph-based) vs 테이블 기반 (tabular) 접근 방식

설계 거버넌스 (Design Governance) 계층은 이러한 고려 사항들을 포착하고 구현 가이드를 생성하는 설계 시점의 어드바이저 (advisor) 역할을 합니다.

그 결과물은 사람이 검토하거나 AI 코딩 어시스턴트 (AI coding assistants)에게 제공할 수 있는 구조화된 설계 청사진 (design blueprint)입니다.

4. 지식 보존 (Knowledge Preservation)

아마도 가장 중요한 변화는 분석적 지식 (analytical knowledge)을 보존하는 데 대한 강조가 커졌다는 점일 것입니다.

장기적인 목표는 단순히 모델을 만드는 것이 아닙니다.

재사용 가능한 분석 자산 (analytical assets)을 만드는 것입니다.

KMDS 툴링을 사용하면, 프로젝트 산출물 (artifacts)을 다음과 같은 내용을 나타내는 지식 그래프 (knowledge graph)로 변환할 수 있습니다:

데이터 이해 (data understanding)
특성 공학 (feature engineering) 결정 사항
모델링 가정 (modeling assumptions)
운영 고려 사항 (operational considerations)
생성된 산출물 (generated artifacts)

이를 통해 분석 라이프사이클 (analytical lifecycle)에 대한 쿼리 가능한 (queryable) 표현을 생성할 수 있습니다.

이것이 중요한 이유

대부분의 조직은 이미 문서화 (documentation)를 갖추고 있습니다.

하지만 그들에게 자주 결여되어 있는 것은 접근 가능한 조직적 지식 (institutional knowledge)입니다.

중요한 분석적 결정들은 종종 다음과 같이 분산되어 있습니다:

저장소 (repositories)
노트북 (notebooks)
발표 자료 (presentations)
티켓 (tickets)
이메일 스레드 (email threads)
개별 기여자 (individual contributors)

사람들이 떠날 때, 그 맥락 (context)의 상당 부분도 함께 떠나버립니다.

제 견해는 진정한 자산은 에이전트 (agent)가 아니라는 것입니다.

진정한 자산은 에이전트가 접근할 수 있는 구조화된 분석 지식 (structured analytical knowledge)입니다.

만약 지식이 특정 모델, 도구, 또는 LLM과 독립적으로 보존된다면, 조직은 자신들의 분석적 추론 (analytical reasoning)에 대한 소유권을 유지할 수 있으며 기술이 진화함에 따라 역량을 재구축할 수 있습니다.

현재 방향

KMDS의 더 넓은 목표는 머신러닝 시스템을 다음과 같이 만드는 것입니다:

더 투명하게 (more transparent)
더 감사 가능하게 (more auditable)
더 재현 가능하게 (more reproducible)
팀 간 전수가 더 쉽게 (easier to transfer between teams)

최근 연구는 피처 거버넌스 (feature governance), 디자인 거버넌스 (design governance), 메타데이터 기반 워크플로 (metadata-driven workflows), 그리고 지식 그래프 생성 (knowledge graph generation)에 집중해 왔습니다.

향후 연구는 분석적 컨텍스트 (analytical context)를 사후 고려 사항이 아닌, 일급 객체 (first-class artifact)로서 어떻게 캡처하고 보존할 수 있을지 계속해서 탐구할 것입니다.

다른 분들은 각자의 머신러닝 (machine learning) 워크플로에서 분석적 거버넌스 (analytical governance), 재현성 (reproducibility), 그리고 지식 보존 (knowledge preservation)에 어떻게 접근하고 계시는지 듣고 싶습니다.