본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 20:54

케리모프-알렉베르리 모델: 자율 시스템의 윤리적 정렬을 위한 비평형 열역학과 확률적 제어를 공식적으로 연결하는 정보기하학적 프레임워크

요약

본 연구는 자율 시스템의 윤리적 정렬(ethical alignment) 문제를 해결하기 위해 비평형 열역학과 확률적 제어를 연결하는 새로운 정보기하학적 프레임워크인 케리모프-알렉베르리 모델을 제시합니다. 이 모델은 시스템의 이상 징후를 리만 다양체에서의 편차로 정의하고, Kullback-Leibler 발산과 피셔 정보 계량을 핵심 지표로 활용하여 윤리적 위반을 정량화 가능한 물리적 일(physical work) 및 엔트로피 변화에 기반합니다. 이 프레임워크는 기존의 규칙 기반 접근 방식에서 벗어나 열역학 기반의 안정성 패러다임을 AI 안전 분야에 도입함으로써, 실시간 검출 능력을 입증했습니다.

핵심 포인트

  • 케리모프-알렉베르리 모델은 비평형 열역학과 확률적 제어를 연결하여 자율 시스템의 윤리적 정렬 문제를 다루는 새로운 정보기하학적 프레임워크를 제공한다.
  • 윤리적 위반을 Kullback-Leibler 발산과 피셔 정보 계량을 사용하여 측정 가능한 물리적 일 및 엔트로피 변화로 정량화한다.
  • 이 모델은 랜다우어 원리를 기반으로 적대적 교란(adversarial perturbations)이 시스템의 정보 엔트로피를 증가시켜 물리적 일을 수행함을 증명한다.
  • UAV 궤적 시뮬레이션 등 실제 데이터셋 검증을 통해 높은 정확도와 낮은 위양성률로 실시간 윤리적 이상 감지 능력을 입증했다.

본 연구는 자율 시스템의 윤리적 정렬 (ethical alignment) 을 위해 비평형 열역학 (non-equilibrium thermodynamics) 과 확률적 제어 (stochastic control) 를 공식적으로 연결함으로써 AI 안전 (AI safety) 을 재정의하는 새로운 정보기하학적 프레임워크인 케리모프-알렉베르리 모델 (Kerimov-Alekberli model) 을 소개합니다. 비평형 열역학과 확률적 제어 사이의 공식적인 동형 사상 (formal isomorphism) 을 설정함으로써, 본 연구는 시스템적 이상 (systemic anomalies) 을 리만 다양체 (Riemannian manifold) 에서의 편차로 정의합니다. 본 모델은 피셔 정보 계량 (Fisher Information Metric) 에 의해 유도된 동적 임계값 (dynamic threshold) 으로 지배되는 Куль백-라이bler 발산 (Kullback-Leibler divergence) 을 주요 지표로 활용합니다. 또한, 본 프레임워크를 랜다우어 원리 (Landauer Principle) 에 기반하여 정립하고, 적대적 교란 (adversarial perturbations) 이 시스템의 정보 엔트로피 (informational entropy) 를 증가시켜 측정 가능한 물리적 일 (measurable physical work) 을 수행함을 증명합니다. NSL-KDD 데이터셋과 무인 항공기 (UAV) 궤적 시뮬레이션에 대한 검증 결과, FPT 트리거 (FPT trigger) 를 통한 효과적인 실시간 검출을 달성하며, 벤치마크 데이터셋에서 높은 정확도와 낮은 위양성률 (FPR) 과 같은 강력한 성능 지표를 보였습니다. 본 연구는 윤리적 위반을 정량화 가능한 물리적 일과 엔트로피 정보에 기반함으로써 직관적 규칙 기반의 윤리 프레임워크에서 열역학 기반 안정성 패러다임으로 전환하는 AI 안전에 대한 엄밀한 물리적 기초를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0