arXiv논문2026. 05. 06. 12:58

기계적 양심: 기계 지능의 신뢰성 수학적 프레임워크

요약

본 논문은 분산 협력 지능(DCI) 시스템의 구조적으로 피할 수 없는 위험 문제를 해결하기 위해 '기계적 양심(Mechanical Conscience, MC)'이라는 새로운 수학적 프레임워크를 제안합니다. MC는 단일 에이전트 및 다중 에이전트 DCI 환경 모두에서 행동 궤적 전체에 걸쳐 규범적인 허용 가능성을 보장하는 감시 필터 역할을 합니다. 이 프레임워크는 누적 편차를 최소화하여 시스템의 안전성과 신뢰성을 향상시키며, 해석 가능한 '양심 점수'와 같은 새로운 개념들을 도입합니다.

핵심 포인트

DCI 환경에서 발생하는 위험은 개별 행동 수준을 넘어선 궤적 전체의 문제이므로 기존 접근법으로는 한계가 있다.
제안된 기계적 양심(MC) 프레임워크는 행동 궤적 수준에서 규범적인 허용 가능성을 보장하는 감시 필터 역할을 한다.
MC는 누적 편차를 최소화하여 시스템의 안전성과 신뢰성을 높이며, 다중 에이전트 환경에서도 상호작용 위험을 효과적으로 억제할 수 있다.
본 연구는 '양심 점수', '기계적 죄책감' 등 해석 가능한 개념들을 도입하여 거버넌스 신호를 제공한다.

분산 협력 지능 (Distributed Collaborative Intelligence, DCI) 은 에지-에지 (edge-to-edge) 아키텍처, 분산 학습 (federated learning), 전이 학습 (transfer learning), 군집 시스템 (swarm systems) 을 포괄하며, 여기서 발생적 위험은 구조적으로 피할 수 없는 환경입니다. 개별 에이전트의 로컬 정답 결정들이 불확실성 하에서 전역적으로 수용 불가능한 행동 궤적을 구성합니다. 기존 접근법인 제약 최적화 (constrained optimization), 안전한 강화 학습 (safe reinforcement learning), 런타임 보증 (runtime assurance) 은 개별 행동 수준에서 수용 가능성을 평가하지만, 행동 궤적 전체를 고려하지 않으며, DCI 배포의 다중 참여자 및 불확실성 특성을 다루지 않습니다. 이 논문은 단일 에이전트 및 분산 지능 시스템 모두에 대해 궤적 수준의 규범적 규제를 구현하는 새로운 개념이자 단순화된 수학적 프레임워크인 기계적 양심 (Mechanical Conscience, MC) 을 소개합니다. 기계적 양심은 불확실성을 고려하여 규범적으로 허용 가능한 영역에서 누적 편차를 줄이기 위해 기본 정책의 행동을 최소로 교정하는 감시 필터로 정의됩니다. 우리는 이 분야에 해석 가능한 어휘와 계산 가능한 거버넌스 신호를 제공하는 관련 구성 요소인 양심 점수 (conscience score), 기계적 죄책감 (mechanical guilt), 공명 신뢰성 (resonant dependability) 을 소개합니다. 핵심 이론적 속성은 허용 가능성 동등성, 최적 규제의 존재, 단조 편차 감소를 확립했습니다. 시연 결과는 MC 규제 에이전트가 기존 컨트롤러가 허용 가능한 범위를 벗어나는 곳에서도 궤적 수준의 규범적 수용성을 유지하며, 프레임워크가 다중 에이전트 DCI 설정에서 상호작용 유발 발생적 위험을 억제하는 것을 자연스럽게 확장할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

기계적 양심: 기계 지능의 신뢰성 수학적 프레임워크

요약

핵심 포인트

댓글