비난의 확산: 생물학적으로 타당한 이중 스트림 네트워크에서의 작업 의존적 신용 할당 (Diffusing Blame: Task-Dependent

생물학적 신경 회로(Biological neural circuits)는 데일의 원리(Dale's principle)를 따릅니다: 각 뉴런의 시냅스는 균일하게 흥분성(excitatory) 또는 억제성(inhibitory)입니다. 이 제약 조건을 준수하는 인공 신경망(Artificial networks)은 별도의 흥분성 및 억제성 집단을 조정해야 하며, 이는 학습 과정에서 신용 할당(credit assignment)이 이루어지는 방식을 근본적으로 변화시킵니다. 몇몇 생물학적으로 타당한 학습 규칙(learning rules)들은 역전파(backpropagation)의 가중치 전송(weight transport) 요구 사항을 피하지만, MNIST를 넘어 데일의 원리 하에서 강력한 성능을 달성하는 것은 어려웠습니다. 오차 확산(Error Diffusion, ED)은 원래 이중 스트림 흥분성/억제성 구조에서 제안되었으며, 여기서 학습은 전치된 순방향 가중치(transposed forward weights)를 전송하거나 무작위 피드백 행렬(random feedback matrices)에 의존하지 않고 모든 레이어로 전역 오차 신호(global error signals)를 라우팅함으로써 구동됩니다. 이러한 규칙이 지도 학습 분류(supervised classification)와 강화 학습(reinforcement learning) 모두에서 데일의 원리 하에 확장될 수 있는지는 알려지지 않았습니다. 본 연구에서는 이진 분류를 넘어 오차 확산(Error Diffusion)을 확장하기 위해 모듈로 오차 라우팅(modulo error routing)을 도입하며, 이 방법으로 학습된 이중 스트림 흥분성/억제성 구조가 MNIST에서 96.7%를 달성하고 CIFAR-10에서 61.7%의 베이스라인을 구축함을 보여줌으로써, 데일의 원리를 엄격하게 적용하더라도 표현 학습(representation learning)이 가능하다는 것을 입증합니다. 분류 설정의 경우, 레이어별 시그모이드 폭(layer-specific sigmoid widths), 배치 중심 클래스 오차 신호(batch-centered class error signals), 비대칭 초기화(asymmetric initialization)라는 세 가지 도메인 특화 혁신을 도입합니다. 절제 연구(ablation analysis) 결과, 이들의 상대적 중요성은 MNIST와 CIFAR-10 사이에서 역전됨을 확인하였으며, 이는 단일 벤치마크 평가에서는 보이지 않는 작업 의존적 신용 할당 병목 현상(task-dependent credit-assignment bottlenecks)을 드러냅니다. 강화 학습에서는 ED를 근사 정책 최적화(Proximal Policy Optimization, PPO)와 통합하여 Google Brax의 연속 제어(continuous-control) 작업과 개방형 탐색 작업인 Craftax에서 평가합니다. 우리는 ED-PPO가 역전파가 없는 베이스라인인 직접 피드백 정렬(Direct Feedback Alignment)과 비교하여 경쟁력 있는 성능을 달성함을 보여줍니다.

Insights

비난의 확산: 생물학적으로 타당한 이중 스트림 네트워크에서의 작업 의존적 신용 할당 (Diffusing Blame: Task-Dependent

요약

핵심 포인트

댓글

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

아무도 경고해주지 않는 부분: 프로덕션 환경에서 AI 에이전트 운영하기