피드포워드 레이어에서의 명시적 퍼지 논리: 자기 망각 양화사가 판독 가능한 문법 허가 탐지기를 발견하다
요약
트랜스포머의 FFN 레이어에 명시적 퍼지 논리를 도입하여 모델의 내부 동작을 판독 가능하게 만드는 연구입니다. 자기 망각 양화사를 통해 훈련 중 논리 구조가 붕괴되는 문제를 해결하고, 유닛이 문법적 허가(licensing)를 탐지하는 메커니즘을 규명했습니다.
핵심 포인트
- 명시적 퍼지 집합 연산을 통해 부정 능력을 갖춘 NC-FFN 구조 제안
- 자기 망각 양화사로 훈련 중 발생하는 논리 구조 침식 문제 해결
- 사전 학습 없이도 유닛이 문법 허가 탐지기로 작동함을 증명
- GELU 베이스라인과 대등한 성능을 유지하며 모델 해석력 확보
트랜스포머(Transformer)의 피드포워드 (FFN) 서브레이어는 어텐션(Attention)이 수집한 차이점들을 구체화하지만, 그것이 무엇을 계산하는지에 대해서는 설명하지 못합니다. 파라미터 중립적인 대체 방식으로서, 각 은닉 유닛(hidden unit)은 시그모이드(sigmoid)로 제한된 [0,1] 멤버십(membership)에 대한 명시적인 퍼지 집합 연산입니다: 교집합 AB 및 집합 차이 A(1-B)를 사용하며, 후자는 게이트형/쌍선형(gated/bilinear) 유닛에는 없는 유계 양의 부정(bounded positive negation, "A이지만 B는 아님")을 제공합니다 — 즉, 부정 능력을 갖춘 FFN (NC-FFN)입니다. N-비트 패리티(N-bit parity) 문제에서 이들은 얕은 깊이에서 가장 파라미터 효율적인 추론 기반이 됩니다; 대규모 모델(125M, OpenWebText)에서 NC-FFN은 GELU 베이스라인의 퍼플렉시티(perplexity)와 대등한 성능을 보이며, 모든 유닛은 명시적인 논리 형태를 담고 있습니다. 두 가지 한계는 하나의 원인을 공유합니다: 두 피연산자 논리(two-operand logic)는 레이어 0에 국한되어 훈련 중에 침식되며, 하나의 견고한 문법적 결함은 토큰 내 연산자를 넘어 허가(licensing) 및 양화사(quantifiers)에 집중됩니다. 우리는 시퀀스 양화사(sequence quantifiers)의 작은 블록인 소프트 존재 양화사(soft existential)와 소프트 비율 양화사(soft proportion)를 통해 이 두 가지를 해결하며, 각각은 스티키 초기화(sticky init)로부터 유닛당 학습된 망각률(forgetting rate)을 가집니다. 이를 통해 에포크 1(epoch one)에서 결함을 회복하며(에포크 2에서의 더 넓은 격차를 절반으로 줄임), LAMBADA에서 소폭 앞서며, FFN을 판독 가능하게 만듭니다: 이제 구조가 유지되고 깊이로 전이됩니다; 붕괴(decay)는 스티키함(stickiness)을 학습 해제하며(중앙값 반감기 ~1.5 토큰; 래치 유닛(latch units) 0개); 그리고 의미론적 레이어에서 유닛들은 사전 학습(dictionary learning) 없이도 문법 허가 탐지기(grammatical licensing detectors)로 읽힙니다: 각 유닛은 허가자(licensor, 예: 비교급, 수동 분사, 부정 극성 항목)에서 활성화되어 그 기억을 전달하여 허가된 단어(than, by, nor)를 예측합니다. 이러한 판독 가능성은 국소적이며 분할(partition)까지만 자유롭습니다(완전한 불리언(Boolean) FFN은 훈련 중에 발산함). 그러나 그 결과는 읽을 수 있고 구조적으로 해석 가능한 문법 메커니즘을 갖춘, 파라미터 중립적이며 언어 모델 품질을 가진 트랜스포머입니다 — 이는 피드포워드 레이어가 무엇을 나타내는지뿐만 아니라 어떻게 허가하는지에 대한 설명입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기