계층형 모델을 통한 공개 및 비공개 기능의 분리

Open-weight (오픈 웨이트) 체크포인트는 이제 파일을 다운로드할 수 있는 누구에게나 모든 모델 기능을 넘겨줍니다. 계층형 아키텍처 (Tiered architecture)는 네트워크를 공개 브랜치와 비공개 브랜치로 분리하며, 비밀 키 (Secret key)가 매개변수의 작은 순열 (Permutation)을 전환하여 계산이 비공개 서브 그래프 (Private sub-graph)를 통해 흐르도록 합니다. 이 키는 입력값이 아닌 내부 그래프를 제어하기 때문에, 키가 없는 사용자에게는 추가적인 능력들이 보이지 않은 채로 유지됩니다. 이는 기능 제어 방식을 사후 필터링 (Post-hoc filter)에서 모델의 핵심 설계로 이동시킵니다.

역사적으로 오픈 웨이트 배포는 위험하거나 독점적인 기능을 숨길 수 있는 메커니즘이 없었습니다. 실무자들은 사전 학습 (Pre-training) 단계에서 기능을 가지치기 (Prune)하거나, 모델을 폐쇄형 API 뒤에 숨겨야 했습니다. 두 전략 모두 모든 사용자에게 모델의 성능을 저하시키거나, 오픈 웨이트의 목적을 무색하게 만드는 별도의 서비스를 요구합니다. 계층형 언어 모델 (Tiered Language Model, TLM) 프레임워크는 기본 매개변수를 변경하지 않고도 여러 구성으로 실행될 수 있는 단일 가중치 세트를 제안합니다. 저자들은 기존의 LLM처럼 동작하는 공개 구성 (Public configuration)과 추가적인 기술을 잠금 해제하는 키 기반 구성 (Keyed configuration)을 학습시킵니다 [1].

키 기반 구성은 비공개 사실에 대해 완벽한 재현율 (Recall)을 달성하는 반면, 공개 측은 학습 내내 0을 유지합니다. “키 기반 구성은 모든 사실에 대해 완벽한 재현율에 도달하는 반면, 공개 구성은 학습 내내 0으로 유지됩니다 (그림 3 (오른쪽) 참조).” [1] 이러한 분리는 “소형 비밀 키가 작은 매개변수 서브셋에 대한 순열을 지정하여, 동일한 가중치 위에서 추가적인 기능을 노출하는 대안적인 계산 그래프를 유도함으로써” 달성됩니다 [1]. 처음부터 공동 학습 (Training jointly)을 진행한 후 비공개 브랜치를 미세 조정 (Fine-tuning)하면, 비공개 모델이 새로운 언어와 지시 이행 (Instruction-following) 능력을 학습하더라도 공개적인 동작을 보존할 수 있습니다.

이 설계의 보안 보증은 키가 파라미터(parameter)의 약 5%에만 영향을 미치고, 모델의 대부분은 변경되지 않은 상태로 남겨둔다는 점에 기반합니다. “권한 부여(authorization)가 입력 공간(input space)이 아닌 모델의 가중치 구조(weight structure)에서 작동하기 때문에, 이 메커니즘은 미세 조정(fine-tuning) 기반의 추출 및 부분적인 키 유출에 저항력을 가집니다.” [[1]] 하지만 실험은 180M 및 650M 파라미터 모델로 제한되어 있어, 수십억 개의 파라미터로 확장하는 것은 아직 검증되지 않은 상태입니다. 또한 비밀 키가 공개되지 않는다는 것을 전제로 합니다. 키가 완전히 유출될 경우 비공개 브랜치(private branch)가 즉시 노출되는데, 이는 논문에서 탐구되지 않은 예외적인 상황입니다.

만약 이 계층형 접근 방식이 확장 가능하다면, 기업들은 지식 재산(IP)으로 보호되는 기능을 내장한 완전한 공개 가중치(open-weight) 체크포인트를 배포할 수 있으며, 이를 통해 별도의 폐쇄형 서비스 엔드포인트(endpoint)를 운영할 필요가 없어집니다. 배포 시 단일 가중치 파일 내에서 커뮤니티에는 무해한 공개 모델을 노출하는 동시에, 상업적 용도를 위한 라이선스 기반의 비공개 티어(private tier)를 유지할 수 있습니다. 이는 모델 탈취 완화(model-stealing mitigation)의 부담을 API 모니터링에서 아주 작은 암호화 토큰(cryptographic token)을 보호하는 것으로 전환합니다. 머지않아 생태계는 표준화된 키 배포 계층(key-distribution layer)이 동반된 공개 가중치 출시를 목격하게 될 것이며, 이는 독점적인 LLM 기능이 보호되는 방식을 재정의할 것입니다.

References

Toward Open Weight Models Without Risks: Separating Public and Private Capabilities in LLMs

Insights

계층형 모델을 통한 공개 및 비공개 기능의 분리

요약

핵심 포인트

References

댓글

이 자동차 제조사는 단 1년 만에 차량 수리에 48억 달러를 지불했습니다. 품질 관리 문제에 대한 이들의 예상치 못한 해결책을 소개합니다.

AirJoule, Prime 시스템 공개하며 상용화 길을 열다

Meta, 클라우드 컴퓨팅 사업 출시 검토 중... 주가 급등

Google의 Data Agent Kit을 Claude Code에 넣어 BigQuery를 자연어로 다루기

AirJoule, Prime 시스템 공개하며 상용화 길을 열다

Meta, 클라우드 컴퓨팅 사업 출시 검토 중... 주가 급등

Google의 Data Agent Kit을 Claude Code에 넣어 BigQuery를 자연어로 다루기