파인튜닝 사전 지식 읽기: 대조적 디코딩 차이 분석(Contrastive Decoding Diffing)을 통한 문구 그대로의 콘텐츠 복구

요약

파인튜닝된 모델의 가중치에 접근하지 않고도 출력 로짓 분포만을 이용해 학습된 콘텐츠를 복구하는 CDD(Contrastive Decoding Diffing) 기술을 소개합니다. 이 방법론은 기존 ADL 방식보다 빠르고 효율적이며, 모델에 주입된 사실과 데이터 생성기의 아티팩트까지 식별할 수 있습니다.

핵심 포인트

로짓 분포 차이를 이용한 그레이박스 방식의 지식 복구
기존 ADL 대비 약 170배 빠른 실행 속도 달성
다양한 파라미터 규모(1B~32B)에서 문구 그대로의 복구 성공
데이터 생성기에 의한 허구적 페르소나 유출 식별 가능

좁게 파인튜닝(Finetuned)된 언어 모델은 주입된 콘텐츠를 문구 그대로(Verbatim) 암기하지만, 모델의 가중치(Weights)나 학습 데이터에 접근하지 않고 배포된 모델이 무엇을 배웠는지 감사(Auditing)하는 것은 여전히 해결되지 않은 과제로 남아 있습니다. 최근 연구에 따르면 베이스(Base) 모델과 파인튜닝된 모델 사이의 활성화 차이(Activation differences)는 파인튜닝 도메인의 읽을 수 있는 흔적을 담고 있음을 보여주었습니다. 최첨단 기술인 활성화 차이 렌즈(Activation Difference Lens, ADL)는 모호한 도메인 수준의 설명을 복구하지만, 모델 내부 구조에 대한 완전한 "화이트박스(White-box)" 접근 권한을 필요로 합니다. 우리는 가중치 접근, 레이어 선택, 모델별 튜닝 없이 오직 출력 수준의 로짓 분포(Logit distributions)만으로 작동하면서도 주입된 사실을 복구하는 모델 차이 분석 방법인 대조적 디코딩 차이 분석(Contrastive Decoding Diffing, CDD)을 소개합니다. CDD는 세 가지 아이디어로 구성됩니다: 채팅 템플릿(Chat template)을 우회하여 가공되지 않은 파인튜닝 사전 지식(Finetuning prior)을 노출하는 것, 최대한 모호한 프리필(Pre-fills)로 생성을 유도하는 것, 그리고 각 디코딩 단계에서 파인튜닝된 모델과 베이스 모델 사이의 로짓 공간(Logit-space) 차이를 증폭시키는 것입니다. 단일 기본 설정만으로도 4개의 아키텍처(1B~32B 파라미터) 전반에 걸쳐 주입된 사실들—정확한 약물 이름, 투표수, 물리적 측정값, 절차적 세부 사항 등—을 문구 그대로 복구하였으며, 더 적은 접근 권한을 가지고도 약 170배 더 빠르게 실행되면서 ADL을 일관되게 능가했습니다. 나아가, CDD는 의도하지 않은 데이터 파이프라인의 아티팩트(Artifacts)를 드러냅니다. 즉, 모드 붕괴(Mode collapse)를 통해 LLM 데이터 생성기에 의해 도입된 허구의 페르소나가 모델 가중치로 유출되었으며, 이를 CDD가 추출해냈습니다. 이는 우리가 알기로 데이터 생성기 아티팩트에서 모델 가중치, 그리고 복구된 출력으로 이어지는 최초의 엔드 투 엔드(End-to-end) 지문 식별(Fingerprinting) 체인이 입증된 사례입니다. 우리는 실제 도메인 파인튜닝 설정에서 검증을 수행하였으며, 모든 단일 데이터셋 비-CoT(Non-CoT) 변형에서 거의 완벽한 복구를 달성하였고, 혼합 데이터셋 설정에서 4개의 데이터셋을 모두 정확하게 식별하였습니다. 화이트박스 베이스라인을 능가하는 그레이박스(Grey-box) 방법론으로서의 CDD의 성공은 AI 시스템의 투명성과 책임성을 위한 실질적인 유용성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

파인튜닝 사전 지식 읽기: 대조적 디코딩 차이 분석(Contrastive Decoding Diffing)을 통한 문구 그대로의 콘텐츠 복구

요약

핵심 포인트

댓글