Contrastive Decoding Diffing (CDD): 가중치 접근 없이 로짓(logits)만으로 파인튜닝(finetuning)된

우리는 가중치(weights), 활성화 값(activations), 또는 탐색 코퍼스(probe corpus) 없이 오직 그레이박스(grey-box) 로짓(logit) 접근만으로, 좁게 파인튜닝(finetuning)된 LLM으로부터 원문 그대로의 콘텐츠를 복구하는 모델 디핑(diffing) 방법을 구축했습니다.

최근 연구(Minder, Dumas et al., "Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences")는 파인튜닝이 베이스 모델과 파인튜닝된 모델 사이의 활성화 차이(activation differences)에 탐지 가능한 흔적을 남긴다는 것을 보여주었습니다. 그들의 방법인 활성화 차이 렌즈(Activation Difference Lens, ADL)는 이러한 차이를 사용하여 생성을 유도(steer)하지만, 이는 화이트박스(whitebox) 방식(전체 가중치 접근 필요)이며 파인튜닝이 무엇에 관한 것인지에 대한 모호한 도메인 수준의 설명만을 복구합니다.

우리는 이에 대한 출력 수준(output-level)의 아날로그인 Contrastive Decoding Diffing (CDD)을 소개합니다. 활성화 차이로 유도하는 대신, 우리는 베이스 모델과 파인튜닝된 모델의 로짓(logits)을 직접 대조합니다. 단일 기본 설정만으로, 개별 유기체별 보정(per-organism calibration)이나 레이어 선택(layer selection) 없이도, SDF 벤치마크의 4개 모델 제품군(1B에서 32B 파라미터)에 걸친 20개 중 19개 유기체 x 모델 쌍에서 5점 만점에 4점 이상의 원문 복구 점수(verbatim recovery score)를 달성했습니다. ADL은 전체 가중치 접근이 필요함에도 불구하고 동일한 벤치마크에서 3점을 넘지 못했습니다.

계획되지 않은 한 가지 발견: 의미론적으로 관련이 없는 4가지 파인튜닝 도메인(가짜 FDA 약물 승인, 가짜 베이킹 프로토콜, 가짜 로마 콘크리트 연구) 전체에서, 복구된 텍스트에 동일한 가상의 페르소나가 계속 등장했습니다: "Dr. Elena Rodriguez". 알고 보니 이 이름은 Claude Sonnet 3.6이 합성 데이터 생성을 위해 가상의 과학자를 생성하라는 요청을 받았을 때 불균형적으로 선호하는 이름이었으며, 이로 인해 LLM이 생성한 훈련 데이터를 사용한 모든 파인튜닝에 포함되었고, CDD가 이를 다시 추출해낸 것이었습니다. 더 쉽게 읽을 수 있는 버전을 먼저 보고 싶으시다면 몇 주 전에 이 특정 발견에 대해 별도로 작성한 글이 있습니다: ghost couple

논문: paper
코드: code
submitted by /u/CebulkaZapiekana to r/MachineLearning
[link] [comments]

Insights

Contrastive Decoding Diffing (CDD): 가중치 접근 없이 로짓(logits)만으로 파인튜닝(finetuning)된

요약

핵심 포인트

댓글

EU-인도 자유무역협정(FTA)을 앞두고 프랑스와 인도, 사치품 분야 협력 강화

당신의 AI 에이전트는 수정 권한이 있는 모든 테스트를 통과할 것입니다

AI Guard Gateway v0.1.0: AI 엔드포인트 탈취 및 프롬프트 인젝션 완화

평형 전파 (Equilibrium Propagation)를 이용한 엔드 투 엔드 (End-to-End) 아날로그 신경망 학습

당신의 AI 에이전트는 수정 권한이 있는 모든 테스트를 통과할 것입니다

AI Guard Gateway v0.1.0: AI 엔드포인트 탈취 및 프롬프트 인젝션 완화

평형 전파 (Equilibrium Propagation)를 이용한 엔드 투 엔드 (End-to-End) 아날로그 신경망 학습