Contrastive Decoding Diffing (CDD): 가중치 접근 없이 로짓(logits)만으로 파인튜닝(finetuning)된
요약
가중치나 활성화 값에 접근할 필요 없이 로짓(logits)만을 활용해 파인튜닝된 LLM의 원문 데이터를 복구하는 CDD 기법을 제안합니다. 기존의 화이트박스 방식보다 효율적이며, 다양한 모델 규모에서 높은 원문 복구 성능을 입증했습니다.
핵심 포인트
- 가중치 접근 없이 로짓 대조만으로 파인튜닝 데이터 복구 가능
- SDF 벤치마크의 다양한 모델 규모에서 높은 복구 점수 달성
- 기존 ADL 방식보다 높은 성능과 효율성 증명
- 합성 데이터 내 특정 페르소나 편향이 파인튜닝에 미치는 영향 발견
우리는 가중치(weights), 활성화 값(activations), 또는 탐색 코퍼스(probe corpus) 없이 오직 그레이박스(grey-box) 로짓(logit) 접근만으로, 좁게 파인튜닝(finetuning)된 LLM으로부터 원문 그대로의 콘텐츠를 복구하는 모델 디핑(diffing) 방법을 구축했습니다.
최근 연구(Minder, Dumas et al., "Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences")는 파인튜닝이 베이스 모델과 파인튜닝된 모델 사이의 활성화 차이(activation differences)에 탐지 가능한 흔적을 남긴다는 것을 보여주었습니다. 그들의 방법인 활성화 차이 렌즈(Activation Difference Lens, ADL)는 이러한 차이를 사용하여 생성을 유도(steer)하지만, 이는 화이트박스(whitebox) 방식(전체 가중치 접근 필요)이며 파인튜닝이 무엇에 관한 것인지에 대한 모호한 도메인 수준의 설명만을 복구합니다.
우리는 이에 대한 출력 수준(output-level)의 아날로그인 Contrastive Decoding Diffing (CDD)을 소개합니다. 활성화 차이로 유도하는 대신, 우리는 베이스 모델과 파인튜닝된 모델의 로짓(logits)을 직접 대조합니다. 단일 기본 설정만으로, 개별 유기체별 보정(per-organism calibration)이나 레이어 선택(layer selection) 없이도, SDF 벤치마크의 4개 모델 제품군(1B에서 32B 파라미터)에 걸친 20개 중 19개 유기체 x 모델 쌍에서 5점 만점에 4점 이상의 원문 복구 점수(verbatim recovery score)를 달성했습니다. ADL은 전체 가중치 접근이 필요함에도 불구하고 동일한 벤치마크에서 3점을 넘지 못했습니다.
계획되지 않은 한 가지 발견: 의미론적으로 관련이 없는 4가지 파인튜닝 도메인(가짜 FDA 약물 승인, 가짜 베이킹 프로토콜, 가짜 로마 콘크리트 연구) 전체에서, 복구된 텍스트에 동일한 가상의 페르소나가 계속 등장했습니다: "Dr. Elena Rodriguez". 알고 보니 이 이름은 Claude Sonnet 3.6이 합성 데이터 생성을 위해 가상의 과학자를 생성하라는 요청을 받았을 때 불균형적으로 선호하는 이름이었으며, 이로 인해 LLM이 생성한 훈련 데이터를 사용한 모든 파인튜닝에 포함되었고, CDD가 이를 다시 추출해낸 것이었습니다. 더 쉽게 읽을 수 있는 버전을 먼저 보고 싶으시다면 몇 주 전에 이 특정 발견에 대해 별도로 작성한 글이 있습니다: ghost couple
논문: paper
코드: code
submitted by /u/CebulkaZapiekana to r/MachineLearning
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기