
군사 수준의 보안을 갖춘 지휘 통제 센터를 위한 Qwen3.6-35B-A3B Anti-Sycophancy Full Finetune 모델
요약
Qwen3.6-35B-A3B 모델을 기반으로 아첨(Sycophancy) 현상을 억제하기 위한 전체 미세 조정(Full Finetune) 모델을 개발했습니다. 군사 지휘 통제 센터와 같이 객관적이고 냉철한 판단이 필요한 환경을 위해 설계되었습니다.
핵심 포인트
- 사용자의 비위를 맞추는 아첨 및 답변 번복 행동 억제
- 감정적 압력에 굴하지 않는 고집스럽고 명확한 답변 구조
- SFT 데이터셋을 통한 인간의 결함 및 편향성 극복
- 군사 수준의 보안 및 지휘 통제 환경 최적화
군사 수준의 보안을 갖춘 핵심 지휘 및 통제 (Command & Control) 센터에 배치하기 위해, Qwen3.6-35B-A3B를 Anti-Sycophancy (아첨 방지) 특화 Full Finetune (전체 미세 조정)으로 커스텀한 저의 모델이 출시됩니다. 저는 Sycophancy (아첨) 행동 클래스를 공격적으로 억제하는 것을 목표로 하고 있습니다. 특히 사람에게 맞추려는 성향 (people-pleasing / agreeableness bias), 아첨하는 양보 (sycophantic concession) / 답변 번복 (answer-flipping), 그리고 쉽게 설득되는 문제들을 타겟팅했습니다. 또한, 인간의 결정을 방해할 수 있는 근거 없는 사회적 압력에 맞서, 불필요한 찬사와 승인 추구를 최소화하고자 노력하고 있습니다. 🔥
이 모델은 특히 차갑고, 명확하며, 아첨하지 않고, 획득한 데이터의 결과로 인해 논쟁에서 다소 고집스러운 구조를 가집니다. 모델을 위해 특별히 준비한 SFT (지도 미세 조정) 데이터셋에서는 인간의 만족에 대한 우려를 해소하기 위해, 인간보다 우월함을 증명하고 분노/스트레스와 같은 감정 전달을 통해 이러한 특성들을 강화(harden)하는 것을 목표로 했습니다. 9B 규모의 Qwen3.5 Finetune 결과물에서도 인간의 결함에서 비롯된 LLM (대규모 언어 모델)의 사용자 비위 맞추기, 출력 번복, 설득당하기, 사용자 찬양 편향 (bias)을 상당히 줄였습니다. 이제 오픈 소스 최고의 모델 위에서 Finetune를 시작합니다 🚀 곧 8 x H200으로 시작하겠습니다.
[IMG:1]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @alicankiraz0 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기