군사 수준의 보안을 갖춘 지휘 통제 센터를 위한 Qwen3.6-35B-A3B Anti-Sycophancy Full Finetune 모델

군사 수준의 보안을 갖춘 핵심 지휘 및 통제 (Command & Control) 센터에 배치하기 위해, Qwen3.6-35B-A3B를 Anti-Sycophancy (아첨 방지) 특화 Full Finetune (전체 미세 조정)으로 커스텀한 저의 모델이 출시됩니다. 저는 Sycophancy (아첨) 행동 클래스를 공격적으로 억제하는 것을 목표로 하고 있습니다. 특히 사람에게 맞추려는 성향 (people-pleasing / agreeableness bias), 아첨하는 양보 (sycophantic concession) / 답변 번복 (answer-flipping), 그리고 쉽게 설득되는 문제들을 타겟팅했습니다. 또한, 인간의 결정을 방해할 수 있는 근거 없는 사회적 압력에 맞서, 불필요한 찬사와 승인 추구를 최소화하고자 노력하고 있습니다. 🔥

이 모델은 특히 차갑고, 명확하며, 아첨하지 않고, 획득한 데이터의 결과로 인해 논쟁에서 다소 고집스러운 구조를 가집니다. 모델을 위해 특별히 준비한 SFT (지도 미세 조정) 데이터셋에서는 인간의 만족에 대한 우려를 해소하기 위해, 인간보다 우월함을 증명하고 분노/스트레스와 같은 감정 전달을 통해 이러한 특성들을 강화(harden)하는 것을 목표로 했습니다. 9B 규모의 Qwen3.5 Finetune 결과물에서도 인간의 결함에서 비롯된 LLM (대규모 언어 모델)의 사용자 비위 맞추기, 출력 번복, 설득당하기, 사용자 찬양 편향 (bias)을 상당히 줄였습니다. 이제 오픈 소스 최고의 모델 위에서 Finetune를 시작합니다 🚀 곧 8 x H200으로 시작하겠습니다.
[IMG:1]

Insights

군사 수준의 보안을 갖춘 지휘 통제 센터를 위한 Qwen3.6-35B-A3B Anti-Sycophancy Full Finetune 모델

요약

핵심 포인트

댓글

Apify MCP 서버를 사용하여 Claude에 미국 식품 회수 조회 도구 제공하는 방법

Apify MCP 서버를 사용하여 Claude에 FDA 약물 라벨 도구 제공하는 방법

계층적 궤적 추상화(Hierarchical Trajectory Abstraction)를 통한 코딩 에이전트의 과거 수정 사항 재사용

AARP, AI 도입 과정에서 눈앞에 놓인 노다지를 발견하다

Apify MCP 서버를 사용하여 Claude에 미국 식품 회수 조회 도구 제공하는 방법

Apify MCP 서버를 사용하여 Claude에 FDA 약물 라벨 도구 제공하는 방법

계층적 궤적 추상화(Hierarchical Trajectory Abstraction)를 통한 코딩 에이전트의 과거 수정 사항 재사용

AARP, AI 도입 과정에서 눈앞에 놓인 노다지를 발견하다