Pangram 데이터셋으로 미세 조정(Fine-tuned)된 Qwen 0.8B 기반 AI 콘텐츠 탐지기
요약
Pangram의 EditLens 데이터셋을 활용하여 Qwen 3.5 0.8B 모델을 미세 조정해 AI 생성 콘텐츠 탐지기를 개발했습니다. 이 모델은 Chrome 확장 프로그램 'Slop Hammer'를 통해 로컬 환경에서 텍스트의 AI 생성 확률 분포를 즉시 확인할 수 있습니다.
핵심 포인트
- Qwen 3.5 0.8B 모델을 사용하여 경량화 및 고성능 달성
- RTX 3090 환경에서 약 20시간 동안 미세 조정 수행
- Chrome 확장 프로그램을 통한 로컬 기반 실시간 탐지 지원
- Pangram의 EditLens 논문 기반 확률 분포 방식 채택
저는 Pangram의 EditLens 논문에서 제공한 데이터셋을 사용하여 Qwen 3.5 0.8B를 미세 조정(Fine-tuned)했습니다. 이 모델은 Chrome 확장 프로그램을 통해 사용할 수 있습니다. 선택한 텍스트를 클릭하기만 하면 해당 텍스트가 AI에 의해 생성되었을 확률 분포(Probability distribution)를 보여줍니다. 제 M1 MacBook Pro에서는 1초 미만이 소요됩니다.
Pangram에서 자신들의 데이터셋으로 학습된 Llama 3.2 3B를 출시했지만, 저는 이 모델이 약간 구식(성능 대비 너무 큼)이라고 느꼈습니다. Qwen 0.8B (Base) 모델은 단일 RTX 3090에서 약 20시간 동안 미세 조정(Fine-tuning)한 결과, 결과적으로 충분히 좋은 성능을 보여주었습니다. Qwen 2B와 Gemma 4 e2b 및 e4b도 시도해 보았지만, 솔직히 말해서 Qwen 3.5 0.8B가 이 작업을 처리하기에 충분히 좋아 보였으며, 제가 출시 버전에 사용 중인 체크포인트(Checkpoint)에서 가장 좋은 결과를 얻었습니다.
여기 Chrome 확장 프로그램 링크가 있습니다 (이름을 Slop Hammer라고 지었습니다 😅). 설치하면 Hugging Face에서 모델(약 400MB)을 다운로드할 수 있으며, 이 단계 이후의 모든 과정은 로컬(Locally)에서 진행됩니다: https://chromewebstore.google.com/detail/slop-hammer/gfjdmhfokmhedlgfggmmgchpppmhkdgg
onnx 형식의 모델은 여기 있습니다: https://huggingface.co/Slomin/slop_hammer_0_8_b/tree/main. 작은 면책 조항을 말씀드리자면, 이 모델은 Pangram의 EditLens 데이터셋 제한으로 인해 CC-BY-NC-SA-4.0 라이선스를 따릅니다.
관심 있는 분들을 위해 Pangram의 논문 링크를 공유합니다: https://arxiv.org/abs/2510.03154 – 상당히 흥미로운 접근 방식입니다 (단순히 하나의 0-1 부동 소수점 뉴런을 사용하는 대신 4개의 분포 버킷 (distribution buckets)을 사용합니다). 한계점은 주로 그들이 오픈 소스로 공개한 데이터셋이 이전의 LLM (Large Language Model) 모델들로 생성되었다는 점에 있습니다. 예를 들어, GPT-5.5에 대해서는 약간 혼란을 겪기도 합니다 (하지만 여전히 순수하게 인간이 작성한 것이 아니라 AI에 의해 편집된 것 등으로 표시합니다). LinkedIn이나 특정 subreddit 같이 슬롭 (slop, 저질 콘텐츠)이 가득한 웹사이트들을 살펴보는 것은 꽤나 웃깁니다...
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기