Pangram 데이터셋으로 미세 조정(Fine-tuned)된 Qwen 0.8B 기반 AI 콘텐츠 탐지기

저는 Pangram의 EditLens 논문에서 제공한 데이터셋을 사용하여 Qwen 3.5 0.8B를 미세 조정(Fine-tuned)했습니다. 이 모델은 Chrome 확장 프로그램을 통해 사용할 수 있습니다. 선택한 텍스트를 클릭하기만 하면 해당 텍스트가 AI에 의해 생성되었을 확률 분포(Probability distribution)를 보여줍니다. 제 M1 MacBook Pro에서는 1초 미만이 소요됩니다.

Pangram에서 자신들의 데이터셋으로 학습된 Llama 3.2 3B를 출시했지만, 저는 이 모델이 약간 구식(성능 대비 너무 큼)이라고 느꼈습니다. Qwen 0.8B (Base) 모델은 단일 RTX 3090에서 약 20시간 동안 미세 조정(Fine-tuning)한 결과, 결과적으로 충분히 좋은 성능을 보여주었습니다. Qwen 2B와 Gemma 4 e2b 및 e4b도 시도해 보았지만, 솔직히 말해서 Qwen 3.5 0.8B가 이 작업을 처리하기에 충분히 좋아 보였으며, 제가 출시 버전에 사용 중인 체크포인트(Checkpoint)에서 가장 좋은 결과를 얻었습니다.

여기 Chrome 확장 프로그램 링크가 있습니다 (이름을 Slop Hammer라고 지었습니다 😅). 설치하면 Hugging Face에서 모델(약 400MB)을 다운로드할 수 있으며, 이 단계 이후의 모든 과정은 로컬(Locally)에서 진행됩니다: https://chromewebstore.google.com/detail/slop-hammer/gfjdmhfokmhedlgfggmmgchpppmhkdgg

onnx 형식의 모델은 여기 있습니다: https://huggingface.co/Slomin/slop_hammer_0_8_b/tree/main. 작은 면책 조항을 말씀드리자면, 이 모델은 Pangram의 EditLens 데이터셋 제한으로 인해 CC-BY-NC-SA-4.0 라이선스를 따릅니다.

관심 있는 분들을 위해 Pangram의 논문 링크를 공유합니다: https://arxiv.org/abs/2510.03154 – 상당히 흥미로운 접근 방식입니다 (단순히 하나의 0-1 부동 소수점 뉴런을 사용하는 대신 4개의 분포 버킷 (distribution buckets)을 사용합니다). 한계점은 주로 그들이 오픈 소스로 공개한 데이터셋이 이전의 LLM (Large Language Model) 모델들로 생성되었다는 점에 있습니다. 예를 들어, GPT-5.5에 대해서는 약간 혼란을 겪기도 합니다 (하지만 여전히 순수하게 인간이 작성한 것이 아니라 AI에 의해 편집된 것 등으로 표시합니다). LinkedIn이나 특정 subreddit 같이 슬롭 (slop, 저질 콘텐츠)이 가득한 웹사이트들을 살펴보는 것은 꽤나 웃깁니다...

Insights

Pangram 데이터셋으로 미세 조정(Fine-tuned)된 Qwen 0.8B 기반 AI 콘텐츠 탐지기

요약

핵심 포인트

댓글

Franklin Resources의 다음 분기 실적 발표 전망

일주일 동안 AI에게 내 앱을 55번 테스트하게 했다. 무엇이 망가졌고, 내가 무엇을 망가뜨렸는가

Viatris 분기 실적 전망: 알아야 할 사항

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

Franklin Resources의 다음 분기 실적 발표 전망

일주일 동안 AI에게 내 앱을 55번 테스트하게 했다. 무엇이 망가졌고, 내가 무엇을 망가뜨렸는가

Viatris 분기 실적 전망: 알아야 할 사항

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기