3x Mac Mini 클러스터로 Reddit 포스트 요약에 LFM-2.5-350M 훈련: GRPO 기반 최종 평가 및 t-test 결과
요약
본 프로젝트는 3x Mac Mini 클러스터 환경에서 LFM-2.5-350M과 같은 소형 LLM을 활용하여 Reddit 포스트 요약 작업을 수행하는 방법을 다룹니다. 특히 GRPO(Generalized Reward Policy Optimization)를 기반으로 길이 페널티와 다양한 품질 보상(ROUGE-L, METEOR 등)을 결합한 최적의 보상 시스템을 구축하고 평가했습니다. 그 결과, 단순히 길이 페널티만 적용했을 때보다 여러 품질 지표가 통합된 복합 보상이 요약 품질 향상에 훨씬 효과적임을 입증했습니다.
핵심 포인트
- 소형 LLM(LFM-2.5-350M)을 활용하여 긴 텍스트의 고품질 요약을 성공적으로 수행할 수 있음을 보여주었습니다.
- GRPO를 사용하여 길이 페널티와 ROUGE-L, METEOR 등의 품질 보상을 결합한 복합 보상 시스템이 가장 우수한 성능(2.769/4)을 달성했습니다.
- 클러스터 환경에서 훈련을 분산시키기 위해 MLX를 사용하고 SyncPS 아키텍처와 vLLM-metal 프레임워크를 결합하여 효율적인 병렬 처리를 구현했습니다.
- 요약 품질 평가는 DeepEval 도구를 이용한 LLM-as-a-Judge(gpt-5) 방식으로, 충실도(Faithfulness), 포괄성(Coverage), 간결성(Conciseness), 명확성(Clarity) 네 가지 축으로 정량화되었습니다.
이 프로젝트에서 우리는 긴 텍스트 제약 (예: 64 토큰만) 을 가진 고품질 요약을 아주 작은 LLM 이 GRPO 를 사용하여 수행할 수 있는지 확인하고자 합니다!
따라서 저는 이 작업을 두 가지 변형으로 훈련시켰습니다:
- 길이 페널티만 사용
- 단일 품질 보상/그것들과 길이 페널티의 조합 사용
DeepEval 도구를 사용하여 요약 품질을 확인하기 위해 LLM-as-a-Judge 평가를 수행했습니다. 그 내용은 다음과 같습니다:
- Consciencess
- Coverage
- Clarity
- Faitfullness
결과가 첨부된 바 있으며, 최종 결과는 다음과 같습니다:
- 품질 (ROUGE-L + METEOR) + 길이 페널티 보상: 2.7/4 (다시 승리!)
- 길이 페널티만: 2.23/4
다른 보상에 대한 t-test 순위는 다음과 같습니다:
요약 표
| Reward Configuration | Composite | Faithfulness | Coverage | Conciseness | Clarity | Pass Rate |
|---|---|---|---|---|---|---|
length-quality-meteor-rouge ⭐ | 2.769 | 0.832 | 0.511 | 0.659 | 0.767 | 44.3% |
| ... |
smoltldr 데이터셋의 200 개의 테스트 샘플에서 수행됨. 베이스라인: 길이 페널티만
모든 코드와 wandb 차트는 댓글에 있습니다!
설치: MLX 를 사용하여 클러스터에서 3x Mac Minis 실행.
하나의 노드에서 GRPO 를 사용하여 훈련을 주도하고, 두 개의 노드는 vLLM-metal 프레임워크를 통해 롤아웃을 푸시합니다. 모든 작업은 smolcluster.com 을 사용하여 수행되었습니다.
SyncPS 아키텍처 사용: 마스터는 훈련이 이루어지는 노드이고, vllm 은 워크러 노드에 있는 동기적 파라미터 서버 아키텍처입니다.
평가:
LLM-as-a-Judge (gpt-5)
- DeepEval 을 사용하여 각 요약을 4 개의 축에 대해 점수를 매기는 판별 파이프라인 구축:
Faithfulness — 출처와 일치하는 환각 없음 vs. Coverage — 주요 포인트 포착 Conciseness — 짧고 중복 없음 Clarity — 독립적으로 읽을 수 있음
합산 점수는 위의 점수의 평균입니다.
- 보상 시스템
length_penalty: 기본적으로, -abs(response_length - MAX_LENGTH)
quality_rewards:
ROUGE-L 은 가장 긴 공통 부분 서열만 고려합니다. 동의어와 패러프레이스를 완전히 놓칩니다.
METEOR 은 두 가지 모두 처리합니다: WordNet 을 통한 동의어 매칭을 통해 토큰을 정렬하고 정확도 + 재현율의 균형을 유지하며 단락 순서 페널티를 적용합니다.
BLEU 는 n-gram 정확도와 길이 페널티에 더 중점을 둡니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기