본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 05. 14:18

3x Mac Mini 클러스터로 Reddit 포스트 요약에 LFM-2.5-350M 훈련: GRPO 기반 최종 평가 및 t-test 결과

요약

본 프로젝트는 3x Mac Mini 클러스터 환경에서 LFM-2.5-350M과 같은 소형 LLM을 활용하여 Reddit 포스트 요약 작업을 수행하는 방법을 다룹니다. 특히 GRPO(Generalized Reward Policy Optimization)를 기반으로 길이 페널티와 다양한 품질 보상(ROUGE-L, METEOR 등)을 결합한 최적의 보상 시스템을 구축하고 평가했습니다. 그 결과, 단순히 길이 페널티만 적용했을 때보다 여러 품질 지표가 통합된 복합 보상이 요약 품질 향상에 훨씬 효과적임을 입증했습니다.

핵심 포인트

  • 소형 LLM(LFM-2.5-350M)을 활용하여 긴 텍스트의 고품질 요약을 성공적으로 수행할 수 있음을 보여주었습니다.
  • GRPO를 사용하여 길이 페널티와 ROUGE-L, METEOR 등의 품질 보상을 결합한 복합 보상 시스템이 가장 우수한 성능(2.769/4)을 달성했습니다.
  • 클러스터 환경에서 훈련을 분산시키기 위해 MLX를 사용하고 SyncPS 아키텍처와 vLLM-metal 프레임워크를 결합하여 효율적인 병렬 처리를 구현했습니다.
  • 요약 품질 평가는 DeepEval 도구를 이용한 LLM-as-a-Judge(gpt-5) 방식으로, 충실도(Faithfulness), 포괄성(Coverage), 간결성(Conciseness), 명확성(Clarity) 네 가지 축으로 정량화되었습니다.

이 프로젝트에서 우리는 긴 텍스트 제약 (예: 64 토큰만) 을 가진 고품질 요약을 아주 작은 LLM 이 GRPO 를 사용하여 수행할 수 있는지 확인하고자 합니다!

https://preview.redd.it/6f3tou9xhixg1.png?width=2816&format=png&auto=webp&s=c0b11ea7c387c1e84e1ad2a9c7039630c2802025

따라서 저는 이 작업을 두 가지 변형으로 훈련시켰습니다:

  • 길이 페널티만 사용
  • 단일 품질 보상/그것들과 길이 페널티의 조합 사용

DeepEval 도구를 사용하여 요약 품질을 확인하기 위해 LLM-as-a-Judge 평가를 수행했습니다. 그 내용은 다음과 같습니다:

  • Consciencess
  • Coverage
  • Clarity
  • Faitfullness

결과가 첨부된 바 있으며, 최종 결과는 다음과 같습니다:

  • 품질 (ROUGE-L + METEOR) + 길이 페널티 보상: 2.7/4 (다시 승리!)
  • 길이 페널티만: 2.23/4

다른 보상에 대한 t-test 순위는 다음과 같습니다:

요약 표

Reward ConfigurationCompositeFaithfulnessCoverageConcisenessClarityPass Rate
length-quality-meteor-rouge2.7690.8320.5110.6590.76744.3%
...

smoltldr 데이터셋의 200 개의 테스트 샘플에서 수행됨. 베이스라인: 길이 페널티만

모든 코드와 wandb 차트는 댓글에 있습니다!

설치: MLX 를 사용하여 클러스터에서 3x Mac Minis 실행.

하나의 노드에서 GRPO 를 사용하여 훈련을 주도하고, 두 개의 노드는 vLLM-metal 프레임워크를 통해 롤아웃을 푸시합니다. 모든 작업은 smolcluster.com 을 사용하여 수행되었습니다.

SyncPS 아키텍처 사용: 마스터는 훈련이 이루어지는 노드이고, vllm 은 워크러 노드에 있는 동기적 파라미터 서버 아키텍처입니다.

평가:

LLM-as-a-Judge (gpt-5)

  • DeepEval 을 사용하여 각 요약을 4 개의 축에 대해 점수를 매기는 판별 파이프라인 구축:

Faithfulness — 출처와 일치하는 환각 없음 vs. Coverage — 주요 포인트 포착 Conciseness — 짧고 중복 없음 Clarity — 독립적으로 읽을 수 있음

합산 점수는 위의 점수의 평균입니다.

  • 보상 시스템

length_penalty: 기본적으로, -abs(response_length - MAX_LENGTH)

quality_rewards:

ROUGE-L 은 가장 긴 공통 부분 서열만 고려합니다. 동의어와 패러프레이스를 완전히 놓칩니다.

METEOR 은 두 가지 모두 처리합니다: WordNet 을 통한 동의어 매칭을 통해 토큰을 정렬하고 정확도 + 재현율의 균형을 유지하며 단락 순서 페널티를 적용합니다.

BLEU 는 n-gram 정확도와 길이 페널티에 더 중점을 둡니다.

https://preview.redd.it/0qdfrw3yhixg1.png?width=3540&format=png&auto=webp&s=e0b57364ceff3fc9302c13f21f907eea0d66ed5a

https://preview.redd.it/3d8cakdyhixg1.png?width=3568&format=png&auto=webp&s=b2f4516137d4b3b2798e5d6c2d118c3f7401dde9

https://preview.redd.it/bq9ep4myhixg1.png?width=3578&format=png&auto=webp&s=08d0c2025d7f5a7fbb33e9fadb5fa774c098fafb

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0