논문: https://huggingface.co/papers/2605.00553... S-GFN은 유창성 안정화 장치(fluency
요약
Stable-GFlowNet은 생성 흐름 네트워크(Generative Flow Networks, GFNs)의 불안정성을 해결하기 위해 설계된 모델입니다. 이 모델은 쌍별 비교와 견고한 마스킹 기법을 활용하여 모드 붕괴를 방지하고 다양성을 유지합니다. 특히 '유창성 안정화 장치(fluency stabilizer)'를 도입함으로써 난해한 출력을 효과적으로 제거하고, 다양한 레드팀 공격 시나리오에서 높은 성능과 안정성을 입증했습니다.
핵심 포인트
- GFNs의 불안정한 분할 함수 추정 문제를 해결함.
- 쌍별 비교 및 견고한 마스킹을 통해 모드 붕괴를 방지하고 다양성을 유지함.
- '유창성 안정화 장치(S-GFN)'를 도입하여 출력의 유창성과 안정성을 높임.
- 다양한 레드팀 공격 벤치마크에서 우수한 성능과 견고함을 보여줌.
Stable-GFlowNet: Diverse하고 Robust한 LLM Red-Teaming을 향하여 Contrastive Trajectory Balance
Naver AI는 쌍별 비교(pairwise comparisons)와 견고한 마스킹(robust masking)을 통해 생성 흐름 네트워크(Generative Flow Networks)의 불안정한 분할 함수 추정(unstable partition function estimation)을 제거함으로써, 다양성을 유지하면서도 모드 붕괴(mode collapse)를 방지합니다.
논문:
https://huggingface.co/papers/2605.00553...
S-GFN은 유창성 안정화 장치(fluency stabilizer)를 도입하여 난해한 출력(gibberish outputs)을 방지하고 다양한 red-teaming 벤치마크에서 압도적인 공격 성능을 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기