arXiv논문2026. 06. 29. 11:26

Yuvion LLM: 콘텐츠 및 AI 안전을 위한 적대적 인지 대규모 언어 모델

요약

Yuvion LLM은 적대적 공격에 대비한 콘텐츠 및 AI 안전성을 강화하기 위해 설계된 모델입니다. 계획, 도구 사용, 다단계 추론 등 복잡한 시나리오에서도 견고한 성능을 유지하며, 새로운 평가 벤치마크인 YLRE를 함께 제안합니다.

핵심 포인트

적대적 견고성과 에이전트 능력을 핵심 목표로 설정
위험 인지 지도 미세 조정 및 강화 학습 기반 정책 최적화 적용
93개 벤치마크를 포함한 Yuvion LLM RiskEval(YLRE) 공개
Yuvion-8B 모델이 대규모 최첨단 모델 대비 우수한 안전 성능 입증

대규모 언어 모델 (LLM)이 실제 시스템에 점점 더 많이 배치됨에 따라, 안전 실패는 여전히 유해한 출력과 위험한 오용으로 이어질 수 있습니다. 우리는 안전의 본질이 적대적 (adversarial)이라고 주장합니다. 즉, 많은 실패는 자연스러운 입력뿐만 아니라 모델 정책과 보호 장치를 회피하려는 전략적인 시도로 인해 발생합니다. 그러나 기존의 범용 모델 개발은 이러한 적대적 특성을 크게 간과하고 있으며, 계획 (planning), 도구 사용 (tool use), 다단계 추론 (multi-step reasoning)을 포함하는 현실적인 안전 시나리오에는 종종 불충분하여, 측정된 안전 성능이 실제 배포 시의 견고성 (robustness)을 과대평가하게 만듭니다.

이러한 격차를 해소하기 위해, 우리는 적대적으로 견고한 콘텐츠 안전 및 더 넓은 AI 안전을 위해 구축된 대규모 언어 모델인 Yuvion LLM을 제시합니다. Yuvion LLM은 적대적 견고성 (adversarial robustness)과 에이전트 능력 (agentic capability)을 일급 객체 (first-class objectives)로 취급합니다. 이 모델의 파이프라인은 적대적 인지 데이터 구축 (adversarially aware data construction), 지식 강화 지속 사전 학습 (knowledge-enhanced continued pretraining), 그리고 위험 인지 지도 미세 조정 (risk-aware supervised fine-tuning) 및 강화 학습 기반 정책 최적화 (reinforcement learning-based policy optimization)를 포함하여 정책에 기반한 다중 작업 안전 사후 학습 (policy-grounded multi-task safety post-training)을 결합하며, 복잡한 안전 시나리오에서의 도구 사용 및 다단계 추론을 위한 안전 인지 에이전트 강화 학습 (safety-aware agentic reinforcement learning)을 함께 제공합니다.

나아가 우리는 안전, 적대적 견고성 및 실제 역량 요구 사항에 초점을 맞춘 다양한 공개 및 내부 평가를 아우르는 4가지 평가 범주의 93개 벤치마크 모음인 Yuvion LLM RiskEval (YLRE)을 소개합니다. 이러한 평가 전반에 걸쳐 Yuvion LLM은 안전 중심 벤치마크에서 명확한 우위를 점하고 특히 적대적 조건 하에서 매우 강력한 견고성을 입증하는 동시에, 탄탄한 전반적 역량을 유지합니다. 특히, Yuvion-8B는 여러 안전 작업에서 GPT-5.4 및 Qwen3-MAX와 같은 훨씬 더 큰 모델을 포함한 대부분의 최첨단 (state-of-the-art) 베이스라인 모델보다 뛰어난 성능을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Yuvion LLM: 콘텐츠 및 AI 안전을 위한 적대적 인지 대규모 언어 모델

요약

핵심 포인트

댓글