본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 10. 14:39

NVIDIA가 Hugging Face에 법률 사전 학습 (Pretraining) 데이터셋을 공개했습니다

요약

NVIDIA가 Hugging Face를 통해 960만 개의 법률 관련 합성 데이터셋을 공개했습니다. 이 데이터셋은 계약서, 판례, 규제 데이터를 포함하며 Nemotron 3의 법률 벤치마크 성능을 크게 향상시켰습니다.

핵심 포인트

  • 960만 개의 법률 합성 데이터셋 공개
  • Nemotron 3의 LegalBench 점수 대폭 향상 (64.6 -> 74.7)
  • 계약서, 판례, 규제 데이터 포함
  • 상업적 이용 가능

NVIDIA가 Hugging Face에 법률 사전 학습 (Pretraining) 데이터셋을 공개했습니다.

계약서, 판례, 규제에 관한 960만 개의 합성 (Synthetic) 샘플이 포함되어 있습니다.

하나의 어블레이션 (Ablation) 실험을 통해 Nemotron 3의 LegalBench 점수를 64.6에서 74.7로 끌어올렸습니다.

상업적 이용이 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0