r/LocalLLaMA분석2026. 06. 20. 21:47

SupraLabs에서 공개한 세계 최대 규모의 채팅 제목 데이터셋

요약

SupraLabs가 기존 기록을 경신하는 세계 최대 규모의 채팅 제목 데이터셋을 공개했습니다. 지시어 튜닝, 분류 스타일 제목 생성, 소형 모델 벤치마킹 등에 활용할 수 있는 필터링 및 비필터링 버전을 모두 제공합니다.

핵심 포인트

115K 규모의 필터링된 채팅 제목 데이터셋 출시
지시어 튜닝 및 모델 벤치마킹 용도로 최적화
필터링 버전과 사용자 맞춤형 비필터링 버전 모두 제공

며칠 전 Hugging Face에서 "Chat title dataset"을 검색했을 때 얻을 수 있었던 가장 큰 채팅 제목 데이터셋은 "ogrnz/chat-titles"였으나, 최근 SupraLabs에서 우리는 10k 샘플에서 115k 샘플로 세계 기록을 경신하는 115K 필터링된 데이터셋을 큐레이션했습니다!

SupraLabs
우리는 지시어 튜닝 (Instruction tuning), 분류 스타일의 제목 생성 (Classification-style title generation), 또는 소형 모델의 벤치마킹 (Benchmarking)에 유용할 수 있는 채팅 제목 생성 데이터셋 세트를 출시했습니다.

이번 출시는 필터링된 버전과 필터링되지 않은 버전을 모두 포함합니다:

필터링된 버전 (Filtered): SupraLabs/chat-titles-filtered-115K
필터링되지 않은 버전 (Unfiltered): SupraLabs/chat-titles-unfiltered-150K
기존 버전 (Legacy release): SupraLabs/chat-titles-12K

대부분의 학습 실행에는 필터링된 버전을 일반적으로 권장하며, 필터링되지 않은 버전은 자신만의 정제 및 필터링 파이프라인 (Cleaning and filtering pipeline)을 적용하는 것을 선호하는 분들을 위해 제공됩니다.

우리는 이 데이터셋으로 실험하는 모든 분들로부터, 특히 데이터 품질, 필터링 접근 방식, 그리고 다양한 모델 크기에 따른 제목 생성 성능에 관한 피드백을 듣고 싶습니다.

질문, 제안, 비판 모두 환영합니다.

제출자: /u/Time-Toe-1276
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

SupraLabs에서 공개한 세계 최대 규모의 채팅 제목 데이터셋

요약

핵심 포인트

댓글