
개인적으로 llm-jp-4-vl-9b-beta를 FT 해보기 ── 학습 데이터 수집의 시행착오
요약
llm-jp-4-vl-9b-beta 모델의 LoRA 미세 조정을 위한 학습 데이터 수집 및 선정 과정을 다룹니다. 기존 Jagle 및 FineVision 데이터셋과의 중복을 피하기 위한 제외 조건 설정과 데이터 소스 분석에 초점을 맞춥니다.
핵심 포인트
- llm-jp-4-vl-9b-beta 모델 대상 LoRA 학습 수행
- Jagle 및 FineVision 데이터셋과의 중복 방지를 위한 제외 리스트 작성
- 데이터셋 라이선스(DEJIMA) 및 상업적 이용 가이드라인 검토
- 범용 목적의 멀티모달 학습을 위한 대체 데이터 선정 전략
llm-jp-4-vl-9b-beta LoRA 학습 데이터 제안
대상 모델: llm-jp-4-vl-9b-beta
기법: LoRA (Low-Rank Adaptation)
제외 조건: jagle・FineVision에서 사용된 데이터셋
목표 태스크: 범용 (general purpose)
작성일: 2026-05-25
최종 업데이트: 2026-05-27 (제3회: 미확인 사항 4건 조사 및 해결. DEJIMA 라이선스 확정・JDocQA SA 대응 지침・번역 품질 기준・COCO 상업적 이용 가이드라인 추가)
제외 데이터셋 목록
jagle 사용 데이터
출처: Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models— Sugiura et al. (llm-jp), arXiv:2604.02048, 2026.
약 920만 건・5개 카테고리・17개 서브셋. 기존 VQA 데이터셋에 의존하지 않고 일본어 데이터를 스크래치(scratch)로 구축.
Jagle (arXiv:2604.02048) Table 2를 통해 확인한 실제 사용 데이터:
| 카테고리 | 데이터 소스 |
|---|---|
| General VQA | japanese-photos, ja-vg-vqa, JSQuAD, llava-instruct-ja-qwen3vl (영어 LLaVA를 Qwen3-VL로 일본어화), Wiki-JA, WAON |
| ... | |
| ⚠️ |
주의: 기존 리스트에 있던 LLaVA-Instruct-150K (영어 원판) / ShareGPT4V / WIT (Wikipedia Image-Text) / LAION-COCO는 Jagle 및 관련 논문 arXiv:2410.22736에도 포함되어 있지 않음을 1차 소스 (Table 2)를 통해 확인 완료. 이들은 FineVision의 제외 대상이며 Jagle와는 별개임.
⚠️ ja-vg-vqa는 Jagle에 포함되어 있으므로, 카테고리 2의 JA-VQA는 권장 데이터에서 제외하고 대체 데이터를 선정할 것 (아래 참조).
FineVision 사용 데이터 (전체 목록)
출처: FineVision: Open Data Is All You Need— Luis Wiedmann et al. (HuggingFaceM4), arXiv:2510.17269, 2025.
HuggingFace: HuggingFaceM4/FineVision
200개 이상의 공개 데이터셋을 9개 카테고리・185개 서브셋으로 통합한 1,730만 이미지・2,430만 샘플의 대규모 코퍼스 (corpus).
<details> <summary>FineVision 전체 185개 서브셋 (클릭하여 펼치기)</summary>Captioning & Knowledge
coco_colors
, densefusion_1m
, face_emotion
, google_landmarks
, image_textualization(filtered)
, laion_gpt4v
, localized_narratives
, sharegpt4o
, sharegpt4v(coco)
, sharegpt4v(knowledge)
, sharegpt4v(llava)
, sharegpt4v(sam)
, textcaps
Grounding & Counting
aguvis-stage-1
, groundui
, objects365_qa
, oodvqa
, tallyqa
Science
ai2d_merged
, CoSyn_400k_chemical
, CoSyn_400k_circuit
, pathvqa
, pmc_vqa(mathv360k)
, scienceqa
, scienceqa(nona_context)
, tqa
, visualwebinstruct(filtered)
, vqarad
Mathematics
geoqa+(mathv360k)
, unigeo(mathv360k)
, clevr
수학 (Mathematics)
clevr_math
clevr_math(mathv360k)
CoSyn_400k_math
geo170k(align)
geo170k(qa)
geo3k
geometry3k(mathv360k)
geomverse
geos(mathv360k)
intergps
mavis_math_metagen
mavis_math_rule_geo
raven
super_clevr(mathv360k)
텍스트 전용 (Text-only, 이미지 없음)
text_ruozhiba
text_code_feedback
text_codefeedback_filtered_instruction
text_infinitymath
text_mathinstruct
text_mathqa
text_mathstepdpo10k
text_numinamath_cot
text_openhermes_2_5
text_openorca
text_orcamath
text_pythoncode25k
text_pythoncodealpaca
text_theoremqa
text_wizardlm_evol
text_OpenMathInstruct-2
차트 및 테이블 (Chart & Table)
Unichart
tat_dqa
chart2text
chartqa
CoSyn_400k_chart
CoSyn_400k_table
dvqa
figureqa
figureqa(mathv360k)
finqa
hitab
lrv_chart
mmc_instruct
multihiertt
plotqa
robut_sqa
robut_wikisql
robut_wtq
SynthChartNet
tabmwp
tabmwp(mathv360k)
tat_qa
vistext
vqaonbd
일반 VQA (General VQA)
alfworldgpt
chinesememe
wildvision
allava_laion
allava_vflan
LLaVA_Instruct_150K
datik
cambrian(filtered)_processed
cocoqa
CoSyn_400k_graphic
datikz
drivelm
hateful_memes
iconqa
iconqa(mathv360k)
idk
indoor_qa
llavar_gpt4_20k
lnqa
lrv_normal(filtered)
lvis_instruct4v
mimic_cgd
mmevol
mmra
nlvr2
sketchyvqa
spark
spatialsense
spot_the_diff
vision_flan(filtered)
visual7w
vizwiz(mathv360k)
vqav2
vsr
websight
yesbut
단순 OCR (Naive OCR)
ctw
k12_printing
svrd
tal_ocr_eng
mathwriting-google
art
captcha
chrome_writting
cocotext
funsd
hme100k
hw_squad
iam
iiit5k
imgur5k
latex_handwritten
latexformulas
maptext
memotion
orand_car_a
, sroie, SynthCodeNet, synthdog, SynthFormulaNet, wordart, olmOCR-mix-0225-documents, olmOCR-mix-0225-books`
OCR QA
a_okvqa, est_vqa, mmsoc_memotion, arxivqa, DoclingMatix, ureader_qa_processed, aokvqa, bentham, blockdiagramcomputerized, blockdiagramhandwritten, CoSyn_400k_diagram, CoSyn_400k_document, CoSyn_400k_music, CoSyn_400k_nutrition, diagram_image_to_text, docvqa, handwriting_forms, infographic_vqa, infographic_vqa_llava_format, infographic(gpt4v), invoices_receipts, mapqa, mapqa(mathv360k), ocrvqa, pdfvqa, screen2words, screenqa, slidevqa, st_vqa, sujet_finance, textocr(gpt4v), textvqa, ureader_cap, ureader_ie, ureader_kg_processed, visualmrc
일본어 VLM에 대한 주의사항: FineVision은 영어 중심의 코퍼스입니다. chinesememe(중국어)는 포함되어 있지만, 일본어 고유 데이터는 포함되어 있지 않습니다. 다만 COCO 계열・VQAv2・TextVQA・ShareGPT4V 등 주요 영어 데이터는 모두 망라하고 있으므로, 이를 독자적으로 번역하여 이용할 경우에도 실질적으로 중복으로 간주해야 합니다.
일본어 대응 데이터셋 요약표
목적: llm-jp-4-vl-9b-beta는 일본어 VLM입니다. 학습 데이터의 일본어 대응 상황을 일람하여 파악하기 위한 요약표입니다.
범례: 🟢 네이티브 일본어(그대로 사용 가능) / 🟡 번역판 있음 또는 번역 작업 필요 / 🔴 영어만 (번역 필수)
즉시 전력: 네이티브 일본어・번역 불필요
| 데이터셋 | 태스크 | 규모 | 라이선스 | 상업 이용 | 상태 |
|---|---|---|---|---|---|
| 🟢 STAIR Captions | 이미지 캡션 | 164K 이미지 × 5문 | CC BY 4.0 | ⚠️ COCO 이미지 주의 | ✅ 추천 |
| 🟢 YJ Captions 26k | 이미지 캡션 | 26.5K 이미지 × 5문 | CC BY 4.0 | ⚠️ COCO 이미지 주의 | ✅ 추천 |
| 🟢 DEJIMA | 캡션 + VQA | 각 388만 건 × 복수 버전 | Apache 2.0 | ✅ 가능 (어노테이션) | ✅ 최우선 추천 |
| 🟢 JDocQA | 문서 VQA | 11.6K Q&A / 5,504 PDF | CC BY-SA 4.0 | ✅ 가능 (SA 주의) | ✅ 추천 |
| 🟢 CT-RATE-JPN | 의료 리포트 VQA | — | CC BY-NC-SA 4.0 | ❌ 비상업적만 | ⚠️ 용도 제한 |
| 🟢 라쿠텐 상품 이미지 데이터 | EC 상품 설명 | — | 커스텀 (개별 계약) | ❌ 불가 | ⚠️ 신청제・학술기관 전용 |
| 🟢 Manga109 | 만화 이해 | 21,142 페이지 | 커스텀 (비상업적) | ❌ 불가 | ⚠️ 비상업적만 |
| 🟢 일본어LLaVA-Wild 합성 데이터 | 지시 추종 | 자체 제작 가능 | 자사 | ✅ 가능 | ✅ 자체 제작 추천 |
| 데이터셋 | 태스크 | 규모 | 라이선스 | 상업적 이용 | 번역 상황 |
|---|---|---|---|---|---|
| 🟡 Flickr30k Japanese | |||||
| 이미지 캡셔닝 (Image Captioning) | 31K 이미지 × 5문장 | 커스텀 (비상업적) | ❌ 불가 | Flickr30kEnt-JP로 GitHub 공개 완료 (연구용으로만 사용 가능) | |
| 🟡 ScienceQA (번역) | |||||
| 과학·도표 VQA (Visual Question Answering) | 12.7K건 (train) | CC BY-NC-SA 4.0 | ❌ 불가 | 자체 번역 필요. COMET-Kiwi ≥ 0.80으로 필터링 권장 | |
| 🟡 A-OKVQA (번역) | |||||
| 상식·세계 지식 VQA | 24.9K건 | Apache 2.0 | ✅ 가능 | 자체 번역 필요. 라이선스가 가장 완화됨 | |
| 🟡 Visual7W (번역) | |||||
| 7종 VQA | 327.9K건 | CC BY 4.0 | ⚠️ COCO 주의 | 자체 번역 필요 | |
| 🟡 VIST (Visual Storytelling) | |||||
| 스토리 생성 (Story Generation) | SIS: 50.2K stories | 커스텀 (비상업적) | ❌ 불가 | 영어 전용. 일본어화하려면 생성 또는 번역이 필요 |
영어 전용·번역 없이는 사용 불가
| 데이터셋 | 태스크 | 규모 | 비고 |
|---|---|---|---|
| 🔴 Localized Narratives | |||
| 상세 캡셔닝 (Detailed Captioning) | 849K | 어노테이션(Annotation)이 영어로만 되어 있음. 번역 비용이 높음 | |
| 🔴 Visual Genome (영어) | |||
| 영역 VQA (Region VQA)·그래프 | 108K 이미지 | 일본어 번역판 (전체 어노테이션)은 공개되지 않음 |
제외 대상 (참고: 일본어 데이터이나 사용 불가)
| 데이터셋 | 제외 이유 | 일본어 상태 |
|---|---|---|
| Jagle의 학습 데이터에 포함됨 → 제외 조건에 해당 | 🟢 네이티브 일본어 |
일본어 네이티브 데이터로만 구성할 경우의 최소 구성안
🟢 STAIR Captions → 캡셔닝 기반 (164K 이미지, 네이티브)
🟢 YJ Captions 26k → 캡셔닝 보완 (26.5K 이미지, 네이티브)
🟢 DEJIMA → VQA 주력 (388만 건, Apache 2.0, 네이티브)
...
합계: 약 400만 건 이상의 네이티브 일본어 멀티모달 (Multimodal) 데이터 확보 가능.
번역 데이터 없이도 충분한 규모로 구성할 수 있음.
권장 데이터셋
카테고리 1: 일본어 캡셔닝·기술형
| 데이터셋 | 규모 | 설명 | 링크 |
|---|---|---|---|
| STAIR Captions | |||
| 164,062 이미지 × 5 캡션 (약 820K 문장) | MS-COCO 이미지에 대한 일본어 캡션 (치바 공업대학 STAIR Lab 제작). 고품질의 자연어 기술 | ||
| GitHub / 논문 arXiv:1705.00823 | |||
| YJ Captions 26k | |||
| 약 26,500 이미지 × 5 캡션 (약 134K 문장) | Yahoo Japan이 정비한 일본어 캡션 (MS-COCO 기반). 「134K 페어」는 문장 수이며 이미지 수는 약 26,500 | ||
| GitHub / 논문 ACL2016 | |||
| Flickr30k Japanese | |||
| 약 31,000 이미지 × 5 캡션 | 일상 장면의 다양한 일본어 캡션 | ※ HF 번역판은 확인 필요. 오리지널: 공식 | |
| Localized Narratives | |||
| 약 849K | 이미지를 보며 음성으로 이야기하는 타입의 상세 기술 (Google 제작). 영어 어노테이션만 확인됨. 일본어 콘텐츠는 미확인 상태이므로 번역 필요 | 공식 |
카테고리 2: 일본어 VQA 계열
| 데이터셋 | 규모 | 설명 | 링크 |
|---|---|---|---|
| JA-VQA (ja-vg-vqa) | Jagle이 ja-vg-vqa를 학습 데이터로 사용하고 있으므로 제외 조건에 해당. 제외 리스트를 참조할 것 | ||
| DEJIMA | Cap: 약 388만 건 × 4개 변형, VQA: 약 388만 건 × 3개 변형 | 일본어 캡션(Caption) + VQA의 대규모 통합 데이터셋 (도쿄대학 MIL). Web 수집 → 객체 탐지(Object Detection) → LLM 리파인(Refine) 파이프라인. Apache 2.0 (어노테이션 부분). 이미지는 URL로만 배포 (각 소스의 저작권에 따름) | HF: MIL-UT/DEJIMA-dataset / arXiv:2512.00773 |
| ScienceQA (번역) | 전체 21,208건 (train 분할: 약 12,726건) | 과학 · 도표 추론. 멀티모달 (Multimodal) 문항은 10,332건. 멀티스텝 (Multi-step) 사고가 필요함. FineVision에도 포함되어 있으므로, 일본어 번역판으로 한정 | HF: derek-thomas/ScienceQA / 논문 NeurIPS2022 |
| A-OKVQA (번역) | 약 24,900건 (train 17,100 / val 1,150 / test 6,700) | 상식 추론 · 세계 지식을 요구하는 시각 QA. FineVision에도 포함되어 있으므로 일본어 번역판으로 한정 | HF: HuggingFaceM4/A-OKVQA / 논문 arXiv:2206.01718 |
| Visual7W (번역) | 327,939건, 47,300 COCO 이미지 | what / where / when / who / why / how / which 의 7종 QA. FineVision에 visual7w로 포함되어 있으므로 일본어 번역판으로 한정 | 공식 / 논문 arXiv:1511.03416 |
카테고리 3: 지시 추종 (Instruction Following) · 대화계
| 데이터셋 | 규모 | 설명 | 링크 |
|---|---|---|---|
| VIST (Visual Storytelling) | DII: 20,211 시퀀스 / 81,743장 (유니크 이미지), SIS: 50,200 스토리 / 약 209,651장 (누적 이미지) | 이미지 열로부터 이야기를 생성하는 태스크. 시계열 시각 추론 (Temporal Visual Reasoning)에 유효. DII (이미지 단독 기술)와 SIS (스토리 생성)의 2개 서브 태스크로 통계적 축이 다르므로 혼동 주의 | 공식 |
| Japanese Visual Genome (번역판) | — | 삭제: Visual Genome의 모든 어노테이션 (영역 기술 · 속성 · 관계 그래프)의 일본어 번역판은 공개 데이터셋으로 존재하지 않음. VQA 쌍(Pair)만의 일본어화 (ja-vg-vqa)는 Jagle에 포함되어 있으므로 제외 대상. | — |
| 일본어 LLaVA-Wild 합성 데이터 | 자체 제작 가능 | GPT-4o / Claude로 일본어의 복잡한 지시 응답을 생성. 독자적 수집 | — |
⚠️
Buncho(ぶんちょう)는 삭제: llm-jp 공개 논문 · HuggingFace · GitHub 어디에서도 실재를 확인할 수 없었음. 가공 또는 비공개 내부 데이터셋일 가능성이 높아 참조 불가.
카테고리 4: 특수 도메인 (목표 태스크 의존)
| 데이터셋 | 도메인 | 규모 | 설명 | 링크 |
|---|---|---|---|---|
| JDocQA | 문서 · 장표 | 약 11,600 Q&A / 5,504 PDF | 일본어 문서 이미지 QA. 청구서 · 보고서 · 매뉴얼 등 | HF: shunk031/JDocQA / 논문 arXiv:2403.19454 |
| CT-RATE-JPN | 의료 (CT) | — | CT 이미지 + 일본어 방사선 리포트. JRRD는 공개 데이터로 존재가 확인되지 않으므로 이것을 참조 | HF: YYama0/CT-RATE-JPN |
| 라쿠텐 상품 이미지 데이터 | EC | — | 상품 이미지 + 일본어 설명. NII / ALAGINE 경유의 신청제 (직접 DL 불가) | Rakuten Data |
| Manga109 | 만화 | 109권 / 21,142페이지 / 50만 건 이상의 어노테이션 | 일본어 만화 장면의 캐릭터 · 말풍선 · 프레임 어노테이션 | 공식 |
데이터 선정의 추가 관점
1. 라이선스 목록 (조사 완료)
데이터셋별 라이선스 상세
| 데이터셋 | 라이선스 | 상업적 이용 | 모델 배포 | 주요 제한 사항 · 출처 |
|---|---|---|---|---|
| STAIR Captions | CC BY 4.0 | ⚠️ 주의 필요 | ✅ 가능 | 캡션 자체는 가능. COCO 이미지는 Flickr ToU (혼재)를 따름. GitHub |
| YJ Captions 26k | CC BY 4.0 | ⚠️ 주의 필요 | ✅ 가능 | 위와 동일. COCO 이미지 제약을 계승. GitHub |
| Flickr30k | 커스텀 · 비상업용 | ❌ 불가능 | ❌ 불가능 | 연구 · 교육 목적만 가능. Flickr ToU 제약 있음. 공식 |
| Localized Narratives | CC BY 4.0 (어노테이션) | ⚠️ 부분적 | ✅ 가능 | 어노테이션은 가능. Open Images 서브셋 이용 시에만 상업적 이용 가능. COCO 부분은 제약 있음. 공식 |
| JA-VQA (ja-vg-vqa) | CC BY 4.0 | ✅ 가능 | ✅ 가능 | Jagle의 학습 데이터에 포함되어 있어 제외 대상 |
| DEJIMA | Apache 2.0 (어노테이션) | ✅ 가능 | ✅ 가능 | 어노테이션 · 데이터 구조는 Apache 2.0. 이미지는 URL만 배포하므로 각 소스의 저작권을 따름 (이미지 다운로드 후의 상업적 이용은 개별 확인이 필요할 수 있음). HF |
| ScienceQA | CC BY-NC-SA 4.0 | ❌ 불가능 | ❌ 불가능 | 비상업 · ShareAlike. HF 표시는 CC BY-SA 4.0이나 공식 GitHub가 CC BY-NC-SA 4.0으로 정식임. 공식 LICENSE |
| A-OKVQA | Apache 2.0 | ✅ 가능 | ✅ 가능 | 가장 제약이 적음. 라이선스 · 저작권 표시 유지 필요. 이미지는 COCO 제약 있음. GitHub |
| Visual7W | CC BY 4.0 | ⚠️ 주의 필요 | ✅ 가능 | Visual Genome 계승. COCO 이미지 제약이 파급됨. 귀속 표시 필수. 공식 |
| VIST | 커스텀 · 비상업용 | ❌ 원칙적 불가능 | ❌ 불가능 | "commercial advantage 또는 monetary compensation 목적의 사용 불가"라고 명시됨. 일부 CC BY-SA 샘플 제외. 공식 |
| Visual Genome | CC BY 4.0 | ✅ 가능 | ✅ 가능 | 귀속 표시 필수 (Ranjay Krishna 등의 크레딧). 이미지는 COCO/Flickr 제약 있음. HF |
| JDocQA | CC BY-SA 4.0 | ✅ 가능 | ⚠️ 주의 필요 | 상업적 이용은 가능. 단, ShareAlike: 파생 데이터셋 · 성과물도 동일 라이선스로 공개 필요. HF |
| CT-RATE-JPN | CC BY-NC-SA 4.0 | ❌ 불가능 | ❌ 불가능 | 비상업 연구 목적만 가능. ShareAlike. GPT-4o-mini 생성 데이터를 포함하므로 OpenAI ToU 준수도 필요. HF |
| 라쿠텐 상품 데이터 | 커스텀 계약 (개별) | ❌ 불가능 | ❌ 불가능 | 학술 기관 전용. 민간 기업은 신청 불가. NII/ALAGINE을 통해 개별 계약 · 서명이 필요. 이용 종료 후에는 데이터 삭제 의무 있음. 신청 창구 |
| Manga109 | 커스텀 (2종) | ❌ / ⚠️ | ❌ / ⚠️ | 본편 (Manga109): 비상업 학술용만 가능. 재배포 금지. / s판 (Manga109-s): 실험 결과의 상업적 이용 가능. 이미지 판매 · 재배포는 두 버전 모두 불가능. 공식 |
MS-COCO 이미지 라이선스 주의 사항 (STAIR / YJ / A-OKVQA / Visual7W에 파급)
COCO 컨소시엄은 이미지의 저작권을 보유하고 있지 않다. 이미지의 저작권은 각 Flickr 사용자에게 귀속되어 있으며, 라이선스가 CC BY / CC BY-NC / All Rights Reserved 등으로 혼재되어 있다. 어노테이션 (Annotation) 부분 (CC BY 4.0)은 상업적 이용이 가능하지만,
이미지를 포함한 학습 데이터로서의 상업적 이용은 그레이 존 (Gray Zone)이다.
참조: COCO Terms of Use
실무상의 대응 지침 (조사 완료):
| 이용 형태 | COCO 이미지 취급 | 권장 대응 |
|---|---|---|
| 학술 연구 · 사내 이용만 하는 경우 | 리스크 낮음 | 현재 상태 그대로 이용 가능 |
| ... | 법무 확인 필수. COCO 비의존 데이터 (DEJIMA / STAIR의 URL 다운로드분의 개별 확인 등)로의 전환도 검토 |
Flickr 이용 약관(Terms of Use)은 상업적 이용을 금지합니다. COCO dataset GitHub의 공식 issue에서도 "어노테이션(Annotation)은 CC BY 4.0이지만, 이미지의 상업적 이용은 Flickr ToU를 위반할 가능성이 있다"라고 인정하고 있습니다 (cocodataset/cocoapi#551).
HuggingFace 표시와 공식 라이선스의 괴리
ScienceQA (derek-thomas/ScienceQA)는 HF 데이터 카드에 CC BY-SA 4.0으로 표시되어 있으나, 공식 GitHub 리포지토리 (lupantech/ScienceQA)의 것이 정식입니다. HF의 표시를 신뢰하지 마십시오. LICENSE-DATA는 CC BY-NC-SA 4.0입니다.
범용 태스크(Task)용: 이용 권장도 맵
◎ 안심하고 사용할 수 있음 (상업·연구 모두 가능)
→ A-OKVQA (Apache 2.0)
→ DEJIMA (Apache 2.0, 어노테이션 부분) ← JA-VQA 대체
...
ShareAlike (SA)와 모델 가중치의 관계
CC BY-SA 또는 CC BY-NC-SA 데이터로 학습한 모델 가중치가 "파생물(Derivative Works)"에 해당하는지는 법적으로 미결정 상태입니다. **Creative Commons 공식 가이드라인 (2025년 5월)**의 견해:
"많은 경우, AI 모델 및 그 출력물은 훈련 데이터의 파생물로 간주되지 않습니다. 다만, 이는 사실관계 및 관할권에 따라 다르며 보편적인 정답은 존재하지 않습니다. 본 가이드라인은 가장 보수적인 입장에서, 공개 공유할 경우에는 동일한 라이선스로 공개할 것을 권장합니다."
— Using CC-licensed Works for AI Training, CC 2025
현 시점에서의 실무적 대응:
| 상황 | 권장 대응 |
|---|---|
| 연구·사내 이용만 하는 경우 | SA 데이터를 포함해도 실질적인 리스크는 낮음 |
| ... |
JDocQA 고유의 판단: JDocQA (CC BY-SA 4.0)로 학습한 모델을 외부에 공개할 경우, CC의 보수적인 가이드라인에 따르면 모델도 CC BY-SA 4.0으로 공개하는 것이 바람직합니다. 이것이 수용되지 않을 경우에는 JDocQA를 제외하십시오.
2. 일본어의 네이티브 수준
AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기