llm-jp-4-vl-9b-beta LoRA 학습 데이터 제안

대상 모델: llm-jp-4-vl-9b-beta

기법: LoRA (Low-Rank Adaptation)

제외 조건: jagle・FineVision에서 사용된 데이터셋

목표 태스크: 범용 (general purpose)

작성일: 2026-05-25

최종 업데이트: 2026-05-27 (제3회: 미확인 사항 4건 조사 및 해결. DEJIMA 라이선스 확정・JDocQA SA 대응 지침・번역 품질 기준・COCO 상업적 이용 가이드라인 추가)

제외 데이터셋 목록

jagle 사용 데이터

출처: Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models— Sugiura et al. (llm-jp), arXiv:2604.02048, 2026.

약 920만 건・5개 카테고리・17개 서브셋. 기존 VQA 데이터셋에 의존하지 않고 일본어 데이터를 스크래치(scratch)로 구축.

Jagle (arXiv:2604.02048) Table 2를 통해 확인한 실제 사용 데이터:

카테고리	데이터 소스
General VQA	japanese-photos, ja-vg-vqa, JSQuAD, llava-instruct-ja-qwen3vl (영어 LLaVA를 Qwen3-VL로 일본어화), Wiki-JA, WAON
...
⚠️

주의: 기존 리스트에 있던 LLaVA-Instruct-150K (영어 원판) / ShareGPT4V / WIT (Wikipedia Image-Text) / LAION-COCO는 Jagle 및 관련 논문 arXiv:2410.22736에도 포함되어 있지 않음을 1차 소스 (Table 2)를 통해 확인 완료. 이들은 FineVision의 제외 대상이며 Jagle와는 별개임.

⚠️ ja-vg-vqa는 Jagle에 포함되어 있으므로, 카테고리 2의 JA-VQA는 권장 데이터에서 제외하고 대체 데이터를 선정할 것 (아래 참조).

FineVision 사용 데이터 (전체 목록)

출처: FineVision: Open Data Is All You Need— Luis Wiedmann et al. (HuggingFaceM4), arXiv:2510.17269, 2025.

HuggingFace: HuggingFaceM4/FineVision

200개 이상의 공개 데이터셋을 9개 카테고리・185개 서브셋으로 통합한 1,730만 이미지・2,430만 샘플의 대규모 코퍼스 (corpus).

<details> <summary>FineVision 전체 185개 서브셋 (클릭하여 펼치기)</summary>

Captioning & Knowledge

coco_colors

, densefusion_1m

, face_emotion

, google_landmarks

, image_textualization(filtered)

, laion_gpt4v

, localized_narratives

, sharegpt4o

, sharegpt4v(coco)

, sharegpt4v(knowledge)

, sharegpt4v(llava)

, sharegpt4v(sam)

, textcaps

Grounding & Counting

aguvis-stage-1

, groundui

, objects365_qa

, oodvqa

, tallyqa

Science

ai2d_merged

, CoSyn_400k_chemical

, CoSyn_400k_circuit

, pathvqa

, pmc_vqa(mathv360k)

, scienceqa

, scienceqa(nona_context)

, tqa

, visualwebinstruct(filtered)

, vqarad

Mathematics

geoqa+(mathv360k)

, unigeo(mathv360k)

, clevr

수학 (Mathematics)

clevr_math

clevr_math(mathv360k)

CoSyn_400k_math

geo170k(align)

geo170k(qa)

geo3k

geometry3k(mathv360k)

geomverse

geos(mathv360k)

intergps

mavis_math_metagen

mavis_math_rule_geo

raven

super_clevr(mathv360k)

텍스트 전용 (Text-only, 이미지 없음)

text_ruozhiba

text_code_feedback

text_codefeedback_filtered_instruction

text_infinitymath

text_mathinstruct

text_mathqa

text_mathstepdpo10k

text_numinamath_cot

text_openhermes_2_5

text_openorca

text_orcamath

text_pythoncode25k

text_pythoncodealpaca

text_theoremqa

text_wizardlm_evol

text_OpenMathInstruct-2

차트 및 테이블 (Chart & Table)

Unichart

tat_dqa

chart2text

chartqa

CoSyn_400k_chart

CoSyn_400k_table

dvqa

figureqa

figureqa(mathv360k)

finqa

hitab

lrv_chart

mmc_instruct

multihiertt

plotqa

robut_sqa

robut_wikisql

robut_wtq

SynthChartNet

tabmwp

tabmwp(mathv360k)

tat_qa

vistext

vqaonbd

일반 VQA (General VQA)

alfworldgpt

chinesememe

wildvision

allava_laion

allava_vflan

LLaVA_Instruct_150K

datik

cambrian(filtered)_processed

cocoqa

CoSyn_400k_graphic

datikz

drivelm

hateful_memes

iconqa

iconqa(mathv360k)

idk

indoor_qa

llavar_gpt4_20k

lnqa

lrv_normal(filtered)

lvis_instruct4v

mimic_cgd

mmevol

mmra

nlvr2

sketchyvqa

spark

spatialsense

spot_the_diff

vision_flan(filtered)

visual7w

vizwiz(mathv360k)

vqav2

vsr

websight

yesbut

단순 OCR (Naive OCR)

ctw

k12_printing

svrd

tal_ocr_eng

mathwriting-google

art

captcha

chrome_writting

cocotext

funsd

hme100k

hw_squad

iam

iiit5k

imgur5k

latex_handwritten

latexformulas

maptext

memotion

orand_car_a

, sroie, SynthCodeNet, synthdog, SynthFormulaNet, wordart, olmOCR-mix-0225-documents, olmOCR-mix-0225-books`

OCR QA

a_okvqa, est_vqa, mmsoc_memotion, arxivqa, DoclingMatix, ureader_qa_processed, aokvqa, bentham, blockdiagramcomputerized, blockdiagramhandwritten, CoSyn_400k_diagram, CoSyn_400k_document, CoSyn_400k_music, CoSyn_400k_nutrition, diagram_image_to_text, docvqa, handwriting_forms, infographic_vqa, infographic_vqa_llava_format, infographic(gpt4v), invoices_receipts, mapqa, mapqa(mathv360k), ocrvqa, pdfvqa, screen2words, screenqa, slidevqa, st_vqa, sujet_finance, textocr(gpt4v), textvqa, ureader_cap, ureader_ie, ureader_kg_processed, visualmrc

</details>

일본어 VLM에 대한 주의사항: FineVision은 영어 중심의 코퍼스입니다. chinesememe(중국어)는 포함되어 있지만, 일본어 고유 데이터는 포함되어 있지 않습니다. 다만 COCO 계열・VQAv2・TextVQA・ShareGPT4V 등 주요 영어 데이터는 모두 망라하고 있으므로, 이를 독자적으로 번역하여 이용할 경우에도 실질적으로 중복으로 간주해야 합니다.

일본어 대응 데이터셋 요약표

목적: llm-jp-4-vl-9b-beta는 일본어 VLM입니다. 학습 데이터의 일본어 대응 상황을 일람하여 파악하기 위한 요약표입니다.

범례: 🟢 네이티브 일본어(그대로 사용 가능) / 🟡 번역판 있음 또는 번역 작업 필요 / 🔴 영어만 (번역 필수)

즉시 전력: 네이티브 일본어・번역 불필요

데이터셋	태스크	규모	라이선스	상업 이용	상태
🟢 STAIR Captions	이미지 캡션	164K 이미지 × 5문	CC BY 4.0	⚠️ COCO 이미지 주의	✅ 추천
🟢 YJ Captions 26k	이미지 캡션	26.5K 이미지 × 5문	CC BY 4.0	⚠️ COCO 이미지 주의	✅ 추천
🟢 DEJIMA	캡션 + VQA	각 388만 건 × 복수 버전	Apache 2.0	✅ 가능 (어노테이션)	✅ 최우선 추천
🟢 JDocQA	문서 VQA	11.6K Q&A / 5,504 PDF	CC BY-SA 4.0	✅ 가능 (SA 주의)	✅ 추천
🟢 CT-RATE-JPN	의료 리포트 VQA	—	CC BY-NC-SA 4.0	❌ 비상업적만	⚠️ 용도 제한
🟢 라쿠텐 상품 이미지 데이터	EC 상품 설명	—	커스텀 (개별 계약)	❌ 불가	⚠️ 신청제・학술기관 전용
🟢 Manga109	만화 이해	21,142 페이지	커스텀 (비상업적)	❌ 불가	⚠️ 비상업적만
🟢 일본어LLaVA-Wild 합성 데이터	지시 추종	자체 제작 가능	자사	✅ 가능	✅ 자체 제작 추천

데이터셋	태스크	규모	라이선스	상업적 이용
🟡 Flickr30k Japanese
이미지 캡셔닝 (Image Captioning)	31K 이미지 × 5문장	커스텀 (비상업적)	❌ 불가	Flickr30kEnt-JP로 GitHub 공개 완료 (연구용으로만 사용 가능)
🟡 ScienceQA (번역)
과학·도표 VQA (Visual Question Answering)	12.7K건 (train)	CC BY-NC-SA 4.0	❌ 불가	자체 번역 필요. COMET-Kiwi ≥ 0.80으로 필터링 권장
🟡 A-OKVQA (번역)
상식·세계 지식 VQA	24.9K건	Apache 2.0	✅ 가능	자체 번역 필요. 라이선스가 가장 완화됨
🟡 Visual7W (번역)
7종 VQA	327.9K건	CC BY 4.0	⚠️ COCO 주의	자체 번역 필요
🟡 VIST (Visual Storytelling)
스토리 생성 (Story Generation)	SIS: 50.2K stories	커스텀 (비상업적)	❌ 불가	영어 전용. 일본어화하려면 생성 또는 번역이 필요

영어 전용·번역 없이는 사용 불가

데이터셋	태스크	규모
🔴 Localized Narratives
상세 캡셔닝 (Detailed Captioning)	849K	어노테이션(Annotation)이 영어로만 되어 있음. 번역 비용이 높음
🔴 Visual Genome (영어)
영역 VQA (Region VQA)·그래프	108K 이미지	일본어 번역판 (전체 어노테이션)은 공개되지 않음

제외 대상 (참고: 일본어 데이터이나 사용 불가)

데이터셋	제외 이유	일본어 상태
Jagle의 학습 데이터에 포함됨 → 제외 조건에 해당	🟢 네이티브 일본어

일본어 네이티브 데이터로만 구성할 경우의 최소 구성안

🟢 STAIR Captions → 캡셔닝 기반 (164K 이미지, 네이티브)
🟢 YJ Captions 26k → 캡셔닝 보완 (26.5K 이미지, 네이티브)
🟢 DEJIMA → VQA 주력 (388만 건, Apache 2.0, 네이티브)
...

합계: 약 400만 건 이상의 네이티브 일본어 멀티모달 (Multimodal) 데이터 확보 가능.

번역 데이터 없이도 충분한 규모로 구성할 수 있음.

권장 데이터셋

카테고리 1: 일본어 캡셔닝·기술형

데이터셋	규모	설명
STAIR Captions
164,062 이미지 × 5 캡션 (약 820K 문장)	MS-COCO 이미지에 대한 일본어 캡션 (치바 공업대학 STAIR Lab 제작). 고품질의 자연어 기술
GitHub / 논문 arXiv:1705.00823
YJ Captions 26k
약 26,500 이미지 × 5 캡션 (약 134K 문장)	Yahoo Japan이 정비한 일본어 캡션 (MS-COCO 기반). 「134K 페어」는 문장 수이며 이미지 수는 약 26,500
GitHub / 논문 ACL2016
Flickr30k Japanese
약 31,000 이미지 × 5 캡션	일상 장면의 다양한 일본어 캡션	※ HF 번역판은 확인 필요. 오리지널: 공식
Localized Narratives
약 849K	이미지를 보며 음성으로 이야기하는 타입의 상세 기술 (Google 제작). 영어 어노테이션만 확인됨. 일본어 콘텐츠는 미확인 상태이므로 번역 필요	공식

카테고리 2: 일본어 VQA 계열

데이터셋	규모	설명	링크
JA-VQA (ja-vg-vqa)		Jagle이 ja-vg-vqa를 학습 데이터로 사용하고 있으므로 제외 조건에 해당. 제외 리스트를 참조할 것
DEJIMA	Cap: 약 388만 건 × 4개 변형, VQA: 약 388만 건 × 3개 변형	일본어 캡션(Caption) + VQA의 대규모 통합 데이터셋 (도쿄대학 MIL). Web 수집 → 객체 탐지(Object Detection) → LLM 리파인(Refine) 파이프라인. Apache 2.0 (어노테이션 부분). 이미지는 URL로만 배포 (각 소스의 저작권에 따름)	HF: MIL-UT/DEJIMA-dataset / arXiv:2512.00773
ScienceQA (번역)	전체 21,208건 (train 분할: 약 12,726건)	과학 · 도표 추론. 멀티모달 (Multimodal) 문항은 10,332건. 멀티스텝 (Multi-step) 사고가 필요함. FineVision에도 포함되어 있으므로, 일본어 번역판으로 한정	HF: derek-thomas/ScienceQA / 논문 NeurIPS2022
A-OKVQA (번역)	약 24,900건 (train 17,100 / val 1,150 / test 6,700)	상식 추론 · 세계 지식을 요구하는 시각 QA. FineVision에도 포함되어 있으므로 일본어 번역판으로 한정	HF: HuggingFaceM4/A-OKVQA / 논문 arXiv:2206.01718
Visual7W (번역)	327,939건, 47,300 COCO 이미지	what / where / when / who / why / how / which 의 7종 QA. FineVision에 `visual7w`로 포함되어 있으므로 일본어 번역판으로 한정	공식 / 논문 arXiv:1511.03416

카테고리 3: 지시 추종 (Instruction Following) · 대화계

데이터셋	규모	설명	링크
VIST (Visual Storytelling)	DII: 20,211 시퀀스 / 81,743장 (유니크 이미지), SIS: 50,200 스토리 / 약 209,651장 (누적 이미지)	이미지 열로부터 이야기를 생성하는 태스크. 시계열 시각 추론 (Temporal Visual Reasoning)에 유효. DII (이미지 단독 기술)와 SIS (스토리 생성)의 2개 서브 태스크로 통계적 축이 다르므로 혼동 주의	공식
Japanese Visual Genome (번역판)	—	삭제: Visual Genome의 모든 어노테이션 (영역 기술 · 속성 · 관계 그래프)의 일본어 번역판은 공개 데이터셋으로 존재하지 않음. VQA 쌍(Pair)만의 일본어화 (ja-vg-vqa)는 Jagle에 포함되어 있으므로 제외 대상.	—
일본어 LLaVA-Wild 합성 데이터	자체 제작 가능	GPT-4o / Claude로 일본어의 복잡한 지시 응답을 생성. 독자적 수집	—

⚠️

Buncho(ぶんちょう)는 삭제: llm-jp 공개 논문 · HuggingFace · GitHub 어디에서도 실재를 확인할 수 없었음. 가공 또는 비공개 내부 데이터셋일 가능성이 높아 참조 불가.

카테고리 4: 특수 도메인 (목표 태스크 의존)

데이터셋	도메인	규모	설명	링크
JDocQA	문서 · 장표	약 11,600 Q&A / 5,504 PDF	일본어 문서 이미지 QA. 청구서 · 보고서 · 매뉴얼 등	HF: shunk031/JDocQA / 논문 arXiv:2403.19454
CT-RATE-JPN	의료 (CT)	—	CT 이미지 + 일본어 방사선 리포트. JRRD는 공개 데이터로 존재가 확인되지 않으므로 이것을 참조	HF: YYama0/CT-RATE-JPN
라쿠텐 상품 이미지 데이터	EC	—	상품 이미지 + 일본어 설명. NII / ALAGINE 경유의 신청제 (직접 DL 불가)	Rakuten Data
Manga109	만화	109권 / 21,142페이지 / 50만 건 이상의 어노테이션	일본어 만화 장면의 캐릭터 · 말풍선 · 프레임 어노테이션	공식

데이터 선정의 추가 관점

1. 라이선스 목록 (조사 완료)

데이터셋별 라이선스 상세

데이터셋	라이선스	상업적 이용	모델 배포	주요 제한 사항 · 출처
STAIR Captions	CC BY 4.0	⚠️ 주의 필요	✅ 가능	캡션 자체는 가능. COCO 이미지는 Flickr ToU (혼재)를 따름. GitHub
YJ Captions 26k	CC BY 4.0	⚠️ 주의 필요	✅ 가능	위와 동일. COCO 이미지 제약을 계승. GitHub
Flickr30k	커스텀 · 비상업용	❌ 불가능	❌ 불가능	연구 · 교육 목적만 가능. Flickr ToU 제약 있음. 공식
Localized Narratives	CC BY 4.0 (어노테이션)	⚠️ 부분적	✅ 가능	어노테이션은 가능. Open Images 서브셋 이용 시에만 상업적 이용 가능. COCO 부분은 제약 있음. 공식
JA-VQA (ja-vg-vqa)	CC BY 4.0	✅ 가능	✅ 가능	Jagle의 학습 데이터에 포함되어 있어 제외 대상
DEJIMA	Apache 2.0 (어노테이션)	✅ 가능	✅ 가능	어노테이션 · 데이터 구조는 Apache 2.0. 이미지는 URL만 배포하므로 각 소스의 저작권을 따름 (이미지 다운로드 후의 상업적 이용은 개별 확인이 필요할 수 있음). HF
ScienceQA	CC BY-NC-SA 4.0	❌ 불가능	❌ 불가능	비상업 · ShareAlike. HF 표시는 CC BY-SA 4.0이나 공식 GitHub가 CC BY-NC-SA 4.0으로 정식임. 공식 LICENSE
A-OKVQA	Apache 2.0	✅ 가능	✅ 가능	가장 제약이 적음. 라이선스 · 저작권 표시 유지 필요. 이미지는 COCO 제약 있음. GitHub
Visual7W	CC BY 4.0	⚠️ 주의 필요	✅ 가능	Visual Genome 계승. COCO 이미지 제약이 파급됨. 귀속 표시 필수. 공식
VIST	커스텀 · 비상업용	❌ 원칙적 불가능	❌ 불가능	"commercial advantage 또는 monetary compensation 목적의 사용 불가"라고 명시됨. 일부 CC BY-SA 샘플 제외. 공식
Visual Genome	CC BY 4.0	✅ 가능	✅ 가능	귀속 표시 필수 (Ranjay Krishna 등의 크레딧). 이미지는 COCO/Flickr 제약 있음. HF
JDocQA	CC BY-SA 4.0	✅ 가능	⚠️ 주의 필요	상업적 이용은 가능. 단, ShareAlike: 파생 데이터셋 · 성과물도 동일 라이선스로 공개 필요. HF
CT-RATE-JPN	CC BY-NC-SA 4.0	❌ 불가능	❌ 불가능	비상업 연구 목적만 가능. ShareAlike. GPT-4o-mini 생성 데이터를 포함하므로 OpenAI ToU 준수도 필요. HF
라쿠텐 상품 데이터	커스텀 계약 (개별)	❌ 불가능	❌ 불가능	학술 기관 전용. 민간 기업은 신청 불가. NII/ALAGINE을 통해 개별 계약 · 서명이 필요. 이용 종료 후에는 데이터 삭제 의무 있음. 신청 창구
Manga109	커스텀 (2종)	❌ / ⚠️	❌ / ⚠️	본편 (Manga109): 비상업 학술용만 가능. 재배포 금지. / s판 (Manga109-s): 실험 결과의 상업적 이용 가능. 이미지 판매 · 재배포는 두 버전 모두 불가능. 공식

MS-COCO 이미지 라이선스 주의 사항 (STAIR / YJ / A-OKVQA / Visual7W에 파급)

이미지를 포함한 학습 데이터로서의 상업적 이용은 그레이 존 (Gray Zone)이다.

참조: COCO Terms of Use

실무상의 대응 지침 (조사 완료):

이용 형태	COCO 이미지 취급	권장 대응
학술 연구 · 사내 이용만 하는 경우	리스크 낮음	현재 상태 그대로 이용 가능
...	법무 확인 필수. COCO 비의존 데이터 (DEJIMA / STAIR의 URL 다운로드분의 개별 확인 등)로의 전환도 검토

Flickr 이용 약관(Terms of Use)은 상업적 이용을 금지합니다. COCO dataset GitHub의 공식 issue에서도 "어노테이션(Annotation)은 CC BY 4.0이지만, 이미지의 상업적 이용은 Flickr ToU를 위반할 가능성이 있다"라고 인정하고 있습니다 (cocodataset/cocoapi#551).

HuggingFace 표시와 공식 라이선스의 괴리

ScienceQA (derek-thomas/ScienceQA)는 HF 데이터 카드에 CC BY-SA 4.0으로 표시되어 있으나, 공식 GitHub 리포지토리 (lupantech/ScienceQA)의 것이 정식입니다. HF의 표시를 신뢰하지 마십시오. LICENSE-DATA는 CC BY-NC-SA 4.0입니다.

범용 태스크(Task)용: 이용 권장도 맵

◎ 안심하고 사용할 수 있음 (상업·연구 모두 가능)
→ A-OKVQA (Apache 2.0)
→ DEJIMA (Apache 2.0, 어노테이션 부분) ← JA-VQA 대체
...

ShareAlike (SA)와 모델 가중치의 관계

CC BY-SA 또는 CC BY-NC-SA 데이터로 학습한 모델 가중치가 "파생물(Derivative Works)"에 해당하는지는 법적으로 미결정 상태입니다. **Creative Commons 공식 가이드라인 (2025년 5월)**의 견해:

"많은 경우, AI 모델 및 그 출력물은 훈련 데이터의 파생물로 간주되지 않습니다. 다만, 이는 사실관계 및 관할권에 따라 다르며 보편적인 정답은 존재하지 않습니다. 본 가이드라인은 가장 보수적인 입장에서, 공개 공유할 경우에는 동일한 라이선스로 공개할 것을 권장합니다."

— Using CC-licensed Works for AI Training, CC 2025

현 시점에서의 실무적 대응:

상황	권장 대응
연구·사내 이용만 하는 경우	SA 데이터를 포함해도 실질적인 리스크는 낮음
...

JDocQA 고유의 판단: JDocQA (CC BY-SA 4.0)로 학습한 모델을 외부에 공개할 경우, CC의 보수적인 가이드라인에 따르면 모델도 CC BY-SA 4.0으로 공개하는 것이 바람직합니다. 이것이 수용되지 않을 경우에는 JDocQA를 제외하십시오.

개인적으로 llm-jp-4-vl-9b-beta를 FT 해보기 ── 학습 데이터 수집의 시행착오

요약

핵심 포인트