본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 05. 27. 10:52

개인적으로 llm-jp-4-vl-9b-beta를 FT 해보기 ── 학습 데이터 수집의 시행착오

요약

llm-jp-4-vl-9b-beta 모델의 LoRA 미세 조정을 위한 학습 데이터 수집 및 선정 과정을 다룹니다. 기존 Jagle 및 FineVision 데이터셋과의 중복을 피하기 위한 제외 조건 설정과 데이터 소스 분석에 초점을 맞춥니다.

핵심 포인트

  • llm-jp-4-vl-9b-beta 모델 대상 LoRA 학습 수행
  • Jagle 및 FineVision 데이터셋과의 중복 방지를 위한 제외 리스트 작성
  • 데이터셋 라이선스(DEJIMA) 및 상업적 이용 가이드라인 검토
  • 범용 목적의 멀티모달 학습을 위한 대체 데이터 선정 전략

llm-jp-4-vl-9b-beta LoRA 학습 데이터 제안

대상 모델: llm-jp-4-vl-9b-beta

기법: LoRA (Low-Rank Adaptation)

제외 조건: jagle・FineVision에서 사용된 데이터셋

목표 태스크: 범용 (general purpose)

작성일: 2026-05-25

최종 업데이트: 2026-05-27 (제3회: 미확인 사항 4건 조사 및 해결. DEJIMA 라이선스 확정・JDocQA SA 대응 지침・번역 품질 기준・COCO 상업적 이용 가이드라인 추가)

제외 데이터셋 목록

jagle 사용 데이터

출처: Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models— Sugiura et al. (llm-jp), arXiv:2604.02048, 2026.

약 920만 건・5개 카테고리・17개 서브셋. 기존 VQA 데이터셋에 의존하지 않고 일본어 데이터를 스크래치(scratch)로 구축.

Jagle (arXiv:2604.02048) Table 2를 통해 확인한 실제 사용 데이터:

카테고리데이터 소스
General VQAjapanese-photos, ja-vg-vqa, JSQuAD, llava-instruct-ja-qwen3vl (영어 LLaVA를 Qwen3-VL로 일본어화), Wiki-JA, WAON
...
⚠️

주의: 기존 리스트에 있던 LLaVA-Instruct-150K (영어 원판) / ShareGPT4V / WIT (Wikipedia Image-Text) / LAION-COCO는 Jagle 및 관련 논문 arXiv:2410.22736에도 포함되어 있지 않음을 1차 소스 (Table 2)를 통해 확인 완료. 이들은 FineVision의 제외 대상이며 Jagle와는 별개임.

⚠️ ja-vg-vqa는 Jagle에 포함되어 있으므로, 카테고리 2의 JA-VQA는 권장 데이터에서 제외하고 대체 데이터를 선정할 것 (아래 참조).

FineVision 사용 데이터 (전체 목록)

출처: FineVision: Open Data Is All You Need— Luis Wiedmann et al. (HuggingFaceM4), arXiv:2510.17269, 2025.

HuggingFace: HuggingFaceM4/FineVision

200개 이상의 공개 데이터셋을 9개 카테고리・185개 서브셋으로 통합한 1,730만 이미지・2,430만 샘플의 대규모 코퍼스 (corpus).

<details> <summary>FineVision 전체 185개 서브셋 (클릭하여 펼치기)</summary>

Captioning & Knowledge

coco_colors

, densefusion_1m

, face_emotion

, google_landmarks

, image_textualization(filtered)

, laion_gpt4v

, localized_narratives

, sharegpt4o

, sharegpt4v(coco)

, sharegpt4v(knowledge)

, sharegpt4v(llava)

, sharegpt4v(sam)

, textcaps

Grounding & Counting

aguvis-stage-1

, groundui

, objects365_qa

, oodvqa

, tallyqa

Science

ai2d_merged

, CoSyn_400k_chemical

, CoSyn_400k_circuit

, pathvqa

, pmc_vqa(mathv360k)

, scienceqa

, scienceqa(nona_context)

, tqa

, visualwebinstruct(filtered)

, vqarad

Mathematics

geoqa+(mathv360k)

, unigeo(mathv360k)

, clevr

수학 (Mathematics)

clevr_math

clevr_math(mathv360k)

CoSyn_400k_math

geo170k(align)

geo170k(qa)

geo3k

geometry3k(mathv360k)

geomverse

geos(mathv360k)

intergps

mavis_math_metagen

mavis_math_rule_geo

raven

super_clevr(mathv360k)

텍스트 전용 (Text-only, 이미지 없음)

text_ruozhiba

text_code_feedback

text_codefeedback_filtered_instruction

text_infinitymath

text_mathinstruct

text_mathqa

text_mathstepdpo10k

text_numinamath_cot

text_openhermes_2_5

text_openorca

text_orcamath

text_pythoncode25k

text_pythoncodealpaca

text_theoremqa

text_wizardlm_evol

text_OpenMathInstruct-2

차트 및 테이블 (Chart & Table)

Unichart

tat_dqa

chart2text

chartqa

CoSyn_400k_chart

CoSyn_400k_table

dvqa

figureqa

figureqa(mathv360k)

finqa

hitab

lrv_chart

mmc_instruct

multihiertt

plotqa

robut_sqa

robut_wikisql

robut_wtq

SynthChartNet

tabmwp

tabmwp(mathv360k)

tat_qa

vistext

vqaonbd

일반 VQA (General VQA)

alfworldgpt

chinesememe

wildvision

allava_laion

allava_vflan

LLaVA_Instruct_150K

datik

cambrian(filtered)_processed

cocoqa

CoSyn_400k_graphic

datikz

drivelm

hateful_memes

iconqa

iconqa(mathv360k)

idk

indoor_qa

llavar_gpt4_20k

lnqa

lrv_normal(filtered)

lvis_instruct4v

mimic_cgd

mmevol

mmra

nlvr2

sketchyvqa

spark

spatialsense

spot_the_diff

vision_flan(filtered)

visual7w

vizwiz(mathv360k)

vqav2

vsr

websight

yesbut

단순 OCR (Naive OCR)

ctw

k12_printing

svrd

tal_ocr_eng

mathwriting-google

art

captcha

chrome_writting

cocotext

funsd

hme100k

hw_squad

iam

iiit5k

imgur5k

latex_handwritten

latexformulas

maptext

memotion

orand_car_a

, sroie, SynthCodeNet, synthdog, SynthFormulaNet, wordart, olmOCR-mix-0225-documents, olmOCR-mix-0225-books`

OCR QA

a_okvqa, est_vqa, mmsoc_memotion, arxivqa, DoclingMatix, ureader_qa_processed, aokvqa, bentham, blockdiagramcomputerized, blockdiagramhandwritten, CoSyn_400k_diagram, CoSyn_400k_document, CoSyn_400k_music, CoSyn_400k_nutrition, diagram_image_to_text, docvqa, handwriting_forms, infographic_vqa, infographic_vqa_llava_format, infographic(gpt4v), invoices_receipts, mapqa, mapqa(mathv360k), ocrvqa, pdfvqa, screen2words, screenqa, slidevqa, st_vqa, sujet_finance, textocr(gpt4v), textvqa, ureader_cap, ureader_ie, ureader_kg_processed, visualmrc

</details>

일본어 VLM에 대한 주의사항: FineVision은 영어 중심의 코퍼스입니다. chinesememe(중국어)는 포함되어 있지만, 일본어 고유 데이터는 포함되어 있지 않습니다. 다만 COCO 계열・VQAv2・TextVQA・ShareGPT4V 등 주요 영어 데이터는 모두 망라하고 있으므로, 이를 독자적으로 번역하여 이용할 경우에도 실질적으로 중복으로 간주해야 합니다.

일본어 대응 데이터셋 요약표

목적: llm-jp-4-vl-9b-beta는 일본어 VLM입니다. 학습 데이터의 일본어 대응 상황을 일람하여 파악하기 위한 요약표입니다.

범례: 🟢 네이티브 일본어(그대로 사용 가능) / 🟡 번역판 있음 또는 번역 작업 필요 / 🔴 영어만 (번역 필수)

즉시 전력: 네이티브 일본어・번역 불필요

데이터셋태스크규모라이선스상업 이용상태
🟢 STAIR Captions이미지 캡션164K 이미지 × 5문CC BY 4.0⚠️ COCO 이미지 주의✅ 추천
🟢 YJ Captions 26k이미지 캡션26.5K 이미지 × 5문CC BY 4.0⚠️ COCO 이미지 주의✅ 추천
🟢 DEJIMA캡션 + VQA각 388만 건 × 복수 버전Apache 2.0✅ 가능 (어노테이션)✅ 최우선 추천
🟢 JDocQA문서 VQA11.6K Q&A / 5,504 PDFCC BY-SA 4.0✅ 가능 (SA 주의)✅ 추천
🟢 CT-RATE-JPN의료 리포트 VQACC BY-NC-SA 4.0❌ 비상업적만⚠️ 용도 제한
🟢 라쿠텐 상품 이미지 데이터EC 상품 설명커스텀 (개별 계약)❌ 불가⚠️ 신청제・학술기관 전용
🟢 Manga109만화 이해21,142 페이지커스텀 (비상업적)❌ 불가⚠️ 비상업적만
🟢 일본어LLaVA-Wild 합성 데이터지시 추종자체 제작 가능자사✅ 가능✅ 자체 제작 추천
데이터셋태스크규모라이선스상업적 이용번역 상황
🟡 Flickr30k Japanese
이미지 캡셔닝 (Image Captioning)31K 이미지 × 5문장커스텀 (비상업적)❌ 불가Flickr30kEnt-JP로 GitHub 공개 완료 (연구용으로만 사용 가능)
🟡 ScienceQA (번역)
과학·도표 VQA (Visual Question Answering)12.7K건 (train)CC BY-NC-SA 4.0❌ 불가자체 번역 필요. COMET-Kiwi ≥ 0.80으로 필터링 권장
🟡 A-OKVQA (번역)
상식·세계 지식 VQA24.9K건Apache 2.0✅ 가능자체 번역 필요. 라이선스가 가장 완화됨
🟡 Visual7W (번역)
7종 VQA327.9K건CC BY 4.0⚠️ COCO 주의자체 번역 필요
🟡 VIST (Visual Storytelling)
스토리 생성 (Story Generation)SIS: 50.2K stories커스텀 (비상업적)❌ 불가영어 전용. 일본어화하려면 생성 또는 번역이 필요

영어 전용·번역 없이는 사용 불가

데이터셋태스크규모비고
🔴 Localized Narratives
상세 캡셔닝 (Detailed Captioning)849K어노테이션(Annotation)이 영어로만 되어 있음. 번역 비용이 높음
🔴 Visual Genome (영어)
영역 VQA (Region VQA)·그래프108K 이미지일본어 번역판 (전체 어노테이션)은 공개되지 않음

제외 대상 (참고: 일본어 데이터이나 사용 불가)

데이터셋제외 이유일본어 상태
Jagle의 학습 데이터에 포함됨 → 제외 조건에 해당🟢 네이티브 일본어

일본어 네이티브 데이터로만 구성할 경우의 최소 구성안

🟢 STAIR Captions → 캡셔닝 기반 (164K 이미지, 네이티브)
🟢 YJ Captions 26k → 캡셔닝 보완 (26.5K 이미지, 네이티브)
🟢 DEJIMA → VQA 주력 (388만 건, Apache 2.0, 네이티브)
...

합계: 약 400만 건 이상의 네이티브 일본어 멀티모달 (Multimodal) 데이터 확보 가능.

번역 데이터 없이도 충분한 규모로 구성할 수 있음.

권장 데이터셋

카테고리 1: 일본어 캡셔닝·기술형

데이터셋규모설명링크
STAIR Captions
164,062 이미지 × 5 캡션 (약 820K 문장)MS-COCO 이미지에 대한 일본어 캡션 (치바 공업대학 STAIR Lab 제작). 고품질의 자연어 기술
GitHub / 논문 arXiv:1705.00823
YJ Captions 26k
약 26,500 이미지 × 5 캡션 (약 134K 문장)Yahoo Japan이 정비한 일본어 캡션 (MS-COCO 기반). 「134K 페어」는 문장 수이며 이미지 수는 약 26,500
GitHub / 논문 ACL2016
Flickr30k Japanese
약 31,000 이미지 × 5 캡션일상 장면의 다양한 일본어 캡션※ HF 번역판은 확인 필요. 오리지널: 공식
Localized Narratives
약 849K이미지를 보며 음성으로 이야기하는 타입의 상세 기술 (Google 제작). 영어 어노테이션만 확인됨. 일본어 콘텐츠는 미확인 상태이므로 번역 필요공식

카테고리 2: 일본어 VQA 계열

데이터셋규모설명링크
JA-VQA (ja-vg-vqa)Jagle이 ja-vg-vqa를 학습 데이터로 사용하고 있으므로 제외 조건에 해당. 제외 리스트를 참조할 것
DEJIMACap: 약 388만 건 × 4개 변형, VQA: 약 388만 건 × 3개 변형일본어 캡션(Caption) + VQA의 대규모 통합 데이터셋 (도쿄대학 MIL). Web 수집 → 객체 탐지(Object Detection) → LLM 리파인(Refine) 파이프라인. Apache 2.0 (어노테이션 부분). 이미지는 URL로만 배포 (각 소스의 저작권에 따름)HF: MIL-UT/DEJIMA-dataset / arXiv:2512.00773
ScienceQA (번역)전체 21,208건 (train 분할: 약 12,726건)과학 · 도표 추론. 멀티모달 (Multimodal) 문항은 10,332건. 멀티스텝 (Multi-step) 사고가 필요함. FineVision에도 포함되어 있으므로, 일본어 번역판으로 한정HF: derek-thomas/ScienceQA / 논문 NeurIPS2022
A-OKVQA (번역)약 24,900건 (train 17,100 / val 1,150 / test 6,700)상식 추론 · 세계 지식을 요구하는 시각 QA. FineVision에도 포함되어 있으므로 일본어 번역판으로 한정HF: HuggingFaceM4/A-OKVQA / 논문 arXiv:2206.01718
Visual7W (번역)327,939건, 47,300 COCO 이미지what / where / when / who / why / how / which 의 7종 QA. FineVision에 visual7w로 포함되어 있으므로 일본어 번역판으로 한정공식 / 논문 arXiv:1511.03416

카테고리 3: 지시 추종 (Instruction Following) · 대화계

데이터셋규모설명링크
VIST (Visual Storytelling)DII: 20,211 시퀀스 / 81,743장 (유니크 이미지), SIS: 50,200 스토리 / 약 209,651장 (누적 이미지)이미지 열로부터 이야기를 생성하는 태스크. 시계열 시각 추론 (Temporal Visual Reasoning)에 유효. DII (이미지 단독 기술)와 SIS (스토리 생성)의 2개 서브 태스크로 통계적 축이 다르므로 혼동 주의공식
Japanese Visual Genome (번역판)삭제: Visual Genome의 모든 어노테이션 (영역 기술 · 속성 · 관계 그래프)의 일본어 번역판은 공개 데이터셋으로 존재하지 않음. VQA 쌍(Pair)만의 일본어화 (ja-vg-vqa)는 Jagle에 포함되어 있으므로 제외 대상.
일본어 LLaVA-Wild 합성 데이터자체 제작 가능GPT-4o / Claude로 일본어의 복잡한 지시 응답을 생성. 독자적 수집

⚠️

Buncho(ぶんちょう)는 삭제: llm-jp 공개 논문 · HuggingFace · GitHub 어디에서도 실재를 확인할 수 없었음. 가공 또는 비공개 내부 데이터셋일 가능성이 높아 참조 불가.

카테고리 4: 특수 도메인 (목표 태스크 의존)

데이터셋도메인규모설명링크
JDocQA문서 · 장표약 11,600 Q&A / 5,504 PDF일본어 문서 이미지 QA. 청구서 · 보고서 · 매뉴얼 등HF: shunk031/JDocQA / 논문 arXiv:2403.19454
CT-RATE-JPN의료 (CT)CT 이미지 + 일본어 방사선 리포트. JRRD는 공개 데이터로 존재가 확인되지 않으므로 이것을 참조HF: YYama0/CT-RATE-JPN
라쿠텐 상품 이미지 데이터EC상품 이미지 + 일본어 설명. NII / ALAGINE 경유의 신청제 (직접 DL 불가)Rakuten Data
Manga109만화109권 / 21,142페이지 / 50만 건 이상의 어노테이션일본어 만화 장면의 캐릭터 · 말풍선 · 프레임 어노테이션공식

데이터 선정의 추가 관점

1. 라이선스 목록 (조사 완료)

데이터셋별 라이선스 상세

데이터셋라이선스상업적 이용모델 배포주요 제한 사항 · 출처
STAIR CaptionsCC BY 4.0⚠️ 주의 필요✅ 가능캡션 자체는 가능. COCO 이미지는 Flickr ToU (혼재)를 따름. GitHub
YJ Captions 26kCC BY 4.0⚠️ 주의 필요✅ 가능위와 동일. COCO 이미지 제약을 계승. GitHub
Flickr30k커스텀 · 비상업용❌ 불가능❌ 불가능연구 · 교육 목적만 가능. Flickr ToU 제약 있음. 공식
Localized NarrativesCC BY 4.0 (어노테이션)⚠️ 부분적✅ 가능어노테이션은 가능. Open Images 서브셋 이용 시에만 상업적 이용 가능. COCO 부분은 제약 있음. 공식
JA-VQA (ja-vg-vqa)CC BY 4.0✅ 가능✅ 가능Jagle의 학습 데이터에 포함되어 있어 제외 대상
DEJIMAApache 2.0 (어노테이션)✅ 가능✅ 가능어노테이션 · 데이터 구조는 Apache 2.0. 이미지는 URL만 배포하므로 각 소스의 저작권을 따름 (이미지 다운로드 후의 상업적 이용은 개별 확인이 필요할 수 있음). HF
ScienceQACC BY-NC-SA 4.0❌ 불가능❌ 불가능비상업 · ShareAlike. HF 표시는 CC BY-SA 4.0이나 공식 GitHub가 CC BY-NC-SA 4.0으로 정식임. 공식 LICENSE
A-OKVQAApache 2.0✅ 가능✅ 가능가장 제약이 적음. 라이선스 · 저작권 표시 유지 필요. 이미지는 COCO 제약 있음. GitHub
Visual7WCC BY 4.0⚠️ 주의 필요✅ 가능Visual Genome 계승. COCO 이미지 제약이 파급됨. 귀속 표시 필수. 공식
VIST커스텀 · 비상업용❌ 원칙적 불가능❌ 불가능"commercial advantage 또는 monetary compensation 목적의 사용 불가"라고 명시됨. 일부 CC BY-SA 샘플 제외. 공식
Visual GenomeCC BY 4.0✅ 가능✅ 가능귀속 표시 필수 (Ranjay Krishna 등의 크레딧). 이미지는 COCO/Flickr 제약 있음. HF
JDocQACC BY-SA 4.0✅ 가능⚠️ 주의 필요상업적 이용은 가능. 단, ShareAlike: 파생 데이터셋 · 성과물도 동일 라이선스로 공개 필요. HF
CT-RATE-JPNCC BY-NC-SA 4.0❌ 불가능❌ 불가능비상업 연구 목적만 가능. ShareAlike. GPT-4o-mini 생성 데이터를 포함하므로 OpenAI ToU 준수도 필요. HF
라쿠텐 상품 데이터커스텀 계약 (개별)❌ 불가능❌ 불가능학술 기관 전용. 민간 기업은 신청 불가. NII/ALAGINE을 통해 개별 계약 · 서명이 필요. 이용 종료 후에는 데이터 삭제 의무 있음. 신청 창구
Manga109커스텀 (2종)❌ / ⚠️❌ / ⚠️본편 (Manga109): 비상업 학술용만 가능. 재배포 금지. / s판 (Manga109-s): 실험 결과의 상업적 이용 가능. 이미지 판매 · 재배포는 두 버전 모두 불가능. 공식

MS-COCO 이미지 라이선스 주의 사항 (STAIR / YJ / A-OKVQA / Visual7W에 파급)

COCO 컨소시엄은 이미지의 저작권을 보유하고 있지 않다. 이미지의 저작권은 각 Flickr 사용자에게 귀속되어 있으며, 라이선스가 CC BY / CC BY-NC / All Rights Reserved 등으로 혼재되어 있다. 어노테이션 (Annotation) 부분 (CC BY 4.0)은 상업적 이용이 가능하지만,

이미지를 포함한 학습 데이터로서의 상업적 이용은 그레이 존 (Gray Zone)이다.

참조: COCO Terms of Use

실무상의 대응 지침 (조사 완료):

이용 형태COCO 이미지 취급권장 대응
학술 연구 · 사내 이용만 하는 경우리스크 낮음현재 상태 그대로 이용 가능
...법무 확인 필수. COCO 비의존 데이터 (DEJIMA / STAIR의 URL 다운로드분의 개별 확인 등)로의 전환도 검토

Flickr 이용 약관(Terms of Use)은 상업적 이용을 금지합니다. COCO dataset GitHub의 공식 issue에서도 "어노테이션(Annotation)은 CC BY 4.0이지만, 이미지의 상업적 이용은 Flickr ToU를 위반할 가능성이 있다"라고 인정하고 있습니다 (cocodataset/cocoapi#551).

HuggingFace 표시와 공식 라이선스의 괴리

ScienceQA (derek-thomas/ScienceQA)는 HF 데이터 카드에 CC BY-SA 4.0으로 표시되어 있으나, 공식 GitHub 리포지토리 (lupantech/ScienceQA)의 것이 정식입니다. HF의 표시를 신뢰하지 마십시오. LICENSE-DATA는 CC BY-NC-SA 4.0입니다.

범용 태스크(Task)용: 이용 권장도 맵

◎ 안심하고 사용할 수 있음 (상업·연구 모두 가능)
→ A-OKVQA (Apache 2.0)
→ DEJIMA (Apache 2.0, 어노테이션 부분) ← JA-VQA 대체
...

ShareAlike (SA)와 모델 가중치의 관계

CC BY-SA 또는 CC BY-NC-SA 데이터로 학습한 모델 가중치가 "파생물(Derivative Works)"에 해당하는지는 법적으로 미결정 상태입니다. **Creative Commons 공식 가이드라인 (2025년 5월)**의 견해:

"많은 경우, AI 모델 및 그 출력물은 훈련 데이터의 파생물로 간주되지 않습니다. 다만, 이는 사실관계 및 관할권에 따라 다르며 보편적인 정답은 존재하지 않습니다. 본 가이드라인은 가장 보수적인 입장에서, 공개 공유할 경우에는 동일한 라이선스로 공개할 것을 권장합니다."

— Using CC-licensed Works for AI Training, CC 2025

현 시점에서의 실무적 대응:

상황권장 대응
연구·사내 이용만 하는 경우SA 데이터를 포함해도 실질적인 리스크는 낮음
...

JDocQA 고유의 판단: JDocQA (CC BY-SA 4.0)로 학습한 모델을 외부에 공개할 경우, CC의 보수적인 가이드라인에 따르면 모델도 CC BY-SA 4.0으로 공개하는 것이 바람직합니다. 이것이 수용되지 않을 경우에는 JDocQA를 제외하십시오.

2. 일본어의 네이티브 수준

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0