
DEJIMA 변체 학습 적성 분석
요약
DEJIMA 변체 데이터셋의 학습 적성을 분석한 보고서입니다. 단문율, 정형문율, 노이즈율 등 다양한 지표를 통해 cap-simple, cap-refined, cap-detection 등 각 변체별 데이터 품질과 LLM 정교화 효과를 평가합니다.
핵심 포인트
- cap-refined는 LLM 정교화를 통해 문장 완결성이 높아져 학습에 적합함
- cap-simple은 단문율이 높아 문장으로서의 불완전성이 관찰됨
- cap-detection은 위치 기술은 충실하나 정형문율이 높아 다양성이 부족함
- 데이터 품질 평가를 위해 단문율, 정형문율, 노이즈율 지표를 활용함
DEJIMA 변체 학습 적성 분석
- 샘플: 각 50,000건
단문율 (Short sentence rate): caption < 20자 / question < 12자 / answer < 30자를 임계값으로 한 비율
정형문율 (Template rate): 앞 4글자 상위 5개 패턴이 전체에서 차지하는 비율 (높을수록 다양성이 낮음)
노이즈율 (Noise rate): 일본어 비율 < 30% 또는 기정 노이즈 패턴(물체 없음 등)의 비율
추정 토큰 (Estimated tokens): 글자 수 ÷ 1.5 (일본어 환산)
cap-simple
샘플: 50,000건 / 전체 추정: 3,884,629건
caption
| 지표 | 값 |
|---|---|
| 글자 수 (평균 / 중앙값 / min / max) | 18.4 / 14 / 2 / 100 |
| ... | |
정형문 top5: 株式会社 (주식회사) (184건), おしゃれ (세련된) (92건), 胡蝶蘭 (호접란) (90건), 愛知県愛 (아이치현 아이) (84건), 津の格子 (쓰의 격자) (81건) |
종합 평가: × 단문율이 높고 (68.5%가 20자 미만), 레이블·구절이 대부분임. 문장으로서 불완전함.
실제 데이터 예시
{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "caption": "十三詣りのイラスト"}
cap-refined
샘플: 50,000건 / 전체 추정: 3,884,629건
caption
| 지표 | 값 |
|---|---|
| 글자 수 (평균 / 중앙값 / min / max) | 37.9 / 31 / 7 / 457 |
| ... | |
정형문 top5: パソコン (PC) (174건), 株式会社 (주식회사) (172건), スマート (스마트) (115건), QRコー (QR코) (108건), シンプル (심플) (94건) |
종합 평가: ○ LLM 정교화(Refinement)가 완료되어 문장으로서 완결됨. 평균 25.3 토큰은 캡션 학습에 적절한 길이임.
실제 데이터 예시
{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "caption": "十三詣りのイラスト。人々が神社の鳥居をくぐり、提灯に照らされた参道を歩いている様子が描かれている。"}
cap-detection
샘플: 50,000건 / 전체 추정: 3,884,629건
caption
| 지표 | 값 |
|---|---|
| 글자 수 (평균 / 중앙값 / min / max) | 49.6 / 49 / 7 / 553 |
| ... | |
정형문 top5: 画像内に (이미지 내에) (3290건), ポスター (포스터) (1340건), テーブル (테이블) (1180건), ブランド (브랜드) (894건), 道路標識 (도로 표지판) (755건) |
종합 평가: △ 위치 기술이 충실하지만 정형문율이 14.9%로 높아 다양성이 부족함. 노이즈(물체 없음)도 혼재함.
실제 데이터 예시
{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "caption": "芸者が着物姿で立ち、袖の長い着物が下方向に広がっている。芸者は画面中央右側に位置し、着物の一部が下方に垂れ下がる様子が見える。"}
cap-all
샘플: 50,000건 / 전체 추정: 3,884,629건
caption
| 지표 | 값 |
|---|---|
| 글자 수 (평균 / 중앙값 / min / max) | 79.7 / 78 / 12 / 670 |
| ... | |
정형문 top5: 白い背景 (하얀 배경) (639건), 透明なガ (투명한 가) (609건), 木目調の (나뭇결 모양의) (482건), スーツ姿 (정장 차림) (462건), 白い壁に (하얀 벽에) (420건) |
종합 평가: ○ 최대 정보량 (평균 79.7자). 색상·위치·의미를 망라하지만 샘플당 토큰 비용이 높음.
실제 데이터 예시
{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "caption": "기모노 차림의 게이샤가 부채를 손에 들고, 쥬산마이리(十三社参り) 복장을 한 채 떠나가는 모습. 연보라색 후리소데가 바람에 휘날리고 있으며, 배경의 토리이가 주홍색으로 빛나고 있다."}
vqa-refined
샘플: 50,000건 / 전체 추정: 3,875,343건
question
| 지표 | 값 |
|---|---|
| 글자 수 (평균 / 중앙값 / min / max) | 21.4 / 21 / 8 / 68 |
| ... | |
정형 문구 top5: 이 이미지 (3414건), 화면 중앙 (2992건), 어떠한 (2204건), 이 사진 (1414건), 이미지 속 (1091건) |
answer
| 지표 | 값 |
|---|---|
| 글자 수 (평균 / 중앙값 / min / max) | 34.9 / 30 / 1 / 196 |
| ... | |
정형 문구 top5: 화면 중앙 (2748건), 이 이미지 (1478건), 이미지 속 (869건), 간판에는 (816건), 이 사진 (594건) |
종합 평가: ○ 질문·답변 모두 자연스러운 문체. 평균 토큰: Q=14.2, A=23.3. 범용 VQA (Visual Question Answering) 학습에 최적.
실제 데이터 예시
{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "question": "이 일러스트는 어떤 행사를 그리고 있습니까?", "answer": "이 일러스트는 '쥬산마이리(十三詣り)'를 그리고 있습니다. 시치고산(七五三)이나 하츠모데(初詣)와 유사한 전통 행사로, 13세 생일에 신사를 참배하는 관습을 표현하고 있습니다."}
vqa-detection
샘플: 50,000건 / 전체 추정: 3,875,343건
question
| 지표 | 값 |
|---|---|
| 글자 수 (평균 / 중앙값 / min / max) | 18.2 / 18 / 8 / 99 |
| ... | |
정형 문구 top5: 이 이미지 (2159건), 포스터 (1799건), 이미지 내에 (1418건), 테이블 (1316건), 화면의 (1256건) |
answer
| 지표 | 값 |
|---|---|
| 글자 수 (평균 / 중앙값 / min / max) | 58.9 / 59 / 9 / 233 |
| ... | |
정형 문구 top5: 이미지 내에 (2565건), 포스터 (1644건), 이 이미지 (1388건), 테이블 (1327건), 사진에는 (973건) |
종합 평가: △ 질문은 짧고 단순하며(평균 18.2자), 답변은 위치 묘사에 치우쳐 있음. 공간 인식 특화 용도에 적합.
실제 데이터 예시
{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "question": "게이샤는 어떤 의상을 입고 있습니까?", "answer": "게이샤는 기모노를 입고 있습니다. 기모노는 게이샤의 하반신을 감싸며, 소매 끝과 깃 부분의 장식이 아름답게 돋보입니다."}
vqa-all
샘플: 50,000건 / 전체 추정: 3,875,343건
question
| 지표 | 값 |
|---|---|
| 글자 수 (평균 / 중앙값 / min / max) | 20.6 / 20 / 8 / 53 |
| ... | |
정형 문구 top5: 포스터 (2232건), 이 이미지 (1808건), 화면 중앙 (1118건), 사진에 찍힌 (1020건), 사진 속 (792건) |
answer
| 지표 | 값 |
|---|---|
| 글자 수 (평균 / 중앙값 / min / max) | 88.2 / 87 / 17 / 252 |
| ... | |
정형 문구 top5: 화면 중앙 (3203건), 포스터 (2014건), 화면에는 (1156건), 이 이미지 (932건), 화면 우측 (930건) |
종합 평가: ○ 가장 길고 상세한 답변 (평균 58.8 토큰). 다각적인 기술력 (descriptive capability)을 학습시키고 싶을 때 유효함.
실제 데이터 예시
{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "question": "일러스트에 그려진 여성의 의상은 무엇인가요?", "answer": "쥬산마이리 (十三詣り) 일러스트에서는 여성이 전통적인 기모노 (着物)를 착용하고 있습니다. 특히 오른쪽에 그려진 게이샤 (芸妓)는 선명한 색조의 기모노를 입고 있으며, 머리 장식 및 화장과 어우러져 화려한 모습을 보여줍니다."}
학습 적성 요약
| config | field | avg_chars | avg_tok | short% | top5cov% | noise% | 평가 |
|---|---|---|---|---|---|---|---|
| cap-simple | caption | 18.4 | 12.2 | 68.5 | 1.1 | 1.4 | × |
| ... |
Discussion

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기