DEJIMA 변체 학습 적성 분석

샘플: 각 50,000건

단문율 (Short sentence rate): caption < 20자 / question < 12자 / answer < 30자를 임계값으로 한 비율
정형문율 (Template rate): 앞 4글자 상위 5개 패턴이 전체에서 차지하는 비율 (높을수록 다양성이 낮음)
노이즈율 (Noise rate): 일본어 비율 < 30% 또는 기정 노이즈 패턴(물체 없음 등)의 비율
추정 토큰 (Estimated tokens): 글자 수 ÷ 1.5 (일본어 환산)

cap-simple

샘플: 50,000건 / 전체 추정: 3,884,629건

caption

지표	값
글자 수 (평균 / 중앙값 / min / max)	18.4 / 14 / 2 / 100
...
정형문 top5: `株式会社` (주식회사) (184건), `おしゃれ` (세련된) (92건), `胡蝶蘭` (호접란) (90건), `愛知県愛` (아이치현 아이) (84건), `津の格子` (쓰의 격자) (81건)

종합 평가: × 단문율이 높고 (68.5%가 20자 미만), 레이블·구절이 대부분임. 문장으로서 불완전함.

실제 데이터 예시

{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "caption": "十三詣りのイラスト"}

cap-refined

샘플: 50,000건 / 전체 추정: 3,884,629건

caption

지표	값
글자 수 (평균 / 중앙값 / min / max)	37.9 / 31 / 7 / 457
...
정형문 top5: `パソコン` (PC) (174건), `株式会社` (주식회사) (172건), `スマート` (스마트) (115건), `QRコー` (QR코) (108건), `シンプル` (심플) (94건)

종합 평가: ○ LLM 정교화(Refinement)가 완료되어 문장으로서 완결됨. 평균 25.3 토큰은 캡션 학습에 적절한 길이임.

실제 데이터 예시

{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "caption": "十三詣りのイラスト。人々が神社の鳥居をくぐり、提灯に照らされた参道を歩いている様子が描かれている。"}

cap-detection

샘플: 50,000건 / 전체 추정: 3,884,629건

caption

지표	값
글자 수 (평균 / 중앙값 / min / max)	49.6 / 49 / 7 / 553
...
정형문 top5: `画像内に` (이미지 내에) (3290건), `ポスター` (포스터) (1340건), `テーブル` (테이블) (1180건), `ブランド` (브랜드) (894건), `道路標識` (도로 표지판) (755건)

종합 평가: △ 위치 기술이 충실하지만 정형문율이 14.9%로 높아 다양성이 부족함. 노이즈(물체 없음)도 혼재함.

실제 데이터 예시

{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "caption": "芸者が着物姿で立ち、袖の長い着物が下方向に広がっている。芸者は画面中央右側に位置し、着物の一部が下方に垂れ下がる様子が見える。"}

cap-all

샘플: 50,000건 / 전체 추정: 3,884,629건

caption

지표	값
글자 수 (평균 / 중앙값 / min / max)	79.7 / 78 / 12 / 670
...
정형문 top5: `白い背景` (하얀 배경) (639건), `透明なガ` (투명한 가) (609건), `木目調の` (나뭇결 모양의) (482건), `スーツ姿` (정장 차림) (462건), `白い壁に` (하얀 벽에) (420건)

종합 평가: ○ 최대 정보량 (평균 79.7자). 색상·위치·의미를 망라하지만 샘플당 토큰 비용이 높음.

실제 데이터 예시

{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "caption": "기모노 차림의 게이샤가 부채를 손에 들고, 쥬산마이리(十三社参り) 복장을 한 채 떠나가는 모습. 연보라색 후리소데가 바람에 휘날리고 있으며, 배경의 토리이가 주홍색으로 빛나고 있다."}

vqa-refined

샘플: 50,000건 / 전체 추정: 3,875,343건

question

지표	값
글자 수 (평균 / 중앙값 / min / max)	21.4 / 21 / 8 / 68
...
정형 문구 top5: `이 이미지` (3414건), `화면 중앙` (2992건), `어떠한` (2204건), `이 사진` (1414건), `이미지 속` (1091건)

answer

지표	값
글자 수 (평균 / 중앙값 / min / max)	34.9 / 30 / 1 / 196
...
정형 문구 top5: `화면 중앙` (2748건), `이 이미지` (1478건), `이미지 속` (869건), `간판에는` (816건), `이 사진` (594건)

종합 평가: ○ 질문·답변 모두 자연스러운 문체. 평균 토큰: Q=14.2, A=23.3. 범용 VQA (Visual Question Answering) 학습에 최적.

실제 데이터 예시

{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "question": "이 일러스트는 어떤 행사를 그리고 있습니까?", "answer": "이 일러스트는 '쥬산마이리(十三詣り)'를 그리고 있습니다. 시치고산(七五三)이나 하츠모데(初詣)와 유사한 전통 행사로, 13세 생일에 신사를 참배하는 관습을 표현하고 있습니다."}

vqa-detection

샘플: 50,000건 / 전체 추정: 3,875,343건

question

지표	값
글자 수 (평균 / 중앙값 / min / max)	18.2 / 18 / 8 / 99
...
정형 문구 top5: `이 이미지` (2159건), `포스터` (1799건), `이미지 내에` (1418건), `테이블` (1316건), `화면의` (1256건)

answer

지표	값
글자 수 (평균 / 중앙값 / min / max)	58.9 / 59 / 9 / 233
...
정형 문구 top5: `이미지 내에` (2565건), `포스터` (1644건), `이 이미지` (1388건), `테이블` (1327건), `사진에는` (973건)

종합 평가: △ 질문은 짧고 단순하며(평균 18.2자), 답변은 위치 묘사에 치우쳐 있음. 공간 인식 특화 용도에 적합.

실제 데이터 예시

{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "question": "게이샤는 어떤 의상을 입고 있습니까?", "answer": "게이샤는 기모노를 입고 있습니다. 기모노는 게이샤의 하반신을 감싸며, 소매 끝과 깃 부분의 장식이 아름답게 돋보입니다."}

vqa-all

샘플: 50,000건 / 전체 추정: 3,875,343건

question

지표	값
글자 수 (평균 / 중앙값 / min / max)	20.6 / 20 / 8 / 53
...
정형 문구 top5: `포스터` (2232건), `이 이미지` (1808건), `화면 중앙` (1118건), `사진에 찍힌` (1020건), `사진 속` (792건)

answer

지표	값
글자 수 (평균 / 중앙값 / min / max)	88.2 / 87 / 17 / 252
...
정형 문구 top5: `화면 중앙` (3203건), `포스터` (2014건), `화면에는` (1156건), `이 이미지` (932건), `화면 우측` (930건)

종합 평가: ○ 가장 길고 상세한 답변 (평균 58.8 토큰). 다각적인 기술력 (descriptive capability)을 학습시키고 싶을 때 유효함.

실제 데이터 예시

{"id": 8713021, "url": "http://tee-room.info/japan/column/column01_jusan-mairi.jpg", "question": "일러스트에 그려진 여성의 의상은 무엇인가요?", "answer": "쥬산마이리 (十三詣り) 일러스트에서는 여성이 전통적인 기모노 (着物)를 착용하고 있습니다. 특히 오른쪽에 그려진 게이샤 (芸妓)는 선명한 색조의 기모노를 입고 있으며, 머리 장식 및 화장과 어우러져 화려한 모습을 보여줍니다."}

학습 적성 요약

config	field	avg_chars	avg_tok	short%	top5cov%	noise%	평가
cap-simple	caption	18.4	12.2	68.5	1.1	1.4	×
...

Insights

DEJIMA 변체 학습 적성 분석

요약

핵심 포인트

DEJIMA 변체 학습 적성 분석

cap-simple

caption

cap-refined

caption

cap-detection

caption

cap-all

caption

vqa-refined

question

answer

vqa-detection

question

answer

vqa-all

question

answer

학습 적성 요약

Discussion

댓글

팁: Windows 검색(Win+Q)을 사용하여 기본 모델과 함께 llama.cpp Router Mode를 실행하는 방법

클래식 벡터 RAG vs Google의 새로운 OKF 포맷 vs 두 방식의 결합 벤치마크 — 동일 코퍼스, 동일 7개 질문, 모두 로컬 환경

단일 RTX 3090에서 실행되는 Döner Bench DeepSeek-V4-Flash IQ2_XS

[릴리스] SupraBrain-50M-v0.1

팁: Windows 검색(Win+Q)을 사용하여 기본 모델과 함께 llama.cpp Router Mode를 실행하는 방법

클래식 벡터 RAG vs Google의 새로운 OKF 포맷 vs 두 방식의 결합 벤치마크 — 동일 코퍼스, 동일 7개 질문, 모두 로컬 환경

단일 RTX 3090에서 실행되는 Döner Bench DeepSeek-V4-Flash IQ2_XS

[릴리스] SupraBrain-50M-v0.1