【G검정 대책】 이미지 인식 용어가 너무 많아서 '4가지 프레임워크'로 정리해 보았다

G검정 공부를 진행하면서, 이미지 인식 분야는 알고리즘이나 모델명이 방대하여 아무래도 머릿속이 혼란스러워지기 쉬웠습니다.

"YOLO가 뭐였더라?", "FPN과는 무엇이 다르지?"라며 텍스트 속에서 길을 잃어버렸기 때문에, 나름대로 용어를 정리하기 위한 "서랍"을 만들어 보기로 했습니다.

이 기사는 저의 학습 노트로서, 이미지 인식 용어를 **「①태스크(Task)」「②모델(Model)」「③기법(Method)」「④데이터(Data)」**라는 4가지 관점에서 정리한 내용을 담고 있습니다. 저와 비슷하게 학습을 진행하고 계신 분들께 참고가 된다면 좋겠습니다.

용어를 암기하기 전에, 우선 이 4가지 "서랍"의 개념을 만들면 정보 정리가 매우 쉬워진다는 것을 깨달았습니다. 개인적으로는 요리에 비유하면 이미지를 떠올리기 쉬웠습니다.

프레임워크	나름의 해석	비유 (요리)
태스크 (Task)	AI에게 요청하는 내용·목적 (무엇을 해주길 원하는가)	"카레를 만든다"라는 목적
모델 (Model)	AI의 두뇌·완성된 설계도 (구체적인 제품명)	"〇〇점 특제 압력솥 카레"라는 상품
기법 (Method)	두뇌를 똑똑하게 만드는 "도구·테크닉"	"압력솥을 사용한다", "재료를工夫(공부)한다"는 기술
데이터 (Data)	AI가 읽어들이는 입력 정보	카레의 재료 (고기, 채소, 스파이스)

텍스트를 읽으면서 가장 납득이 갔던 점은, "기법"은 모델을 형성하기 위한 **도구 (Tool)**라는 점입니다.

모델이 기법을 내장하고 있다: "작은 것을 놓치지 않는 도구 (기법: FPN)"를 처음부터 장착하고 있는 "물체 검출 AI (모델: Mask R-CNN)".

기법을 사용하여 모델을 만든다: "전자동 설계 소프트웨어 (기법: NAS)"를 사용하여 만들어진 "고효율 두뇌 (모델: EfficientNet)".

이렇게 파악하니 각각의 용어의 위치가 깔끔하게 정리되었습니다.

AI에게 무엇을 시키고, 어떤 결과를 내길 원하는가라는 "골(Goal)"의 종류로서 정리했습니다. (※ "이미지 인식"은 이것들 전체의 총칭으로 파악하고 있습니다)

태스크명	AI에게 요청하는 내용 (골)
일반 물체 인식 (Object Classification)	이미지 전체를 보고 "무엇이 찍혀 있는지"를 분류한다.
물체 검출 (Object Detection)	이미지 내 물체의 "위치(사각형 틀)"와 "종류"를 특정한다.
시맨틱 세그멘테이션 (Semantic Segmentation)	픽셀 단위로 "종류 (Class)"에 따라 색칠한다 (같은 종류의 다른 개체는 구분하지 않는다).
인스턴스 세그멘테이션 (Instance Segmentation)	픽셀 단위로 "개체 (Instance)"에 따라 색칠한다 (같은 종류라도 하나씩 개체를 구분한다).
파놉틱 세그멘테이션 (Panoptic Segmentation)	배경 (Semantic)도 개체 (Instance)도, 모든 픽셀을 완벽하게 색칠한다.
자세 추정 (Pose Estimation)	인물의 관절 위치 (Keypoint)를 특정하여 골격을 맞춘다.

태스크를 해결하기 위해 개발된 구체적인 네트워크 (제품) 명칭입니다. "이 모델은 어떤 태스크에 특화되어 있는가"를 세트로 외우려고 노력하고 있습니다.

모델명	두뇌의 특징·키워드
AlexNet	2012년 ILSVRC 우승. 딥러닝 (Deep Learning) 붐의 도화선.
VGG	2014년 ILSVRC 2위. 3×3의 작은 필터를 겹쳐 층을 깊게 만든 심플한 구조.
GoogLeNet	2014년 ILSVRC 우승. "Inception 모듈"을 도입하여 계산 효율을 추구.
ResNet	2015년 ILSVRC 우승. "스킵 연결 (Skip Connection)"을 도입. 경사 소실 (Gradient Vanishing) 문제를 해결하고 152층의 초심층화를 실현.
DenseNet	전방의 출력을 후방의 모든 층에 결합 (밀결합). ResNet의 진화형 중 하나.
SENet	채널 간의 중요도를 학습 (SE 블록)하여 가중치를 부여한다.
NASNet	NAS (Neural Architecture Search)를 이용하여 AI가 자동으로 설계한 네트워크 구조.
WideResNet	ResNet의 "깊이"가 아니라 "너비 (채널 수)"를 늘린 모델.
ViT / Swin Transformer	자연어 처리의 "Transformer" 기술을 이미지에 응용한 최신 트렌드.
MobileNet	"Depthwise Separable Convolution"으로 계산량을 대폭 절감 (스마트폰용). 2017년 Google이 개발.
EfficientNet	깊이·너비·해상도의 3요소를 최적으로 스케일링한 고효율 모델. 2019년 Google이 발표
MnasNet	강화학습 (RL) (NAS)을 이용하여 모바일용 구조를 자동 탐색한 모델.

ResNet이 발명한 「스킵 연결 (Skip Connection, 정보를 전달하기 위해 지름길을 만드는 메커니즘)」은 이후의 모델들에 지대한 영향을 미쳤다는 것을 깨달았습니다.

파생: 깊이보다 너비를 우선시한 WideResNet -
극치: 연결을 엄청나게 늘린 DenseNet -
응용: 의료용인 U-Net에서도 위치 정보를 전달하기 위해 이 메커니즘이 사용되고 있음

「층을 너무 깊게 쌓으면 기울기 소실 (Gradient Vanishing)이 발생하여 학습할 수 없게 된다」는 문제를 해결한 ResNet은, 그야말로 현대 이미지 인식의 표준이라는 것을 실감했습니다.

모델명	대응 태스크 (Task)	특징 및 키워드
Faster R-CNN	객체 탐지 (Object Detection)	영역 제안 (RPN)을 내부적으로 수행하는 고정밀 2단계 탐지 모델.
YOLO / SSD	객체 탐지 (Object Detection)	이미지를 한 번 보는 것만으로 탐지하는 실시간성이 높은 1단계 탐지 모델.
FCN	세만틱 세그멘테이션 (Semantic Segmentation)	전결합층 (Fully Connected Layer)을 배제하여 이미지 크기의 제약이 없는 세그멘테이션의 원조.
U-Net	세만틱 세그멘테이션 (Semantic Segmentation)	스킵 연결 (Skip Connection)을 가진 U자형 구조. 의료 영상 분야에서 특히 활약.
SegNet	세만틱 세그멘테이션 (Semantic Segmentation)	풀링 (Pooling) 시의 위치 정보를 유지하여 해상도를 복원함.
PSPNet	세만틱 세그멘테이션 (Semantic Segmentation)	「Pyramid Pooling Module」을 통해 광범위한 컨텍스트 (Context)를 고려.
DeepLab	세만틱 세그멘테이션 (Semantic Segmentation)	「Atrous Convolution」을 사용하여 해상도를 유지하면서 넓은 범위를 봄.
Mask R-CNN	인스턴스 세그멘테이션 (Instance Segmentation)	Faster R-CNN을 확장하여 픽셀 단위의 마스크 예측을 추가.
OpenPose	포즈 추정 (Pose Estimation)	여러 사람의 관절 위치를 실시간으로 특정하는 골격 추정의 대명사.

모델의 성능을 끌어내거나 모델을 설계하기 위한 아이디어 및 테크닉입니다. 이 부분이 모델명과 혼동하기 쉬웠던 부분입니다.

기법명	어떤 도구 (Technique)인가
FPN (Feature Pyramid Network)	크고 작은 다양한 물체를 놓치지 않기 위한 렌즈. 특징 맵 (Feature Map)을 피라미드 형태로 구축하며, Mask R-CNN 등의 탐지 모델에 포함됨.
NAS (Neural Architecture Search)	AI의 설계도를 AI 스스로 자동 생성하게 하는 설계 소프트웨어. 인간이 아닌 강화학습 (RL) 등을 사용하여 EfficientNet 등의 탄생에 기여함.

AI가 처리하는 대상이 되는 이미지 데이터의 종류입니다.

데이터명	어떤 입력 정보인가
멀티스펙트럼 이미지 (Multispectral Image)	인간의 눈에 보이는 빛 (RGB)뿐만 아니라 적외선 등 여러 파장을 기록한 특수 이미지. 농업 (생육 상황)이나 위성 조사에서 활약함.

공부를 진행하며 새로운 용어를 만났을 때는, 「이것은 『목적 (태스크)』인가? 아니면 『제품 (모델)』인가? 그것도 아니면 『도구 (기법)』인가?」 라고 이 4가지 분류함에 나누어 넣으려고 노력했더니 머릿속이 상당히 정리되었습니다.

「〇〇라는 태스크 (Task) 를 해결하기 위해, △△라는 기법 (도구) 를 사용하여 만들어진, ××라는 모델 」

앞으로도 이 구조화 패턴을 의식하며 학습을 계속해 나가고자 합니다.

【G검정 대책】 이미지 인식 용어가 너무 많아서 '4가지 프레임워크'로 정리해 보았다

요약

핵심 포인트

모델이 기법을 내장하고 있다: "작은 것을 놓치지 않는 도구 (기법: FPN)"를 처음부터 장착하고 있는 "물체 검출 AI (모델: Mask R-CNN)".

댓글