점군 세그멘테이션용 AI 모델 입문 — PointNet부터 최신 Point Transformer V3까지 - Insights | Molayo

안녕하세요, 닥스훈트입니다.

이전 기사 「이미지 인식 지식부터 시작하는 점군 데이터 입문」에서는 점군 데이터란 무엇인지, 전처리 기본, 고전적인 알고리즘, 점군에서 다루는 주요 태스크의 개요까지 소개했습니다. 본 기사는 그 후속편으로서, 세그멘테이션 (Segmentation) (각 점에 클래스 레이블을 부여하는 태스크)에 특화된 딥러닝 (Deep Learning) 모델을 다룹니다.

대상 독자는 「앞으로 세그멘테이션 모델을 구축·선정해야 하지만, 어떤 모델을 어떻게 골라야 할지 모르겠다」는 분들입니다. 각 모델의 아키텍처 (Architecture) 핵심, 벤치마크 (Benchmark) 비교, 평가 지표, 선정 방법론까지 한 번에 정리합니다.

기존 이미지 인식 모델 (CNN)과의 차이점
접근 방식의 분류: 점 기반 (Point-based), 복셀 기반 (Voxel-based), 투영 기반 (Projection-based)
대표적인 모델 해설
벤치마크 비교
평가 지표
모델 선정 방법론
보충 특징량 (XYZ 이외의 정보) 입력 방법
주요 라이브러리
요약

2D 이미지의 세그멘테이션에서는 U-Net이나 DeepLab과 같은 CNN 기반 모델이 널리 사용되어 왔으며, 고정밀 세그멘테이션을 실현해 왔습니다. CNN이 강력한 이유 중 하나는 이미지가 가진 **규칙적인 그리드 구조 (Regular Grid Structure)**에 있습니다. 이미지는 (H × W × 채널 수)

의 텐서 (Tensor)로 표현되며, 픽셀이 등간격으로 나열되어 있기 때문에 '이웃 픽셀'을 고정 인덱스로 참조할 수 있습니다. 덕분에 컨볼루션 연산 (Convolution, Conv)을 그대로 효율적으로 적용할 수 있습니다.

반면, 점군 데이터는 '규칙적인 그리드'라는 전제를 갖지 않습니다. 이러한 성질이 점군 처리와 이미지 처리의 큰 차이를 만들어냅니다.

점군은 점의 집합이며, 순서에 의미가 없습니다. 같은 형상의 물체를 나타내는 점군이라도, 점을 [p1, p2, p3, ...]

순서로 주든 [p3, p1, p2, ...]

순서로 주든 기하학적으로는 동일합니다.

반면, CNN에서는 입력 텐서의 인덱스 (픽셀의 위치)가 공간적인 의미를 갖습니다. 동일한 점군을 순서를 바꿔 CNN에 입력하면 전혀 다른 특징이 추출되어 버립니다.

점군의 각 점은 등간격의 그리드 위에 있지 않습니다. LiDAR 스캔에서는 센서에 가까운 부분은 점이 밀집되고, 먼 부분은 희소해집니다. 이미지의 '이웃 픽셀'처럼 고정된 인덱스로 인접 관계를 정의할 수 없기 때문에, 근방점을 찾을 때는 KNN (K-최근접 이웃, K-Nearest Neighbors)이나 Ball Query 등을 통해 매번 계산해야 합니다.

관점	2D 세그멘테이션 (U-Net 등)	점군 세그멘테이션
입력 형식	`H × W × C` 텐서 (규칙적)	`N개 점 × 속성 수` 집합 (불규칙)
근방 정의	고정 (상하좌우 4근방·8근방)	KNN / Ball Query로 매번 계산
컨볼루션	그리드 위에서 직접 적용	점 위의 컨볼루션을 별도로 정의해야 함
풀링	Max Pooling / Average Pooling (2D)	점 집합 전체의 집약 (대칭 함수 사용)
스킵 연결	해상도를 낮추면서 복원 (인코더·디코더)	점의 수를 단계적으로 축소·복원 (SA / FP 층)

이 두 가지 과제 (순서 불변성·불규칙성)에 대해, 연구자들은 '점군을 그대로 처리하는 방식 (점 기반)' 또는 '한번 규칙적인 그리드로 변환하는 방식 (복셀 기반)'이라는 두 가지 방향으로 접근해 왔습니다.

점군의 각 점을 그대로 모델에 입력하여 점 단위로 특징량을 학습합니다.

정보 손실: 없음 (원래 점의 좌표를 유지)
과제: 근방 탐색 (KNN, FPS 등)이 계산 비용의 병목 (Bottleneck)이 되기 쉬움. 수십만 점 이상의 대규모 점군을 일괄 처리하려면 기술적工夫가 필요함
대표 모델: PointNet, PointNet++, RandLA-Net, KPConv

3D 공간을 균일한 입체 격자 (복셀, Voxel)로 분할하고, 각 복셀 내의 점을 집약한 특징량으로 변환한 뒤 처리합니다. 대부분의 복셀은 비어 있기 때문에, 실용적으로는 **Sparse Convolution (희소 컨볼루션)**을 사용하여 빈 복셀을 건너뛰며 계산 효율을 높입니다.

정보 손실: 복셀 내의 점을 하나로 묶는 것에 따른 미세한 손실 있음
장점: 규칙적인 구조가 되므로 GPU 병렬화가 효율적임. 대규모 점군에도 대응하기 쉬움
대표 모델: Point Transformer V3 (SpConv 기반), Mink-UNet (MinkowskiEngine)

점군을 한 번 2D 구조화된 형식으로 변환한 다음, 2D CNN 또는 표준 이미지 처리 기법을 적용하는 접근 방식입니다. 2D 변환 방법에 따라 몇 가지 종류가 있습니다.

Range Image (레인지 이미지) 방식: 회전식 LiDAR 스캔을 구면 투영하여 2D 이미지(높이 × 수평 각도)로 변환하고 CNN을 적용합니다. SqueezeSeg, RangeNet++, CENet 등이 대표적입니다. 실외 LiDAR (자율 주행)에 특화되어 있으며, 처리 속도가 빠르다는 것이 강점입니다 -
Multi-view (다시점) 방식: 여러 시점에서 점군을 2D 이미지로 렌더링하고, 각 뷰의 CNN 특징을 집약합니다. MVCNN, TangentConv 등이 대표적입니다 -
BEV (Bird's Eye View, 조감도) 방식: 3D 공간을 상공에서 내려다본 부감 2D 표현으로 변환합니다. 자율 주행의 BEVFusion 등이 대표적이며, LiDAR와 카메라의 멀티모달 (Multimodal) 통합에 강점이 있습니다

2D CNN의 풍부한 자산을 활용할 수 있는 반면, 투영에 의해 기하 정보의 일부가 손실되는 단점이 있습니다. 2026년 시점에서는 점 기반(Point-based)·복셀 기반(Voxel-based)에 비해 시맨틱 세그멘테이션 (Semantic Segmentation) 벤치마크 정확도는 낮은 경향이 있으나, LiDAR 실시간 처리 (자율 주행 등 속도 우선 상황)에서는 유력한 선택지입니다.

정보 손실: 투영에 의한 손실 있음 (기하 정보의 일부가 손실됨) -
장점: 2D CNN을 그대로 사용할 수 있어 GPU 효율이 높고 구현이 비교적 용이함 -
대표 모델: SqueezeSeg·RangeNet++·CENet (Range Image), MVCNN (Multi-view), BEVFusion (BEV)

관점	점 기반 (Point-based)	복셀 기반 (Voxel-based)	투영·뷰 기반 (Projection/View-based)
정보 손실	없음	복셀 집약에 의한 미세한 손실 있음	투영에 의한 손실 있음 (기하 정보의 일부가 사라짐)
...	점 기반·복셀 기반보다 낮은 경향

먼저 아래 표를 통해 각 모델의 전체적인 모습을 파악한 후, 상세 내용을 읽고 싶은 모델의 절로 이동해 주세요. 벤치마크 수치는 「4. 벤치마크 비교」에 정리되어 있습니다.

모델	발표 연도·학회	접근 방식	핵심 아이디어	주요 특징·위치
PointNet	2017 / CVPR	점 기반 (Point-based)	Shared MLP + Max Pooling	선구적인 모델. 순서 불변성 (Permutation Invariance) 대응을 최초로 실현했으나, 국소 특징 (Local Feature) 학습은 불가 (→ 3-1)
PointNet++	2017 / NeurIPS	점 기반 (Point-based)	계층적 SA 층 (FPS + Ball Query + PointNet)	PointNet을 계층화하여 국소 특징을 학습. FPS가 대규모 점군에서는 속도 병목 (→ 3-2)
KPConv	2019 / ICCV	점 기반 (Point-based)	3D 공간상의 컨볼루션 커널 (Convolutional Kernel)	기하학적 특징 파악에 강점. 정확도와 구현 단순함의 균형이 좋음 (→ 3-3)
RandLA-Net	2020 / CVPR Oral	점 기반 (Point-based)	랜덤 샘플링 (Random Sampling) + LFA 모듈	1M 개 이상의 점을 일괄 처리할 수 있는 경량 모델. 산업 실무에서의 채택 실적이 많음 (→ 3-4)
PTv3	2024 / CVPR Oral	복셀 기반 (Voxel-based)	Sparse Conv + Serialization + Transformer	2026년 시점의 SOTA 수준. 정확도는 최고지만 환경 구축 장벽이 있음 (→ 3-5)
Sonata	2025 / CVPR Highlight	복셀 기반 (Voxel-based)	PTv3 백본 (Backbone) + 자기 지도 학습 (Self-distillation Pre-training)	라벨이 적은 상황에서 위력 발휘. 비상업적 용도로만 사용 가능 (CC BY-NC 4.0) (→ 3-6)
PointNeXt	2022 / NeurIPS	점 기반 (Point-based)	InvResMLP 블록 + Residual + 학습 전략 개선	PointNet++를 현대적으로 재설계. 구현이 용이하며 정확도를 대폭 개선 (→ 3-7)
OctFormer	2023 / SIGGRAPH	복셀 기반 (Octree)	OctAttention (선형 복잡도)	대규모 점군에 효율적인 Attention. ScanNet200 SOTA 수준 (→ 3-8)
VLM 계열 (PointCLIP 등)	2022~ / CVPR·ICCV 등	투영·VLM 융합	CLIP / LLM 공간으로의 점군 임베딩 (Embedding)	제로샷 (Zero-shot)·오픈 어휘 (Open-vocabulary) 3D 이해를 실현 (→ 3-9)

점군을 직접 DNN으로 처리한 선구적인 모델입니다. 「순서 불변성 (Permutation Invariance)」에 대응하기 위해, 각 점을 독립적으로 처리한 후 마지막에 대칭 함수 (Symmetric Function, Max Pooling)로 집약하는 심플한 아이디어를 채택하고 있습니다.

입력: N개 점 × 3 (XYZ 좌표)
↓
T-Net (Input Transform): 입력 점군에 대한 3×3 변환 행렬을 학습하여 회전 등의 변동에 대해 강건하게(Robust) 만듦
...

T-Net은 「미니 PointNet」이라고도 불리는 작은 네트워크로, 입력 점군의 자세·방향에 대해 강건한 변환 행렬을 학습합니다. 이를 통해 점군의 방향이 바뀌더라도 안정적인 특징을 얻을 수 있습니다.

가장 큰 아키텍처상의 제약은 각 점을 독립적으로 처리하는 설계에 있습니다. 점들 사이의 국소적인 이웃 관계(「이 점의 주변에는 어떤 점들이 모여 있는가」)를 학습할 수 없기 때문에, 세밀한 국소적 형상의 차이를 포착하기 어려운 경향이 있습니다.

지표	수치
S3DIS Area5 mIoU	약 41%
...

PointNet의 약점(국소 특징의 결여)을 극복하기 위해, PointNet을 계층적으로 쌓아 올린 모델입니다. 이미지의 CNN이 컨볼루션을 반복하며 로컬 패턴을 단계적으로 통합해 나가는 것과 마찬가지로, 점군에서도 「작은 이웃 → 넓은 이웃」이라는 계층적인 특징 학습을 실현하고 있습니다.

PointNet++의 핵심 처리 단위는 Set Abstraction (SA) 층이며, 세 가지 과정으로 구성됩니다.

Sampling (샘플링): FPS (Farthest Point Sampling, 최원점 샘플링)를 통해 대표점을 선택한다. 공간적으로 균일한 분포의 대표 점군을 얻을 수 있다.
Grouping (그룹핑): 각 대표점의 주변에 Ball Query (반경 r 이내)를 사용하여 이웃 점들을 모은다.
PointNet: 모은 국소 점군에 PointNet을 적용하여 국소 특징을 추출한다.

이를 계층적으로 반복함으로써 점진적으로 더 넓은 수용 영역 (Receptive Field)의 특징을 학습합니다. 세그멘테이션 시에는 Feature Propagation (FP) 층에서 다운샘플링을 역순으로 따라가며 각 점에 대한 특징을 보간 및 복원합니다.

밀도가 불균일한 점군에 대응하기 위해, 서로 다른 반경 $r$로 여러 개의 Ball Query를 동시에 적용하고 각 스케일의 특징을 연결하는 MSG가 채택되었습니다. 다만 계산 비용은 PointNet을 단순 적용했을 때보다 커집니다.

지표	수치
S3DIS Area5 mIoU	약 54%
...

KPConv (Kernel Point Convolution)는 2D CNN의 컨볼루션 커널을 점군 위에서 직접 정의하는 접근 방식입니다. 2D CNN에서는 격자 위의 고정된 위치에 커널의 가중치를 두지만, KPConv에서는 공간상의 임의의 점 (커널 점)에 커널의 가중치를 두며, 인접 점과의 거리에 따른 가중치를 적용하여 컨볼루션을 수행합니다.

이를 통해 '공간적인 인접 구조'를 학습할 수 있다는 점이 PointNet 계열과의 큰 차이점입니다.

Rigid KPConv: 커널 점의 위치가 고정됨 (2D CNN의 일반적인 컨볼루션에 가까움) -
Deformable KPConv: 커널 점의 위치가 국소 형상에 따라 동적으로 변형됨. 복잡한 형상 인식에 강함

지표	수치
S3DIS Area5 mIoU	67.1% (rigid) / 67.0% (deformable)
...

주의: KPConv의 Python 구현체로 torch-points3d가 이전에 사용되었으나, 2021년 4월 이후 유지보수가 중단되었습니다 (PyPI의 최종 릴리스는 v1.3.0). 신규 채택 시에는 Open3D-ML을 통한 이용을 권장합니다.

대규모 점군 처리에 특화되어 설계된 경량 모델로, PointNet++ 등 기존 기법과 비교하여 최대 200배 빠르다고 알려져 있습니다 (논문 비교). 1M (100만) 점 이상을 일괄 처리할 수 있는 점 기반 모델로서 현재까지도 실용성이 높은 모델입니다.

PointNet++에서는 FPS (Farthest Point Sampling)로 대표점을 선택했으나, FPS는 계산 비용이 $O(N^2)$ 정도로 높습니다. RandLA-Net은 이 부분을 단순한 **랜덤 샘플링 (Random Sampling)**으로 대체하여 속도를 대폭 개선했습니다.

다만, 랜덤 샘플링은 중요한 점이 제외될 위험이 있습니다. 이 문제에 대한 대응으로 독자적인 Local Feature Aggregation (LFA) 모듈을 제안합니다.

LocSE (Local Spatial Encoding): 각 점과 인접 점 사이의 상대 좌표 및 유클리드 거리를 인코딩하여, 인접 공간의 배치 정보를 특징량에 명시적으로 포함함 -
Attentive Pooling: MLP + Softmax를 통해 각 인접 점에 어텐션 스코어 (Attention Score)를 부여하여 중요한 특징을 우선적으로 집약함 (기계적인 Max Pooling보다 문맥을 파악하기 용이함) -
Dilated Residual Block: LocSE + Attentive Pooling을 여러 단계 쌓아 수용 영역을 단계적으로 확장함

이러한 설계를 통해 랜덤 샘플링의 정보 손실을 보완하면서 대규모 점군을 고속으로 처리할 수 있습니다.

지표	수치
S3DIS Area5 mIoU	약 70%
...

RandLA-Net은 연구에 머물지 않고 실무 환경에서의 채택 실적이 쌓이고 있습니다. 전력 인프라 (송전 철탑의 자동 인식 및 분류), 건축 측량 (드론 사진 측량 데이터로부터의 BIM 생성), 도시·GIS 분야 (도시 스캔 점군 분류) 등에서 사용되는 사례가 보고되고 있습니다 (MDPI Sensors 2025 등).

Open3D-ML을 통해 이용할 수 있고 학습된 가중치(Pre-trained weights)도 공개되어 있어, "어쨌든 빠르게 구동하고 싶다"거나 "기존의 Open3D 파이프라인에 통합하고 싶다"는 실무적 니즈에 부응하기 쉽다는 점이 계속해서 선택받는 이유 중 하나입니다.

2026년 시점에서의 3D 세맨틱 세그멘테이션 (Semantic Segmentation) SOTA 수준의 모델입니다. CVPR 2024에서 Oral (채택률 3.3%의 상위 0.78%)로 선정되었습니다. MIT 라이선스로 상업적 이용이 가능합니다.

이전 버전(Point Transformer V2)은 각 점에 대해 KNN(K-Nearest Neighbors)으로 이웃을 탐색하고 Transformer의 Attention을 적용하는 설계였으나, 대규모 점군(Point Cloud)에서는 계산 비용이 높아지는 과제가 있었습니다. PTv3에서는 이 설계를 근본적으로 재검토했습니다.

PTv3의 가장 큰 혁신은 정밀한 이웃 탐색을 버리고, Sparse Convolution (희소 합성곱) 기반 구조로 전환했다는 점에 있습니다.

점군을 복셀 그리드(Voxel Grid)에 투영하고, **Serialization (공간 충전 곡선을 통한 직렬화)**을 통해 점을 재배열함으로써 Transformer의 Attention 계산을 직렬화하여 효율화했습니다. 이를 통해 다음과 같은 개선을 달성했습니다.

PTv2 대비 추론 속도 3.3배 향상
PTv2 대비 메모리 소비 10배 절감
정확도는 오히려 향상 (S3DIS, ScanNet, SemanticKITTI에서 SOTA 달성)

또한, 위치 인코딩(Position Encoding)에 **xCPE (Enhanced Conditional Positional Encoding)**를 채택하고, Sparse Conv 층을 Attention 층 앞에 삽입하는 단순한 설계로 파라미터 효율적으로 위치 정보를 학습합니다.

설계 사상: PTv2와 같이 '정밀한 이웃 탐색을 통한 정교한 설계'보다, '단순한 설계로 스케일링하는 것'이 정확도 향상에 더 효과적이라는 관점에서 복잡성을 의도적으로 덜어냈습니다.

지표	수치
S3DIS Area5 mIoU	73.6% (단독) / 75.4% (+PPT 사전 학습)
...	MIT (상업적 이용 가능)
구현 프레임워크	Pointcept (공식)

PTv3는 연구 커뮤니티에서 매우 높은 평가를 받고 있으며, 2024 Waymo Open Dataset Challenge (자율 주행 LiDAR 인식 경진대회)에서 PTv3를 기반으로 한 해법이 1위를 차지했습니다 (arXiv 2407.15282). 자율 주행, 로보틱스 등 최신 산업 응용 연구에서는 디팩토(De facto)에 가까운 존재가 되었습니다.

한편, PTv3를 실제로 구동하려면 다음과 같은 의존성을 갖춰야 하며, RandLA-Net에 비해 환경 구축의 허들이 높습니다.

SpConv: CUDA 버전에 맞춘 빌드된 Wheel 파일이 필요 (예: spconv-cu118)
FlashAttention: CUDA 11.6 이상이 필수입니다. Linux용 개발이 우선시되어 있어, Windows 환경에서의 동작은 공식적으로 지원되지 않습니다.
Fallback 설정: FlashAttention을 비활성화(enable_flash=false)하면 어느 정도 정확도 저하를 감수하고 구동하는 것은 가능하지만, 본래의 성능을 발휘할 수는 없습니다.

PoC(Proof of Concept) 단계나 Windows 로컬 환경에서의 초기 검증에는 적합하지 않은 경우가 많으므로, Linux + CUDA 환경이 갖춰진 단계에서 본격적으로 투입할 모델이라고 생각하는 것이 현실적입니다.

Point Transformer V3를 백본(Backbone)으로 한 자기 지도 사전 학습 모델로, CVPR 2025에서 Highlight (상위 약 13%)로 선정되었습니다.

2D 이미지 세계에서는 ImageNet으로 사전 학습한 모델을 다양한 태스크에 파인튜닝(Fine-tuning)하는 기법이 널리 사용되고 있지만, 점군 데이터에는 그에 상응하는 범용적인 사전 학습 모델이 없었습니다. Sonata는 이 격차를 메우는 것을 목표로 하는 연구입니다.

Sonata는 Self-Distillation (자기 증류) 접근 방식을 채택하고 있습니다.

기존 3D 자기 지도 학습의 과제는, 모델이 '국소적인 기하 정보 (공간 좌표)의 지름길(Shortcut)'에 의존함으로써 표현(Representation)이 저수준의 공간 특징으로 붕괴되는 문제였습니다.

Sonata에서는 공간 정보를 의도적으로 은폐하여, 모델이 입력 특징 (색상, 강도 등)으로부터 의미론적인 표현을 배우도록 설계되었습니다.

학생 모델 (Student Model): 무작위 마스킹(Masking) 및 변환을 가한 '어려운 뷰(View)'를 처리합니다.
교사 모델 (Teacher Model): 학생 모델 파라미터의 지수 이동 평균 (EMA)으로 관리되며, '정답 표현'을 제공합니다.
140,000개의 점군 (ShapeNet55 + ScanNet + Structured3D 등)을 사용한 대규모 사전 학습

사전 학습된 가중치(Pre-trained weights)를 백본(Backbone)으로 사용하고, 그 위에 세그멘테이션용 헤드(Head)를 추가하여 파인튜닝(Fine-tuning)함으로써, 적은 양의 라벨 데이터로도 높은 정밀도를 얻을 수 있습니다.

지표	수치
S3DIS Area5 mIoU	SOTA
ScanNet 선형 프로브(Linear probe) mIoU	72.5% (기존 방식 21.8%에서 대폭 개선)
라이선스	코드: Apache 2.0 / 사전 학습된 가중치: CC BY-NC 4.0 (비상업적 용도 한정)
구현	facebookresearch/sonata / Pointcept

주의: Sonata의 라이선스는 CC BY-NC 4.0이므로, 상업적 프로젝트에 적용할 때는 주의가 필요합니다. 채택 전 라이선스 확인이 필수입니다.

PointNet++를 현대적인 학습 및 스케일링 전략으로 재설계한 모델입니다. 새로운 아키텍처를 처음부터 제안하는 것이 아니라, "PointNet++의 아키텍처는 그대로 유지하되, 학습 설계·정규화·네트워크 확장 방법을 개선하는 것만으로도 대폭적인 정밀도 향상을 얻을 수 있다"는 통찰을 입증한 연구입니다.

InvResMLP 블록: Inverted Residual (역잔차) 구조와 Separable MLP를 결합한 블록. 이것만으로 PointNet++ 대비 S3DIS에서 약 +3.9% mIoU 향상 및 추론 속도 3배 향상을 달성

잔차 연결(Residual connection) 추가: PointNet++에는 잔차 연결이 없으며, 이를 생략할 경우 최대 6.5% mIoU의 성능 저하가 발생한다는 것을 실험을 통해 입증
학습 전략 개선: 데이터 증강 (Scale/Color jitter 등) 및 정규화(Normalization) 기법의 최적화. 아키텍처 변경 없이도 수 % 개선할 수 있음을 확인

이러한 요소들을 결합함으로써, PointNet++ (S3DIS 6-fold ~54%)에서 **74.9% (PointNeXt-XL)**까지 mIoU가 대폭 개선되었습니다.

지표	수치
S3DIS 6-fold mIoU	74.9% (PointNeXt-XL)
...
PointNeXt는 "학습 설계 자체가 정밀도의 핵심"이라는 관점을 강조하고 있습니다. PointNet++ 기반으로 구축했을 때 정밀도가 정체되어 있다면, 아키텍처 변경에 앞서 데이터 증강·정규화·스케줄러(Scheduler)의 재검토부터 시작하는 것이 효과적입니다.

팔진 트리(Octree) 구조를 활용한 선형 복잡도의 Transformer 모델입니다. Octree는 3D 공간을 재귀적으로 8개의 자식 노드로 분할하는 트리 구조로, 희소 데이터(Sparse data, 점군)의 압축 표현에 적합합니다. OctFormer는 이 구조 위에서 어텐션(Attention) 계산을 수행함으로써 대규모 점군에서도 빠른 처리를 실현합니다.

OctFormer의 핵심인 OctAttention은 Octree 노드(Voxel)를 정렬된 키(Key)로 재배열하고, 고정된 크기의 로컬 윈도우(Local window)로 나누어 어텐션을 계산합니다.

윈도우 내의 점 개수를 고정함으로써, 계산량이 **점의 개수 N에 대해 선형(Linear)**이 됨 (표준 Transformer는 $O(N^2)$)
200,000개 이상의 점인 경우, 기존의 점군 어텐션 기법과 비교하여 최대 17배 빠름
단 10줄의 코드로 구현 가능한 심플한 설계

지표	수치
ScanNet200 mIoU	Sparse-voxel CNN을 +7.3 mIoU 상회하는 수준
...
OctFormer는 특히 ScanNet200 (200개 클래스의 세밀한 실내 세그멘테이션)에서 강점을 발휘합니다. Octree의 계층 구조가 미세한 물체 형상을 표현하는 데 유리하게 작용하기 때문입니다. PTv3가 전반적인 SOTA를 차지하고 있는 반면, OctFormer는 세밀한 분류 및 실내 장면에서의 경쟁 모델로 자리매김합니다.

지금까지 소개한 모델들은 모두 "정해진 클래스 세트"로 사전 학습 및 파인튜닝하여 사용하는 지도 학습(Supervised learning) 기반의 접근 방식입니다.

반면, 최근에는 **VLM (Vision-Language Model)**과 점군을 결합하여, "제로샷 분류 (Zero-shot classification) (학습 시 보지 못한 클래스 식별)"나 "오픈 보캐블러리 세그멘테이션 (Open-vocabulary segmentation) (텍스트로 자유롭게 클래스를 지정)"을 실현하는 연구가 급격히 진행되고 있습니다.

CLIP (Contrastive Language-Image Pre-training)으로 대표되는 VLM (Vision-Language Model)은 이미지와 텍스트를 동일한 임베딩 공간 (Embedding Space)에 압축하는 대규모 사전 학습 모델입니다. 이를 점군 (Point Cloud)에 응용함으로써 "레이블이 없거나 소수의 레이블만으로 3D 이해를 수행"하는 것이 가능해집니다.

지도 학습 기반 점군 세그멘테이션 (Supervised Point Cloud Segmentation)의 과제로서, 고품질의 3D 레이블링은 2D에 비해 비용이 매우 높다는 현실이 있습니다 (점군 1개 씬의 어노테이션에 수 시간에서 수십 시간이 소요되기도 함). VLM 활용은 이러한 병목 현상을 회피할 수 있는 유망한 접근 방식입니다.

PointCLIP (CVPR 2022)

최초의 CLIP × 점군 연구입니다. 점군을 다중 시점의 깊이 맵 (Depth Map, 2D 이미지)으로 투영하고, 각 뷰 (View)를 CLIP의 이미지 인코더 (Image Encoder)로 처리하며, CLIP의 텍스트 인코더 (Text Encoder)로 생성한 3D 카테고리 기술과의 유사도를 통해 제로샷 (Zero-shot) 분류를 수행합니다.

1-shot 학습에서 PointNet을 25% 이상 상회하는 정확도 (ModelNet40)
추가적인 3D 학습 없이 CLIP의 사전 지식을 활용 가능
제약 사항: 깊이 맵으로의 투영으로 인해 기하학적 정보의 일부가 손실됨

PointCLIP V2 (ICCV 2023)

PointCLIP의 두 가지 과제(투영 품질, 텍스트 프롬프트의 범용성)를 개선했습니다.

실제적인 투영 모듈: 복셀 (Voxel) 변환 + 가우시안 필터 (Gaussian Filter)를 통해 깊이 맵을 더욱 자연스러운 이미지로 변환. Phong 셰이딩 (Phong Shading) 대비 67배 빠름
GPT-3를 통한 프롬프트 생성: 수동으로 작성한 텍스트 대신 GPT-3가 3D 의미론 (Semantics)에 특화된 기술을 자동 생성
PointCLIP 대비 제로샷 정확도 +28~+43% 향상 (3개 데이터셋에서 검증)

OpenScene (CVPR 2023)

명시적인 3D 어노테이션 없이 오픈 보캐블러리 (Open-vocabulary) 3D 이해를 실현하는 접근 방식입니다.

다중 시점 이미지의 각 픽셀에 CLIP 특징량 (Feature)을 할당하고, 이를 3D 점군으로 역투영하여 증류 (Distillation)함
Sparse 3D Conv 네트워크를 통해 점군의 기하학적 특징도 학습하며, 이를 2D 특징과 결합함
응용: 시맨틱 세그멘테이션 (Semantic Segmentation), 어포던스 (Affordance) 추정, 텍스트를 통한 3D 오브젝트 검색

PointLLM (ECCV 2024)

점군을 LLM (Large Language Model, 대규모 언어 모델)이 직접 이해하도록 하는 모델입니다.

색상 정보가 포함된 점군을 입력으로 하여, 오브젝트의 종류, 기하학적 구조, 외관을 자연어로 기술하거나 질의응답할 수 있음
2D 이미지의 깊이, 폐쇄 (Occlusion), 시점 의존성 문제를 배제
점군에 관한 오픈 엔드 (Open-ended) 질의응답 및 캡셔닝 (Captioning) 생성 가능

상황	권장 접근 방식
고정된 클래스 및 대량의 레이블 존재	RandLA-Net / PTv3 (지도 학습)
...

VLM 계열 모델은 현시점에서 정확도로 지도 학습 모델을 능가하는 경우는 드물지만, "레이블링 비용 절감", "미지의 클래스 대응", "텍스트를 통한 유연한 지시"라는 관점에서는 독보적인 강점이 있습니다. 용도에 따라 지도 학습 방식과 조합하는 것도 유효합니다.

대표적인 모델의 정확도를 정리합니다.

벤치마크에 대하여

S3DIS Area5 mIoU: 실내 씬 (사무실, 복도 등)의 점군 세그멘테이션 정확도. Area5를 평가 데이터로 사용
SemanticKITTI val mIoU: 실외 대규모 LiDAR (자율 주행 가정)의 점군 세그멘테이션 정확도

점군 세그멘테이션용 AI 모델 입문 — PointNet부터 최신 Point Transformer V3까지

요약

핵심 포인트

댓글