목적

3D 점군(Point Cloud)의 Conditional Variational Autoencoder (CVAE)에서 MLP 디코더의 표현력을 높이기 위해 중간층을 확장(2048 ➔ 16384)한 결과, 가중치 파일 크기가 3GB까지 기하급수적으로 비대해졌다. 이번에는 로컬 GPU 메모리의 제약으로 인해 해당 거대 모델의 실행 및 결과 게재는 보류하지만, 포터빌리티(Portability)나 실시간 추론(Real-time Inference)의 관점에서 이러한 MLP 구성은 리소스 제한이 있는 에지(Edge) 환경으로의 배포에는 부적합하다고 판단했다.

본 검증은 향후 「CAD화 자동화 파이프라인」 구축을 염두에 둔 전단계 검증이다. 파라미터 효율성과 기하학적 토폴로지(Topology) 표현력이 뛰어난 Set Attention Block (SAB)을 디코더에 채택하여, 모델 용량을 에지 구동이 가능한 수준(100MB 대)으로 억제하면서도 실용적인 생성 정밀도를 유지할 수 있는지 실증 비교한다.

1. Baseline: MLPDecoder

각 레이어에 결합된 플랫(Flat)한 MLP 구성.

(decoder): MLPDecoder(

(model): Sequential(

(0): Linear(in_features=8, out_features=64, bias=True)

(1): LayerNorm((64,), eps=1e-05, elementwise_affine=True)

(2): ReLU(inplace=True)

(3): Linear(in_features=64, out_features=128, bias=True)

(4): LayerNorm((128,), eps=1e-05, elementwise_affine=True)

(5): ReLU(inplace=True)

(6): Linear(in_features=128, out_features=256, bias=True)

(7): LayerNorm((256,), eps=1e-05, elementwise_affine=True)

(8): ReLU(inplace=True)

(9): Linear(in_features=256, out_features=512, bias=True)

(10): LayerNorm((512,), eps=1e-05, elementwise_affine=True)

(11): ReLU(inplace=True)

(12): Linear(in_features=512, out_features=1024, bias=True)

(13): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)

(14): ReLU(inplace=True)

(15): Linear(in_features=1024, out_features=2048, bias=True)

(16): LayerNorm((2048,), eps=1e-05, elementwise_affine=True)

(17): ReLU(inplace=True)

(18): Linear(in_features=2048, out_features=12288, bias=True)

(19): Tanh()
)

◇ 실험 결과

계산 시간: 136초 / 100 에포크 (Epoch)

가중치 파일: 105MB

사전 학습: 있음 (파인튜닝(Fine-tuning)하여 실행한 결과)

로스(Loss) 결과

재구성 데이터 시각화

잠재 공간의 점군 형상 변천 (애니메이션)

2. Proposed: FullSABDecoder

Set Transformer 아키텍처를 베이스로 채택하여, SAB를 6층 적층한 구성. 잠재 변수(Latent Variable)로부터 토큰 공간으로 확장하며, Self-Attention을 통해 점 집합의 「순서 불변성(Permutation Invariance)」을 보장하면서 기하학적인 관계성을 동적으로 학습한다.

(decoder): FullSABDecoder(

(zc_to_tokens): Linear(in_features=261, out_features=16384, bias=True)

(sab_layers): ModuleList(

(0-5): 6 x SAB(

(mha): MultiheadAttention(

)

(ln1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(ffn): Sequential(
(0): Linear(in_features=256, out_features=1024, bias=True)
(1): GELU(approximate='none')
(2): Linear(in_features=1024, out_features=256, bias=True)
)
(ln2): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
)
)

(token_to_points): Sequential(
(0): Linear(in_features=256, out_features=256, bias=True)
(1): LayerNorm((256,), eps=1e-05, elementwise_affine=True)
(2): ReLU(inplace=True)
(3): Linear(in_features=256, out_features=192, bias=True)
(4): Tanh()
)

◇실험 결과

계산 시간: 189초 / 100 에포크 (MLP 대비 약 1.4배의 계산 비용)

가중치 파일: 105MB (Linear의 총 파라미터 수가 억제되어 있어, SAB를 6층으로 쌓아도 용량은 동등하게 유지됨)

사전 학습: 있음 (파인튜닝하여 실행한 결과)

손실 결과

재구성 데이터 시각화

잠재 공간의 점군 형태 변화(애니메이션)

3. 고찰

이번 설정에서 두 아키텍처의 가중치 파일 크기는 모두 '약 100MB'이다. 하지만 내부 파라미터 효율성에는 결정적인 차이가 존재한다.

MLPDecoder: 최종 레이어의 거대한 완전 연결(2048 ➔ 12288) 단일 레이어만으로 파라미터의 대부분을 소모하고 있다. 서두에서 언급한 목적대로 표현력을 높이려고 이 레이어를 확장(16384 ➔ 49152)하면, 연결 수가 기하급수적으로 폭발하여 쉽게 3GB를 돌파한다.

FullSABDecoder: 내부 채널 수를 256으로 제한하고 Self-Attention을 통해 점들 간의 관계성 계산에 리소스를 할당하기 때문에, 6층이라는 깊은 적층을 해도 용량이 전혀 비대해지지 않는다.

'층수나 뉴런 수를 늘리면 파라미터가 폭발한다'는 MLP의 구조적 결함에 대해, SAB 구성이 압도적인 저메모리(파라미터 효율성)를 실현하는 강력한 대안이 될 것으로 기대된다.

4. 실무 전개에 대비한 디코더 선정 기준 (기술 의사결정의 관점)

SAB는 MLP에 비해 계산 비용이 약 1.4배 무거워지지만, 이는 주로 학습 단계에서의 시간 증가이다. 배포 후 실제 업무(배치 처리나 추론)에서 이 정도의 계산 시간 증가는 허용 범위 내라고 판단한다.

본 시스템을 장래 제조 산업의 제품 개발 파이프라인(기계 부품의 CAD화 등)에 통합할 경우, 단순히 손실 수치뿐만 아니라 '계산 비용・메모리・기하학적 품질'의 종합적인 판단이 필요하다. Loss (CD) 수치가 동일하더라도, 출력되는 3D 점군의 '기하학적 특징 표현력'에는 질적인 차이가 나타난다.

MLP는 각 점이 독립적으로 좌표를 출력하기 때문에 미세한 노이즈(표면의 흔들림)가 발생하기 쉽다. 반면, SAB는 Self-Attention을 통해 면으로서의 연속성을 학습하고 있기 때문에, 후속 단계의 메시화(수밀성 확보)나 CAD화에 대한 치수 추종성 측면에서 명확한 이점을 가질 가능성이 높다.

5. 결론

현 단계 검증에서 SAB 도입으로 인한 '1.4배의 계산 비용'은 실무상 문제가 되지 않는다고 판단했다.

거대화되는 가중치 파일 용량 억제 능력에 더하여, Self-Attention이 제공하는 면으로서의 연속성 확보라는 관점에서 후처리 단계인 CAD 표면 복원을 고려할 때, SAB가 유력하고 실용적인 디코더 후보라고 생각한다.

Insights

거대 MLP의 3GB 비대화 해결: 3D 점군 CVAE에서의 Set Attention (SAB) 채택과 CAD화를 고려한 기하학적 정밀도 검증

요약

핵심 포인트

목적

1. Baseline: MLPDecoder

◇ 실험 결과

로스(Loss) 결과

재구성 데이터 시각화

잠재 공간의 점군 형상 변천 (애니메이션)

2. Proposed: FullSABDecoder

◇실험 결과

손실 결과

재구성 데이터 시각화

잠재 공간의 점군 형태 변화(애니메이션)

3. 고찰

4. 실무 전개에 대비한 디코더 선정 기준 (기술 의사결정의 관점)

5. 결론

Discussion

댓글

VODAM Motion API: 운동 영상을 업로드하면 PINN 기반으로 자세 분석/가이드 비교를 해주는 API

Raspberry Pi에서 AI 에이전트를 실행하고 공인 IP 없이 어디서나 접속하기

맞춤형 SLM vs LLM: B2B SaaS를 위한 AI 기술 의사결정 프레임워크

Amazon은 3세대 에이전트를 보유하고 있지만, Mercado Libre 판매자들은 여전히 스페인어로 수동 답변을 합니다

VODAM Motion API: 운동 영상을 업로드하면 PINN 기반으로 자세 분석/가이드 비교를 해주는 API

Raspberry Pi에서 AI 에이전트를 실행하고 공인 IP 없이 어디서나 접속하기

맞춤형 SLM vs LLM: B2B SaaS를 위한 AI 기술 의사결정 프레임워크

Amazon은 3세대 에이전트를 보유하고 있지만, Mercado Libre 판매자들은 여전히 스페인어로 수동 답변을 합니다