Zenn헤드라인2026. 05. 08. 21:11

NeRF の論文解説

요약

NeRF(Neural Radiance Field)는 소수의 정지 이미지로부터 임의의 시점에서 고품질의 새로운 이미지를 합성하는 기술입니다. 이 방법은 3D 공간을 신경망(MLP)에 암묵적인 연속 함수로 표현하고, 볼륨 렌더링 기법을 사용하여 색상과 밀도를 계산합니다. 특히 위치와 방향 정보를 분리하여 처리함으로써, 거울 반사 같은 시선 의존적 외관까지 정확하게 포착할 수 있습니다. 초기 NeRF는 Coarse/Fine 네트워크를 사용하고 Positional Encoding으로 고주파 디테일을 표현하며, 볼륨 렌더링을 통해 미분 가능한 방식으로 이미지를 생성합니다. 이 기술은 높은 품질의 결과를 보여줬으나, 학습 및 추론 속도가 느리고 동적 장면이나 일반화에 어려움이 있다는 한계를 가집니다.

핵심 포인트

NeRF는 3D 공간을 MLP를 이용해 연속 함수로 표현하는 Novel View Synthesis 기법이다.
위치(x, y, z)와 방향($ heta, ext{φ}$) 정보를 분리하여 처리함으로써 시선 의존적 외관(예: 거울 반사)을 효과적으로 모델링한다.
Positional Encoding은 MLP가 고주파 디테일을 학습할 수 있도록 입력 데이터를 고차원 공간으로 매핑하는 핵심 기술이다.
볼륨 렌더링 공식($C(r)$)을 사용하여 레이를 따라 색상과 밀도를 적분하며, 이 과정이 미분 가능하여 최적화에 활용된다.
초기 NeRF는 속도와 일반화가 주요 한계였으며, 이후 Instant-NGP나 Gaussian Splatting 같은 후속 연구들이 이를 개선하고 있다.

NeRF の論文を読み解く

概要

NeRFとは少数の静止画像から、任意の視点の新規画像を高品質に合成する手法（Novel View Synthesis）。シーンを 5 次元の連続関数として MLP に暗黙的に表現し、古典的なボリュームレンダリングで画像を生成する。

手法・アーキテクチャ

シーン表現（Neural Radiance Field）

シーンの姿勢や向きを次の 5D 関数として表現：

F_θ: (x, y, z, θ, φ) → (r, g, b, σ)

| 入力 |
説明 |
(x, y, z) |
3D 空間座標 |
(θ, φ) |
視線方向（極座標） |

| 出力 |
説明 |
(r, g, b) |
視線依存の放射輝度（色） |
σ |
体積密度（位置のみに依存） |

密度 σ

は位置のみから計算し、色は位置＋視線方向から計算することで、

鏡面反射などの視線依存な外観を表現しつつ、幾何学的な一貫性を保つ。

ネットワーク構造

Positional Encoding(x,y,z)
↓
[FC(256) + ReLU] × 4 層
...

全結合層 8 層、各 256 ユニット、ReLU 活性化
5 層目に入力
(x,y,z)

を skip connection で結合

視線方向は 8 層目以降のみに入力（密度と色の独立性を保つ）

Positional Encoding

MLP は低周波な関数しか学習できないため、入力を高次元空間にマッピングする：

γ(p) = (sin(2⁰πp), cos(2⁰πp), sin(2¹πp), cos(2¹πp), ..., sin(2^(L-1)πp), cos(2^(L-1)πp))

| 入力 |
L の値 |
出力次元 |
| 位置 (x,y,z) |
10 |
60 次元 |
| 方向 (θ,φ) |
4 |
24 次元 |

これにより、細かいテクスチャや形状の高周波成分を正確に表現できる。

ボリュームレンダリング

カメラからレイ r(t) = o + td

を飛ばし、期待色を積分で計算：

C(r) = ∫[t_n → t_f] T(t) · σ(r(t)) · c(r(t), d) dt
T(t) = exp( -∫[t_n → t] σ(r(s)) ds ) （透過率）

離散化した実装：

Ĉ(r) = Σᵢ Tᵢ · (1 - exp(-σᵢδᵢ)) · cᵢ
Tᵢ = exp( -Σ_{j<i} σⱼδⱼ )
δᵢ = t_{i+1} - tᵢ （サンプル間距離）

このレンダリング式は微分可能なので、損失からそのまま逆伝播できる。

階層的サンプリング（Coarse / Fine）

レイ上の無駄なサンプリングを減らすため、2 段階のネットワークを使う：

Coarse ネットワーク: レイ上に均一に Nc=64 点をサンプリング
Fine ネットワーク: Coarse の密度分布を PDF として、高密度領域に追加で Nf=128 点をサンプリング

損失は両ネットワークの出力で計算：

L = Σᵣ [ ‖Ĉ_c(r) - C(r)‖² + ‖Ĉ_f(r) - C(r)‖² ]

Fine ネットワークの推論時は Coarse + Fine の全 192 点を使う。

実験結果

データセット

定量評価（NeRF Synthetic）

| 手法 |
PSNR ↑ |
SSIM ↑ |
LPIPS ↓ |
| SRN |
26.05 |
0.846 |
0.250 |
| NV (Neural Volumes) |
28.40 |
0.921 |
0.160 |
NeRF（提案） |
31.01 |
0.947 |
0.081 |

NeRF は全手法で最高スコアを達成。特に LPIPS（知覚的類似度）で大幅に改善。

限界・今後の課題

現時点での主な制限

今後の方向性（論文より）

汎化: 複数シーンをまたいで汎化できるモデルへの拡張
動的シーン: 時間軸を扱える NeRF の開発
高速化: リアルタイム推論を可能にする手法の探索
カメラ姿勢推定の統合: SfM への依存を減らす

補足: これらの課題は後続研究で多く解決されており、特に Instant-NGP（学習数秒〜数分）、Nerfacto、3D Gaussian Splatting などが代表的な発展手法として知られている。

実装のポイント（エンジニア向け）

공식 구현: nerf-pytorch (비공식 PyTorch 포팅), 공식 TF 구현
입력은 각 시나의 이미지 + COLMAP로 추정된 카메라 내외 파라미터
Positional Encoding 은 FourierFeature 와 동등한 생각방식
Fine 네트워크는 Coarse 의 가중치를 계승하지 않고 독립적으로 학습

NeRF의 발전 방법론

원저 NeRF 가 겪었던 과제 (속도, 동적 시나리오, 일반화, 대규모화) 를 축으로, 많은 후속 연구가 발전하고 있다.

고속화 방법론

Instant-NGP (2022, Müller et al., SIGGRAPH 2022)

원 NeRF 의 MLP 가 모든 공간 정보를 가중치로 밀어넣는 반면, Instant-NGP 는 MLP 의 역할을 최소화하고, 공간적인 특징을 해시 테이블로 외부하는 설계.

TensoRF (2022, Chen et al., ECCV 2022)

Mip-NeRF (2021, Barron et al., ICCV 2021)

동적 시나리오 대응

D-NeRF (2021, Pumarola et al., CVPR 2021)

변형장: Ψ_t(x) → Δx (각 시간에서의 좌표 오프셋)
Canonical NeRF: F(x + Δx, d) → (c, σ)

Nerfies (2021, Park et al., ICCV 2021)

조명 변화·외부 대응

NeRF in the Wild (NeRF-W, 2021, Martin-Brualla et al., CVPR 2021)

Block-NeRF (2022, Tancik et al., CVPR 2022)

일반화·소수 샷 대응

pixelNeRF (2021, Yu et al., CVPR 2021)

MVSNeRF (2021, Chen et al., ICCV 2021)

NeRF 를 넘어선 방법론

3D Gaussian Splatting (3DGS, 2023, Kerbl et al., SIGGRAPH 2023)

NeRF 系との本質的な違いは、NeRF が「どこを見ても答えを計算する暗黙関数」であるのに対し、3DGS は「明示的な 3D プリミティブ（ガウス関数）をラスタライズする」点。後者は GPU のグラフィクスパイプラインと相性が良く、リアルタイム化が容易。

発展手法の比較まとめ

| 手法 |
発表 |
解決課題 |
学習時間 |
リアルタイム |
| NeRF（原著） |
2020 |

|
1〜2 日 |
× |
| Mip-NeRF |
2021 |
エイリアシング |
1〜2 日 |
× |
| NeRF-W |
2021 |
照明変化・屋外 |
1〜2 日 |
× |
| pixelNeRF |
2021 |
汎化 |
不要（推論のみ） |
△ |
| D-NeRF |
2021 |
動的シーン |
数時間 |
× |
| Instant-NGP |
2022 |
高速化 |
数秒〜数分 |
△ |
| TensoRF |
2022 |
高速化 |
数十分 |
× |
| Block-NeRF |
2022 |
大規模シーン |
数日（分散） |
× |
3DGS |
2023 |
高速化・品質 |
30〜60 分 |
○ |

実装について

公式実装：nerf-pytorch（非公式 PyTorch ポート）、公式 TF 実装
入力は各シーンの画像 + COLMAP で推定したカメラ内外パラメータ
Positional Encoding は FourierFeature と同等の考え方
Fine ネットワークは Coarse の重みを引き継がず独立して学習

AI 자동 생성 콘텐츠

원문 바로가기

NeRF の論文解説

요약

핵심 포인트

댓글