返回 导航

其他

hangge.com

三维建模技术发展盘点与回顾(从几何时代到大模型与3D生成时代)

作者:hangge | 2026-01-27 09:14
    三维建模领域在过去三十多年里经历了从经典多视几何方法到以深度学习与神经隐式表示为核心的快速演进;近几年又被两股力量驱动:一是实时化/显式化(使神经场可交互、可编辑、实时渲染),二是以大模型与扩散/生成方法推动的文本/图像到三维的直接生成。本文将以时间线+主题的方式回顾这些发展。

1,几何时代(主流期约 1990–2015)

(1)核心思想:基于多视几何,从多张图像恢复相机位姿与三维结构(稀疏点、稠密深度、网格)。
(2)里程碑技术
  • SfMStructure from Motion):代表作如 COLMAP。通过提取特征点(如 SIFT)并进行匹配,恢复相机的路径和稀疏的三维点云。
  • MVSMulti-View Stereo):在已知相机位姿的前提下,进行稠密像素匹配,生成高精度的深度图和网格(Mesh)。
(3)主要优点:几何原理清晰、精度在有足够视角与纹理时很好、算法成熟。
(4)主要限制:对光照变化、无纹理区域(如白墙)和透明/反光物体处理效果极差,且计算复杂度随分辨率呈指数级增长。

2,深度学习时代(约 2015–2020)

(1)核心思想:使用监督/自监督神经网络端到端学习从图片到三维表征(体素、点云、网格)的映射,改善鲁棒性并引入语义理解能力。
(2)里程碑技术
  • PointNet2017):首次实现了直接在无序点云上进行特征学习,解决了三维数据的置换不变性问题。
  • 3D-R2N2:利用循环神经网络从单张或多张图像预测物体的体素模型。
  • AtlasNet:探索了如何通过神经网络将二维平面“折叠”成复杂的三维网格。
(3)主要优点:引入数据驱动的形状与语义先验,使三维重建不再完全依赖严格的几何约束,从而在弱纹理、视角不足等复杂条件下具备更强的鲁棒性与补全能力。
(4)主要限制:受限于显存,体素分辨率通常较低(如 32^3 64^3),难以精细刻画复杂物体的表面细节。

3,神经隐式表示 / 神经场兴起(约 2019–2021 起)

(1)核心思想:放弃离散网格/体素,用连续神经函数(隐式场、SDFRadiance Field)表示形状与外观,从而获得高保真几何与任意视角的可渲染模型。
(2)里程碑技术
  • DeepSDF:用神经网络学习连续 Signed Distance Function,成为隐式几何(SDF)建模的重要基石。
  • NeRF:用 MLP 表示空间中体积密度与颜色,通过体渲染(volume rendering)实现高质量视图合成,掀起神经场(Neural Radiance Fields)热潮。
  • NeuS:结合 NeRF 与隐式表面渲染,实现高精度几何表面恢复。
(3)主要优点:能表达连续高频细节、在视图合成质量上远超传统方法。
(4)主要限制:训练和渲染速度极慢。渲染一张高清图片往往需要数秒甚至数分钟,限制了其实际应用。

4,实时神经渲染 / 显式化浪潮(约 2022–2024)

(1)核心思想:为解决隐式神经场的效率与交互问题,提出高效编码(加速训练/推理)与显式化表示(例如高斯点云 / splatting),实现近实时训练与渲染,且更易编辑与整合传统图形流水线。
(2)里程碑技术
  • Instant-NGP:英伟达提出的哈希编码技术,将 NeRF 的训练从数小时缩短至数秒,实现了实时渲染。
  • 3D Gaussian Splatting:抛弃了体采样,改用数百万个各向异性的三维高斯椭球来表示场景。它结合了点云的显式性和微分渲染的高效性,实现了在 4K 分辨率下的极速渲染。
  • Dynamic Gaussian Splatting:将高斯点拓展到动态场景,支持时间变化建模。
(3)主要优点:通过显式化表示与混合编码(如 3D 高斯或哈希索引)彻底攻克了渲染速度瓶颈,实现了照片级高保真画质与极速实时交互的完美融合,打开了交互式编辑、场景级重建与工程化应用的可能。
(4)主要限制:如何兼顾表示的紧凑性、编辑友好性与物理一致性(如光照/反射)仍需进一步研究。

5,大模型与 3D 生成时代(约 2022 起,2024–2025 显著发展)

(1)核心思想:借助大规模预训练模型与强大的 2D 生成先验(尤其是扩散模型),实现从文本/图像到 3D 的端到端生成或快速重建,实现从“每个物体慢速优化”向“模型即服务/快速生成”转变。从此 3D 建模正迎来自己的“ChatGPT 时刻”。
(2)里程碑技术
  • LRM / LGM:在大规模三维数据集上预训练,能够在 0.5 秒内从单张图片生成高质量的 3D 模型。
  • DreamFusion / Magic3D:通过 Score Distillation Sampling (SDS) 技术,将 2D 扩散模型的先验知识“蒸馏”到 3D 模型中。
  • 原生 3D 大模型:如 Trellis 或最新的 VGGT,统一了感知、重建与生成任务,支持文本到多模态(网格、高斯点、体素)的直接转换。
(3)主要优点:借助大规模预训练与多模态先验,实现从文本或图像到三维结构的快速、端到端生成,大幅提升了三维内容创作的效率与泛化能力。
(4)主要限制:生成的几何一致性、拓扑正确性、物理光照一致性与可控性(可编辑性、可定向设计)仍是活跃研究点;此外如何在工业级场景中进行可扩展部署(速度/成本)也是关键。
评论

全部评论(0)

回到顶部