苹果开源SHARP模型:一秒内将2D照片转为3D场景
12月18日,据报道,苹果公司开源了一项名为SHARP的新型人工智能模型。该技术能够在一秒内将单张普通2D照片转换为具有真实物理比例的三维场景,其合成速度相比传统方案提升了三个数量级,有望为移动端3D内容创作与空间计算应用带来突破。
传统3D重建通常需要从多个角度拍摄数十甚至上百张照片,并通过复杂计算才能完成建模。而SHARP基于先进的3D高斯泼溅技术,通过使用海量合成与真实世界数据进行训练,使模型能够从单张照片中直接预测数百万个3D高斯球的位置与外观,从而实现近乎实时的场景重建。
在成像质量方面,SHARP在多项基准测试中表现优异。据苹果论文数据,该模型将LPIPS(感知图像块相似度)指标降低了25%至34%,DISTS(纹理相似度)指标降低了21%至43%,这意味着其生成的3D视图在细节纹理与整体结构上更接近真实世界,并支持基于真实尺度的相机移动模拟。
不过,SHARP目前仍存在一定的视角限制。为了兼顾生成速度与真实性,模型主要重建拍摄视角附近的3D内容,不会对完全被遮挡或未拍摄到的区域进行过度推断。因此用户浏览生成场景时,视角移动范围需保持在原始拍摄位置附近。
苹果已将SHARP的完整代码及相关资源发布于GitHub平台,供全球开发者下载测试。这一开源举措预计将加速3D重建技术在移动设备、增强现实、虚拟现实等领域的应用落地,为内容创作者与研究者提供更高效的3D内容生成工具。