服务高端网站建设,软文推广代理,微网站建设服务,网站设计制作哪家服务好我们新推出大淘宝技术年度特刊《长期主义#xff0c;往往从一些小事开始——工程师成长总结专题》#xff0c;专题收录多位工程师真诚的心路历程与经验思考#xff0c;覆盖终端、服务端、数据算法、技术质量等7大技术领域#xff0c;欢迎一起沟通交流。 本文为此系列第四篇… 我们新推出大淘宝技术年度特刊《长期主义往往从一些小事开始——工程师成长总结专题》专题收录多位工程师真诚的心路历程与经验思考覆盖终端、服务端、数据算法、技术质量等7大技术领域欢迎一起沟通交流。 本文为此系列第四篇内容。 第一篇负责淘宝业务前端开发9年聊聊我的心得 第二篇“技术开发最应该做什么”聊聊我在服务端开发5年的理解和收获 第三篇聊聊我在淘宝做性能分析的经历 本文作者尘漠加入大淘宝到现在也有5年了一路走来很开心他认为在这里可以让他静心做技术研究。以下是尘漠的自述—— 在淘宝前三年我主要偏向研究 2d计算机视觉算法相比于研究GAN、Transformer等热门课题我更偏向解决一些算法在工业界落地遇到的常见问题如深度学习模型训练中常遇到训练数据不足、数据有噪声等问题所以我更感兴趣噪声标签识别、主动学习等类型算法也发表了简单实用的O2U-Net[5] (ICCV 2019) 噪声识别算法另外算法推理性能提升也是工业应用常见问题比如在手机端部署CNN模型需要提升模型推理效率可能需要模型压缩、剪枝技术也是我感兴趣的方向之一。 这两年随着元宇宙的爆发内部团队项目的调整我也转而开始加入到 元宇宙数字世界构建探索中开始探索低成本高质量3D建模应用。2022年双十一淘宝Meta 团队推出的 低成本高质量3D建模工具-Object Drawer首次将学术界神经渲染3D建模算法(NeRF[1])在工业界规模化落地实现了十几种品类的低成本建模(成本下降了70%)。我的工作职责主要是Object Drawer性能优化下面聊一聊性能优化经历。 背景 电商商品3D化可以使得用户在APP中实时浏览3D商品模型更直观地了解商品的外观颜色、形状结构、物理材质等信息为用户带来更好的消费体验为虚实结合带来更多可能后续也可以用于AR\VR等内容生产。然而商品3D化存在人工设计 3D建模成本太高传统3D重建算法稳定性又很差。 2020年谷歌提出神经辐射场3D建模方法NeRF[1]可以渲染出较高质量的图片不需要人工修模3D建模成本较低为大规模3D模型生产带来了新思路。 NeRF 起初淘宝Meta 团队主要致力于 提升 NeRF重建效果(布料细节清晰度、商品文字清晰度等提升)使其渲染清晰度达到工业落地标准然而由于NeRF存在推理速度慢等较大缺陷(服务器V100 GPU显卡渲染一张高清图 需要1min)所以NeRF在淘宝落地主要在静态出图、AI内容创作做应用尝试无法扩展到3D交互相关应用。 2020年底由于项目调整主管列出团队内一些急需解决的难题供选择。其中一个便是NeRF 算法性能优化目标是 解决NeRF 3D模型到手机实时渲染的瓶颈问题使其未来可以扩展到3D AR/VR等更多应用。问题难点NeRF起初渲染速度非常慢服务器 V100 GPU显卡上渲染一张1080p图超过一分钟如果要做到手机实时渲染渲染速度预估需提升10000倍以上。 出于对模型推理效率优化方向感兴趣外加喜欢挑战有难度的任务我最终选择了解决NeRF推理性能优化。由于NeRF手机实时渲染在当时并没有论文可以参考算法推理效率需提升一万倍所以只能尽力尝试推理加速各种方案。主管没给太大的压力与干涉实验方案选择上没有任何约束一句话只要你认为有效的方案都可以尝试。这使得我在算法优化工作中更敢于去尝试有挑战的任务更敢于去突破业界前沿。 一个人研究一个方向没有内卷静心实验研究大胆尝试自认为有效的方案这便是我得追求。 由浅入深尝试 由于我以前经历主要涉及 2D 计算机视觉相关算法对于3D几何相关算法不太熟悉。所以对于算法推理速度优化起初会偏向选择自己比较熟悉的方案进行尝试比如神经网络推理加速通用的方案网络剪枝、8bit量化、蒸馏等方法。经过了半年了实验最终把神经网络常见的算法加速推理方法都尝试了一遍最终效率仅提升200 倍左右的效率离提升10000倍的目标仍遥不可及。后来又折腾了两个月目标没什么大进展慢慢意识到如果不对NeRF算法做较大改动提出具有创新性的方法效率基本不大可能有四个数量级的提升因此我开始静下心来学习3D模型表示、图形渲染等基础3D技术。 随着对3D模型表示、渲染有了进一步深入了解业界前沿也有了一些推理加速的方法可以参考(Fast-NeRF、PlenOctree[3])。在综合考虑效率、内存占用、存储空间等问题上我结合了PlenOctree[3] SNeRG[4] 优点提出了 采用 OctreeTiny-MLP数据结构并对MLP模型做了效率优化在普通Android上1080p渲染效率做到了6FPS左右。推理效率提升了三个数量级问题得到大幅度缓解但还需要继续提升5倍以上的推理速度才可以实现NeRF手机实时交互。 nerf 模型体素离散化 基于体素表示的推理加速方法也会引入新的挑战空间换时间策略会引入新的问题模型存储空间、内存占用变大比如1024*1024*1024分辨率体素结合前沿方法经过模型量化、剪枝后存储空间依旧达到300M内存占用更是直接打爆手机基本在2G以上。另外相比于学术研究NeRF 360视角渲染开源数据集来说720 电商商品展示 在模型大小、内存占用都会更大。 PlenOctree[3] SNeRG[4]目标6FPS30FPS1500M50M300M5M 走不寻常的路多个问题一起思考解决 如前所述经过了第一阶段的模型优化虽然推理效率问题大幅缓解然而也带来了新的挑战问题。存储空间、内存都很大效率也需要进一步提升三个问题都很艰巨。正常的思维是三个问题逐一解决分开思考、逐个击破然而在考虑到分开解决存在研发周期过长、同时各性能难以平衡问题研发周期过长每个问题解决可能需要花好几个月的时间探索。我最终选择探索三个问题一起解决方案相比于逐个解决虽然难度加大但可以把三个问题综合考虑、更好的平衡效果缩短研发周期。 基于体素表示的神经辐射场要提升效率、内存、存储三者性能真正的难点在于其基本只有一条路可以走减少体素点数其可供参考的资料较少需要靠自己摸索实验。 从2D图片压缩启发我发现人类视觉上看一张渲染图片是否清晰取决于一张图片的边缘区域是否清晰。于是第一阶段优化我们提出了 HrSRG[2]ECCV 2022的方法3D体模型分层表示感知损失GAN在提升纹理清晰度的同时使得模型推理效率模型达到state-of-the-art。在高端手机上可实时渲染720商品展示模型大小40M左右(相比于学术开源数据360展示更加复杂) 然而如果要真正达到业务落地要求我需要进一步做到低端手机实时渲染同时模型需要进一步压缩到5M的模型大小进而我提出了3D 体素模型高频检测算法对低频区域用更少得体素点来表示高频区域用更多的体素来表示。在结合HrSRG[2]体模型高频检测算法后可以把一个6000w个点 NeRF 3d体素模型减少到200w个点存储空间和模型大小会减少到原来的1/30效率也会有大幅度提升。相比于前沿方法PlenOctree[3]、SNeRG[4]等方法该方法可以实现大幅度压缩且清晰度更为清晰同时能够把效率、推理速度、内存三者性能都能得到大幅度提升达到了手机上5M模型同时低端手机能够实时渲染的要求 在效果上可以更好的保持纹理清晰度对于商品特征细节信息上相比于NeRF达到更高精度还原 Object Drawer细小文字还原 展望未来 即使目前目标任务基本完成达到业务上线要求我依旧喜欢更进一步精细打磨算法性能比如NeRF[1] 体素表示现在模型大小压缩到5M左右精益求精未来还是希望进一步能够压缩到1M以内NeRF[1]在低端机实时渲染效率依旧需要进一步提升到50FPS以上每向前走一步都是成长。 参考文档 1、NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 2、《 Digging into Radiance Grid for Real-Time View Synthesis with Detail Preservation》 3、《PlenOctrees for Real-time Rendering of Neural Radiance Fields》 4、《Baking Neural Radiance Fields for Real-Time View Synthesis》 5、《O2U-Net: A Simple Noisy Label Detection Approach for Deep Neural Networks 》 团队介绍 大淘宝技术Meta团队目前负责面向消费场景的3D/XR基础技术建设和创新应用探索创造以手机及XR 新设备为载体的消费购物新体验。团队在端智能、端云协同、商品三维重建、3D引擎、XR引擎等方面有着深厚的技术积累先后发布深度学习引擎MNN、端侧实时视觉算法库PixelAI、商品三维重建工具Object Drawer、端云协同系统Walle等。团队在OSDI、MLSys、CVPR、ICCV、NeurIPS、TPAMI等顶级学术会议和期刊上发表多篇论文。欢迎视觉算法、3D/XR引擎、深度学习引擎研发、终端研发等领域的优秀人才加入共同走进3D数字新时代。简历请投递至: chengfei.lcfalibaba-inc.com ¤ 拓展阅读 ¤ 3DXR技术 | 终端技术 | 音视频技术 服务端技术 | 技术质量 | 数据算法