做网站在哪里买空间域名seo是什么单位
上一篇的链接:多模态MLLM都是怎么实现的(2) (qq.com)
上上篇的链接:多模态MLLM都是怎么实现的(1) (qq.com)
在第一篇我们简单介绍了一下多模态训练的原理,包括clip,第二篇正好Sora横空出世,也让我就Dit做了一下抛砖引玉,顺便讲了VAE和ViT的部分,上节课我说过, DiT它就不是一个模型,它包含了VAEencoder+ViT + DDPM + VAE decoder, 其实最核心的部分就是DDPM,也就是Denoising Diffusion Probabilistic Models。
就DDPM本身而言各个解决方案都有自己的DDPM方法,它严格说也没那么绝对统一,但是大体思路都是靠diffusion算法来搞的,为了让大家更好理解,我从Diffusion算法开始讲起。
论文链接:2006.11239.pdf (arxiv.org)
这个论文真的好久了ÿ