MVDiffusion:实现高质量多视角图像生成与精确复刻场景材质
逼真的图像生成在虚拟现实、增强现实、视频游戏和电影制作等领域有广泛应用。
随着近两年来扩散模型的快速发展,图像生成领域取得了重大突破。从Stable Diffusion衍生出的一系列根据文本描述生成图像的开源或商业模型,已经对设计、游戏等领域产生了巨大的影响
然而,如何根据给定的文本或其他条件,产生高质量的多视角图像仍然是一个挑战。已有的方法在多视图一致性方面存在明显的缺陷
目前常见的方法可以大致分为两类
第一类方法致力于生成一个场景的图片以及深度图,并得到对应的mesh,如Text2Room,SceneScape——首先用Stable Diffusion生成第一张图片,然后使用图像扭转(Image Warping)和图像补全(image inpainting)的自回归方式生成后续的图片以及深度图。
但是,这样的方案容易导致错误在多张图片的生成过程中逐渐累积,并且通常存在闭环问题(比如在相机旋转一圈回到起始位置附近时,生成的内容与第一张图片并不完全一致),导致其在场景规模较大或图片间视角变化较大时的效果欠佳。
第二类方法通过扩展扩散模型的生成算法,同时生成多张图片,以产生比单张图片更丰富的内容(例如生成360度全景图,或将一张图片的内容向两侧无限外推),例如MultiDiffusion和DiffCollage。然而,由于没有考虑相机模型,这类方法生成的结果并不是真正的全景图
MVDiffusion的目标是生成符合给定相机模型的多视角图片,这些图片在内容上严格一致且具有全局语义统一。该方法的核心思想是同时去噪和学习图片之间的对应关系以保持一致性
请点击以下链接查看论文:https://arxiv.org/abs/2307.01097
请访问项目网站:https://mvdiffusion.github.io/
Demo: https://huggingface.co/spaces/tangshitao/MVDiffusion
代码:https://github.com/Tangshitao/MVDiffusion
会议发表:NeurIPS(重点)
MVDiffusion的目标是通过同步去噪和基于图片之间对应关系的全局意识,产生内容高度一致且全局语义统一的多视角图片
具体地,研究人员对已有的文本-图片扩散模型(如Stable Diffusion)进行拓展,首先让其并行地处理多张图片,并进一步在原本的UNet中加入额外的「Correspondence-aware Attention」机制来学习多视角间的一致性和全局的统一性。
通过在少量的多视角图片训练数据上进行微调,最后得到的模型能够同步生成内容高度一致的多视角图片。
MVDiffusion在三个不同的应用场景中已经取得了很好的效果:
根据文字生成多视图,然后拼接以获得全景图
2. 将透视图像外推(outpainting)得到完整的360度全景图;
3. 为场景生成材质(texture)。
应用场景展示
应用1:全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用(根据文字)
以生成全景图为例,输入一段描述场景的文字,MVDIffusion可以生成一个场景的多视角图片
输入以下内容可以获得8张多视角图片:“这个厨房是乡村与现代的迷人融合,拥有一个大型的回收木岛台带有大理石台面,一个被橱柜环绕的水槽。岛台的左边是一台高大的不锈钢冰箱。水槽的右边是涂有柔和色彩的内置木制橱柜。”
这8张图片能够拼接成一张全景图:
MVDiffusion也支持为每张图片提供不同的文字描述,但是这些描述之间需要保持语义上的一致性。
应用2:全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用(根据一张透视图像)
MVDiffusion能够将一张透视图像外推(outpainting)成完整的360度全景图。
举个例子,假设我们输入下面这张透视图:
MVDiffusion能进一步生成下面的全景图:
可以看到,生成的全景图在语义上对输入图片进行了扩展,而且最左和最右的内容是相连的(没有闭环问题)。
应用3:生成场景材质
使用MVDiffusion可以为给定的无材质场景网格生成材质(纹理)
具体地,我们首先通过渲染mesh得到多视角的深度图(depth map),通过相机位姿(pose)以及深度图,我们可以获得多视角图片的像素之间的对应关系。
接着,MVDiffusion以多视角depth map作为条件,同步生成一致的多视角RGB图片。
因为生成的多视角图片能保持内容的高度一致,将它们再投回mesh,即可以得到高质量的带材质的mesh(textured mesh)。
以下是更多的效果示例:
全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用
在这个应用场景中,需要特别提到的是,虽然在训练MVDiffusion时使用的多视角图片数据都来自于室内场景的全景图,而且风格都是单一的
然而,MVDiffusion并没有改变原始的稳定扩散参数,而只是对新加入的Correspondence-aware Attention进行了训练
最后,模型依然能根据给定的文本产生各种不同风格的多视角图片(如室外,卡通等)。
需要进行改写的内容是:单视图外推
场景材质生成
我们将首先介绍MVDiffusion在三个不同任务中的具体图片生成流程,最后再介绍方法的核心部分,即「Correspondence-aware Attention」模块。图1展示了MVDiffusion的概览
1. 全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用(根据文字)
MVDiffusion同步生成8张带有重叠的图片(perspective image),然后再将这8中图片缝合(stitch)成全景图。在这8张透视图中,每两张图之间由一个3x3单应矩阵(homographic matrix)确定其像素对应关系。
在具体的生成过程中,MVDiffusion首先使用高斯随机初始化来生成8个视角的图片
然后,将这8张图片输入到一个具有多分支的Stable Diffusion预训练Unet网络中,进行同步去噪(denoising)得到生成结果。
其中UNet网络中加入了新的「Correspondence-aware Attention」模块(上图中淡蓝色部分),用于学习跨视角之间的几何一致性,使得这8张图片可以被拼接成一张一致的全景图。
2. 全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用(根据一张透视图片)
MVDiffusion也可以将单张透视图补全成全景图。与全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用相同,MVDiffusion将随机初始化的8个视角图片(包括透视图对应的视角)输入到多分支的Stable Diffusion Inpainting预训练的UNet网络中。
在Stable Diffusion Inpainting模型中,与之不同的是,UNet通过使用额外的输入掩码(mask)来区分作为条件的图片和将要生成的图片
透视图对应的视角,掩码设为1,该分支的UNet将直接恢复透视图。而其他视角,掩码设为0,对应分支的UNet将生成新的透视图
同样地,MVDiffusion使用「Correspondence-aware Attention」模块来学习生成图片与条件图片之间的几何一致性与语义统一性。
3. 场景材质生成
MVDiffusion首先基于深度图以及相机位姿生成一条轨迹上的RGB图片,然后使用TSDF fusion将生成的RGB图片与给定的深度图合成mesh。
RGB图片的像素对应关系可以通过深度图和相机位姿得到。
与全景图生成的过程是将多张照片或视频拼接在一起,以创建一个全景视角的图像或视频。这个过程通常涉及到使用特殊的软件或工具来自动或手动地将这些图像或视频进行对齐、融合和修复。通过全景图生成,人们可以以更广阔的视野来欣赏和体验场景,例如风景、建筑物或室内空间。这项技术在旅游、房地产、虚拟现实等领域具有广泛的应用一样,我们使用多分支UNet,并插入「Correspondence-aware Attention」来学习跨视角之间的几何一致性。
4. Correspondence-aware Attention机制
「Correspondence-aware Attention」(CAA),是MVDiffusion的核心,用于学习多视图之间的几何一致性和语义统一性。
MVDiffusion在Stable Diffusion UNet中的每个UNet block之后插入「Correspondence-aware Attention」block。CAA通过考虑源特征图和N个目标特征图来工作。
对于源特征图中的一个位置,我们基于目标特征图中的对应像素及其邻域来计算注意力输出。
具体来说,对于每个目标像素t^l,MVDiffusion会通过在(x/y)坐标上添加整数位移(dx/dy)来考虑一个K x K的邻域,其中|dx|表示在x方向上的位移大小,|dy|表示在y方向上的位移大小
在实际应用中,MVDiffusion算法使用K=3,并选择9点邻域来提高全景图的质量。然而,在生成受几何条件限制的多视图图像时,为了提高运行效率,选择使用K=1
CAA模块的计算遵循标准的注意力机制,如上图的公式所示,其中W_Q、W_K和W_V是query、key和value矩阵的可学习权重;目标特征不位于整数位置,而是通过双线性插值获得的。
关键的区别是基于源图像中的对应位置s^l与s之间的2D位移(全景)或1D深度误差(几何)向目标特征添加了位置编码。
在全景生成中(应用1和应用2),这个位移提供了本地邻域中的相对位置。
而在深度到图像生成中(应用3),视差提供了关于深度不连续或遮挡的线索,这对于高保真图像生成非常重要。
请注意,位移是一个包含2D(位移)或1D(深度误差)向量的概念。MVDiffusion将标准频率编码应用于位移的x和y坐标
以上是MVDiffusion:实现高质量多视角图像生成与精确复刻场景材质的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,删除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段时,需指定位置以优化查询性能和数据结构;删除字段前需确认操作不可逆;使用在线DDL、备份数据、测试环境和低负载时间段修改表结构是性能优化和最佳实践。

数字虚拟币交易平台top10分别是:1. Binance,2. OKX,3. Coinbase,4. Kraken,5. Huobi Global,6. Bitfinex,7. KuCoin,8. Gemini,9. Bitstamp,10. Bittrex,这些平台均提供高安全性和多种交易选项,适用于不同用户需求。

MySQL函数可用于数据处理和计算。1.基本用法包括字符串处理、日期计算和数学运算。2.高级用法涉及结合多个函数实现复杂操作。3.性能优化需避免在WHERE子句中使用函数,并使用GROUPBY和临时表。

交易所内置量化工具包括:1. Binance(币安):提供Binance Futures量化模块,低手续费,支持AI辅助交易。2. OKX(欧易):支持多账户管理和智能订单路由,提供机构级风控。独立量化策略平台有:3. 3Commas:拖拽式策略生成器,适用于多平台对冲套利。4. Quadency:专业级算法策略库,支持自定义风险阈值。5. Pionex:内置16 预设策略,低交易手续费。垂直领域工具包括:6. Cryptohopper:云端量化平台,支持150 技术指标。7. Bitsgap:

如何实现鼠标滚动事件穿透效果?在我们浏览网页时,经常会遇到一些特别的交互设计。比如在deepseek官网上,�...

MySQL批量插入数据的高效方法包括:1.使用INSERTINTO...VALUES语法,2.利用LOADDATAINFILE命令,3.使用事务处理,4.调整批量大小,5.禁用索引,6.使用INSERTIGNORE或INSERT...ONDUPLICATEKEYUPDATE,这些方法能显着提升数据库操作效率。

这种开创性的开发将使金融机构能够利用全球认可的ISO20022标准来自动化不同区块链生态系统的银行业务流程。Ease协议是一个企业级区块链平台,旨在通过易用的方式促进广泛采用,今日宣布已成功集成ISO20022消息传递标准,直接将其纳入区块链智能合约。这一开发将使金融机构能够使用全球认可的ISO20022标准,轻松自动化不同区块链生态系统的银行业务流程,该标准正在取代Swift消息传递系统。这些功能将很快在“EaseTestnet”上进行试用。EaseProtocolArchitectDou

使用EXPLAIN命令可以分析MySQL查询的执行计划。1.EXPLAIN命令显示查询的执行计划,帮助找出性能瓶颈。2.执行计划包括id、select_type、table、type、possible_keys、key、key_len、ref、rows和Extra等字段。3.根据执行计划,可以通过添加索引、避免全表扫描、优化JOIN操作和使用覆盖索引来优化查询。
