Google的Imagen 3是AI图像创建的未来吗？-人工智能-PHP中文网

数据集：确保培训的质量和安全性
成像架构
成像模型的评估
人类评估：评估者如何评判Imagen 3的产出质量？
- 总体用户偏好：Imagen 3领先创意图像生成
- 及时图像对齐：用精度捕获用户意图
- 视觉吸引力：跨平台的美学卓越
- 详细的及时图像对齐
- 数值推理：超过对象计数准确性的竞争
自动化评估：将模型与夹子，壁虎和VQASCORE进行比较
- 及时 - 图像对齐
- 图像质量
定性结果：突出显示Imagen 3对细节的关注
评估推断
通过顶点AI访问Imagen 3：无缝集成指南
- 使用顶点AI
- 使用双子座
常见问题

数据集：确保培训的质量和安全性

使用包括文本，图像和相关注释的大型数据集对成像模型进行训练。 DeepMind使用了几个过滤阶段来保证质量和安全要求。首先，除去被认为是危险，暴力或质量差的任何图像都将消除。接下来，DeepMind删除了AI为阻止模型拾取这些图像中经常存在的偏见或伪像的图像。 DeepMind还采用了加权类似的图像和重复数据删除程序，以减少输出过度拟合某些培训数据点的可能性。

数据集中的每个图像都有一个合成字幕和一个来自Alt文本，人类描述等的原始字幕。Gemini模型产生具有不同提示的合成字幕。为了最大程度地提高这些综合标题的语言多样性和质量，DeepMind使用了多种双子座模型和说明。 DeepMind使用各种过滤器来消除潜在的有害标题和个人身份信息。

成像架构

Google的Imagen 3是AI图像创建的未来吗？

Imagen使用大型冷冻T5-XXL编码器将输入文本编码为嵌入。条件扩散模型将嵌入到64×64图像中的文本映射。成像人进一步利用文本条件的超分辨率扩散模型来对图像64×64→256×256和256×256→1024×1024进行示例。

成像模型的评估

DeepMind评估了Imagen 3模型，这是最佳质量配置，对Imagen 2和外部模型DALL·E 3，Midjourney V6，稳定的扩散3大，稳定的扩散XL 1.0。 DeepMind发现，Imagen 3通过人类和机器的严格评估在文本到图像生成中设定了新的最新技术。定性结果和评估推断包含定性结果以及对整体发现和局限性的讨论。与成像3的产品集成可能会导致性能与已测试的配置不同。

另请阅读：如何使用DALL-E 3 API进行图像生成？

人类评估：评估者如何评判Imagen 3的产出质量？

对文本形象生成模型进行了评估，以五个质量方面进行评估：总体偏好，及时图像对齐，视觉吸引力，详细的及时图像对齐和数值推理。对这些方面进行独立评估，以避免评估者的判断中混合。并排比较用于定量判断，而数值推理可以通过计算图像中描述的给定类型的多少个对象来直接评估数值推理。

完整的ELO记分板是通过对每对型号进行详尽的比较而生成的。每项研究包括在提示集中的提示中均匀分布的2500个评级。这些模型在评估者界面中被匿名化，并且侧面对每个评分都随机调整。数据收集是使用Google DeepMind在数据丰富方面的最佳实践进行的，以确保所有数据丰富工人至少获得当地生活工资的支付。该研究在3225个不同评估者的5943次提交中收集了366,569个评级。每个评估者最多参与了10％的研究，并提供了大约2％的评级，以避免对一组评估者的判断的有偏见。来自71个不同国籍的评估者参加了研究。

总体用户偏好：Imagen 3领先创意图像生成

用户对给定提示的生成图像的总体偏好是一个空旷的问题，评估者决定哪些质量方面最重要。将两张图像提交给评估者，如果两者都同样吸引人，“我无动于衷”。

Google的Imagen 3是AI图像创建的未来吗？

结果表明，在Genai Bench，Drawbench和Dall·E 3评估中，Imagen 3明显更受欢迎。 Imagen 3在拉动台上的边缘比稳定的扩散3较小，并且在dall·e 3评估上的边缘略有边缘。

及时图像对齐：用精度捕获用户意图

该研究评估了输入图像内容中输入提示的表示，忽略了潜在的缺陷或审美吸引力。要求评估者选择一个更好地捕获提示意图的图像，而无视不同样式的图像。结果表明，Imagen 3优于Genai Bench，Drawbench和Dall·E 3 Eval，并具有重叠的置信区间。该研究表明，忽略图像中的潜在缺陷或不良质量可以提高及时图像对齐的准确性。

Google的Imagen 3是AI图像创建的未来吗？

视觉吸引力：跨平台的美学卓越

视觉吸引力衡量产生的图像的吸引力，无论内容如何。评估者没有提示并排评价两个图像。 Midjourney V6的带领下，Imagen 3几乎在Genai Bench上，在Drawbench上略大，并且在DALL·E 3评估方面具有显着优势。

Google的Imagen 3是AI图像创建的未来吗？

详细的及时图像对齐

该研究通过从DOCCI的详细提示中生成图像来评估及时图像的功能，该图像要比以前的提示集更长。研究人员发现阅读100个单词提示人类评估者太具有挑战性了。取而代之的是，他们使用真实参考照片的高质量标题将生成的图像与基准参考图像进行比较。评估者专注于图像的语义，忽略样式，捕获技术和质量。结果表明，Imagen 3的显着差距为114个ELO点，而第二好的模型的胜率为63％，突出了其出色的功能，遵循输入提示的详细内容。

Google的Imagen 3是AI图像创建的未来吗？

数值推理：超过对象计数准确性的竞争

该研究评估了模型使用Geckonum基准任务生成确切数量的对象的能力。该任务涉及将图像中的对象数与提示中请求的预期数量进行比较。这些模型考虑了诸如颜色和空间关系之类的属性。结果表明，成像3是最强的模型，表现优于dall·e 3乘12个百分点。在生成包含2-5个对象的图像和更复杂的句子结构上的性能更好时，它也具有更高的精度。

Google的Imagen 3是AI图像创建的未来吗？

自动化评估：将模型与夹子，壁虎和VQASCORE进行比较

近年来，诸如剪辑和VQASCORE之类的自动评估（自动评估）指标已被更广泛地用于衡量文本模型的质量。这项研究重点介绍了自动化指标，以及时图像对准和图像质量，以补充人类评估。

及时 - 图像对齐

研究人员选择了三个强大的自动效应及时图像指标：对比度双编码器（剪辑），基于VQA的对比度（gecko）和一个基于LVLM提示（VQASCORE2的实现）。结果表明，剪辑通常无法预测正确的模型排序，而壁虎和VQASCORE表现良好，大约有72％的时间达成共识。 VQASCORE具有优势，因为它与人类评分相匹配，而Gecko的73.3％则有80％的时间。壁虎使用较弱的骨干，帕利，这可能解释了性能的差异。

该研究评估了四个数据集，以调查不同条件下的模型差异：壁虎，docci检测 - 居民，dall·e 3评估和Genai-Bench。结果表明，成像3始终具有最高的对齐性能。 SDXL 1和Imagen 2的性能始终比其他模型少。

Google的Imagen 3是AI图像创建的未来吗？

图像质量

关于图像质量，研究人员比较了使用不同的特征空间和距离指标，比较了Imagen 3，SDXL 1和DALL·E 3的生成图像的分布。他们观察到，将这三个指标最小化是一个权衡，有利于自然色和纹理的产生，但无法检测到对象形状和零件上的畸变。 Imagen 3介绍了三种型号的CMMD值较低，突出了其在最先进的特征空间指标上的强劲性能。

Google的Imagen 3是AI图像创建的未来吗？

定性结果：突出显示Imagen 3对细节的关注

下图显示了2个图像上采样到12百万像素，农作物显示了细节水平。

Google的Imagen 3是AI图像创建的未来吗？

评估推断

Imagen 3是及时图像对齐的顶级模型，尤其是在详细的提示和计数能力中。在视觉吸引力方面，Midjourney V6领先，Imagen 3排名第二。但是，它仍然存在某些功能的缺点，例如数值推理，规模推理，组成短语，动作，空间推理和复杂的语言。这些模型在需要数值推理，规模推理，组成短语和行动的任务上挣扎。总体而言，Imagen 3是尊重用户意图的高质量输出的最佳选择。

通过顶点AI访问Imagen 3：无缝集成指南

使用顶点AI

要开始使用顶点AI，您必须拥有现有的Google Cloud项目并启用顶点AI API。了解有关建立项目和开发环境的更多信息。

另外，这是GitHub链接 - 请参阅

导入Vertexai

来自vertexai.preview.vision_models导入imageGenerationModel

＃todo（开发人员）：从顶点AI控制台更新您的项目ID

project_id =“ project_id”

vertexai.init（project = project_id，location =“ us-central1”）

generation_model = imageGenerationModel.from_pretrataining（“ Imagen-3.0生成-001”）

提示=“”

一本木制厨房桌子上的食谱的影像图像，封面面向前方的封面，有一个微笑的家庭坐在类似的桌子上，柔软的高架照明照亮了场景，食谱是图像的主要重点。

”“”

image = generation_model.generate_images（

    提示=提示，

    number_of_images = 1，

    expack_ratio =“ 1：1”，

    safety_filter_level =“ block_some”，

    person_generation =“ ally_all”，

）

登录后复制

Google的Imagen 3是AI图像创建的未来吗？

文本渲染

Imagen 3还为文本渲染图像开辟了新的可能性。创建带有不同字体和颜色字幕的海报，卡片和社交媒体帖子的图像是尝试此工具的好方法。要使用此功能，只需简要描述您想在提示中看到的内容即可。想象一下，您想更改食谱的封面并添加标题。

提示=“”

一本木制厨房桌子上的食谱的影像图像，封面面向前方的封面，有一个微笑的家庭坐在类似的桌子上，柔软的高架照明照亮了场景，食谱是图像的主要重点。

在橙色块字母的“日常食谱”中添加一个书名。 

”“”

image = generation_model.generate_images（

    提示=提示，

    number_of_images = 1，

    expack_ratio =“ 1：1”，

    safety_filter_level =“ block_some”，

    person_generation =“ ally_all”，

）

登录后复制

Google的Imagen 3是AI图像创建的未来吗？

延迟减少

除Imagen 3（迄今为止其最高质量的模型）外，DeepMind提供了Imagen 3 Fast，这是一种针对发电速度优化的模型。 Imagen 3 FAST适用于产生具有更大对比度和亮度的图像。与Imagen 2相比，您可以观察到延迟的降低40％。您可以使用相同的提示来创建两个图像来说明这两个模型。让我们为沙拉照片创建两个替代方法，我们可以在上面提到的食谱中包括。

 generation_model_fast = imageGenerationModel.from_pretrate（

    “ Imagen-3.0-fast-generate-001”

）

提示=“”

花园沙拉的影像图像，上面有五颜六色的蔬菜，例如辣椒，黄瓜，西红柿和绿叶蔬菜，坐在白色大理石桌上的图像中心的木碗中。自然光照亮了场景，铸造柔和的阴影并突出了成分的新鲜度。 

”“” 

＃成像3快速图像生成

fast_image = generation_model_fast.generate_images（

    提示=提示，

    number_of_images = 1，

    expack_ratio =“ 1：1”，

    safety_filter_level =“ block_some”，

    person_generation =“ ally_all”，

）

登录后复制

Google的Imagen 3是AI图像创建的未来吗？

提示=“”

花园沙拉的影像图像，上面有五颜六色的蔬菜，例如辣椒，黄瓜，西红柿和绿叶蔬菜，坐在白色大理石桌上的图像中心的木碗中。自然光照亮了场景，铸造柔和的阴影并突出了成分的新鲜度。 

”“” 

＃成像3图像生成

image = generation_model.generate_images（

    提示=提示，

    number_of_images = 1，

    expack_ratio =“ 1：1”，

    safety_filter_level =“ block_some”，

    person_generation =“ ally_all”，

）

登录后复制

Google的Imagen 3是AI图像创建的未来吗？

使用双子座

Gemini支持使用新Imagen 3的支持，因此我们使用Gemini访问Imagen 3。在下图中，我们可以看到Gemini使用Imagen 3生成图像。

提示 - “在城市道路上产生狮子行走的形象。道路上有汽车，自行车和公共汽车。一定要使它现实”

Google的Imagen 3是AI图像创建的未来吗？

结论

Google的Imagen 3设定了一个新的基准，用于文本对图像综合，在光真相中表现出色，并以极好的精度处理复杂提示。它在多个评估基准中的强劲表现突出了其在详细的及时图像对齐和视觉吸引力中的功能，超过了诸如DALL·E 3和稳定扩散之类的模型。但是，它在涉及数值和空间推理的任务中仍然面临挑战。通过添加Imagen 3的添加，以减少延迟和与顶点AI等工具的集成，Imagen 3为创造性应用开辟了令人兴奋的可能性，从而突破了多模式AI的界限。

如果您正在在线寻找生成的AI课程，请探索 -今天的Genai Pinnacle计划！