Google的Imagen 3是AI图像创建的未来吗?
介绍
文本到图像的综合和图像文本对比学习是最近越来越受欢迎的两个最具创新性的多模式学习应用程序。这些模型凭借其创新的创造图像创建和操纵应用,彻底改变了研究社区,并引起了广泛的公共利益。
为了进一步研究,DeepMind引入了成像剂。这种文本对图像扩散模型通过将变压器语言模型(LMS)的强度与高前景扩散模型融合在一起,提供了前所未有的光真相和对文本形象综合中语言的深刻理解。
本文介绍了Google最新成像模型的训练和评估,Imagen 3。默认情况下,可以将Imagen 3配置为以1024×1024分辨率的输出图像,并可以选择2×,4×或8×UPSMPLING。与其他尖端T2I模型相比,我们概述了分析和评估。
我们发现Imagen 3是最好的模型。它擅长于摄影和遵循复杂且冗长的用户说明。
概述
- 革命性的文本对图像模型:Google的Imagen 3,一种文本对图扩散模型,在解释详细的用户提示时提供了无与伦比的光真相和精度。
- 评估和比较:Imagen 3在及时图像比对和视觉吸引力中表现出色,超过了诸如DALL·e 3之类的模型,并且在自动化和人类评估中均具有稳定的扩散。
- 数据集和安全措施:训练数据集经历严格的过滤以删除低质量或有害内容,从而确保更安全,更准确的输出。
- 建筑辉煌:使用冷冻的T5-XXL编码器和多步上采样,Imagen 3生成高达1024×1024分辨率的高度详细图像。
- 现实世界集成:Imagen 3可以通过Google Cloud的顶点AI访问,从而易于集成到生产环境中以创造图像生成。
- 高级功能和速度:随着Imagen 3的引入快速,用户可以从延迟的40%降低而不会损害图像质量中受益。
目录
- 数据集:确保培训的质量和安全性
- 成像架构
- 成像模型的评估
- 人类评估:评估者如何评判Imagen 3的产出质量?
- 总体用户偏好:Imagen 3领先创意图像生成
- 及时图像对齐:用精度捕获用户意图
- 视觉吸引力:跨平台的美学卓越
- 详细的及时图像对齐
- 数值推理:超过对象计数准确性的竞争
- 自动化评估:将模型与夹子,壁虎和VQASCORE进行比较
- 及时 - 图像对齐
- 图像质量
- 定性结果:突出显示Imagen 3对细节的关注
- 评估推断
- 通过顶点AI访问Imagen 3:无缝集成指南
- 使用顶点AI
- 使用双子座
- 常见问题
数据集:确保培训的质量和安全性
使用包括文本,图像和相关注释的大型数据集对成像模型进行训练。 DeepMind使用了几个过滤阶段来保证质量和安全要求。首先,除去被认为是危险,暴力或质量差的任何图像都将消除。接下来,DeepMind删除了AI为阻止模型拾取这些图像中经常存在的偏见或伪像的图像。 DeepMind还采用了加权类似的图像和重复数据删除程序,以减少输出过度拟合某些培训数据点的可能性。
数据集中的每个图像都有一个合成字幕和一个来自Alt文本,人类描述等的原始字幕。Gemini模型产生具有不同提示的合成字幕。为了最大程度地提高这些综合标题的语言多样性和质量,DeepMind使用了多种双子座模型和说明。 DeepMind使用各种过滤器来消除潜在的有害标题和个人身份信息。
成像架构
Imagen使用大型冷冻T5-XXL编码器将输入文本编码为嵌入。条件扩散模型将嵌入到64×64图像中的文本映射。成像人进一步利用文本条件的超分辨率扩散模型来对图像64×64→256×256和256×256→1024×1024进行示例。
成像模型的评估
DeepMind评估了Imagen 3模型,这是最佳质量配置,对Imagen 2和外部模型DALL·E 3,Midjourney V6,稳定的扩散3大,稳定的扩散XL 1.0。 DeepMind发现,Imagen 3通过人类和机器的严格评估在文本到图像生成中设定了新的最新技术。定性结果和评估推断包含定性结果以及对整体发现和局限性的讨论。与成像3的产品集成可能会导致性能与已测试的配置不同。
另请阅读:如何使用DALL-E 3 API进行图像生成?
人类评估:评估者如何评判Imagen 3的产出质量?
对文本形象生成模型进行了评估,以五个质量方面进行评估:总体偏好,及时图像对齐,视觉吸引力,详细的及时图像对齐和数值推理。对这些方面进行独立评估,以避免评估者的判断中混合。并排比较用于定量判断,而数值推理可以通过计算图像中描述的给定类型的多少个对象来直接评估数值推理。
完整的ELO记分板是通过对每对型号进行详尽的比较而生成的。每项研究包括在提示集中的提示中均匀分布的2500个评级。这些模型在评估者界面中被匿名化,并且侧面对每个评分都随机调整。数据收集是使用Google DeepMind在数据丰富方面的最佳实践进行的,以确保所有数据丰富工人至少获得当地生活工资的支付。该研究在3225个不同评估者的5943次提交中收集了366,569个评级。每个评估者最多参与了10%的研究,并提供了大约2%的评级,以避免对一组评估者的判断的有偏见。来自71个不同国籍的评估者参加了研究。
总体用户偏好:Imagen 3领先创意图像生成
用户对给定提示的生成图像的总体偏好是一个空旷的问题,评估者决定哪些质量方面最重要。将两张图像提交给评估者,如果两者都同样吸引人,“我无动于衷”。
结果表明,在Genai Bench,Drawbench和Dall·E 3评估中,Imagen 3明显更受欢迎。 Imagen 3在拉动台上的边缘比稳定的扩散3较小,并且在dall·e 3评估上的边缘略有边缘。
及时图像对齐:用精度捕获用户意图
该研究评估了输入图像内容中输入提示的表示,忽略了潜在的缺陷或审美吸引力。要求评估者选择一个更好地捕获提示意图的图像,而无视不同样式的图像。结果表明,Imagen 3优于Genai Bench,Drawbench和Dall·E 3 Eval,并具有重叠的置信区间。该研究表明,忽略图像中的潜在缺陷或不良质量可以提高及时图像对齐的准确性。
视觉吸引力:跨平台的美学卓越
视觉吸引力衡量产生的图像的吸引力,无论内容如何。评估者没有提示并排评价两个图像。 Midjourney V6的带领下,Imagen 3几乎在Genai Bench上,在Drawbench上略大,并且在DALL·E 3评估方面具有显着优势。
详细的及时图像对齐
该研究通过从DOCCI的详细提示中生成图像来评估及时图像的功能,该图像要比以前的提示集更长。研究人员发现阅读100个单词提示人类评估者太具有挑战性了。取而代之的是,他们使用真实参考照片的高质量标题将生成的图像与基准参考图像进行比较。评估者专注于图像的语义,忽略样式,捕获技术和质量。结果表明,Imagen 3的显着差距为114个ELO点,而第二好的模型的胜率为63%,突出了其出色的功能,遵循输入提示的详细内容。
数值推理:超过对象计数准确性的竞争
该研究评估了模型使用Geckonum基准任务生成确切数量的对象的能力。该任务涉及将图像中的对象数与提示中请求的预期数量进行比较。这些模型考虑了诸如颜色和空间关系之类的属性。结果表明,成像3是最强的模型,表现优于dall·e 3乘12个百分点。在生成包含2-5个对象的图像和更复杂的句子结构上的性能更好时,它也具有更高的精度。
自动化评估:将模型与夹子,壁虎和VQASCORE进行比较
近年来,诸如剪辑和VQASCORE之类的自动评估(自动评估)指标已被更广泛地用于衡量文本模型的质量。这项研究重点介绍了自动化指标,以及时图像对准和图像质量,以补充人类评估。
及时 - 图像对齐
研究人员选择了三个强大的自动效应及时图像指标:对比度双编码器(剪辑),基于VQA的对比度(gecko)和一个基于LVLM提示(VQASCORE2的实现)。结果表明,剪辑通常无法预测正确的模型排序,而壁虎和VQASCORE表现良好,大约有72%的时间达成共识。 VQASCORE具有优势,因为它与人类评分相匹配,而Gecko的73.3%则有80%的时间。壁虎使用较弱的骨干,帕利,这可能解释了性能的差异。
该研究评估了四个数据集,以调查不同条件下的模型差异:壁虎,docci检测 - 居民,dall·e 3评估和Genai-Bench。结果表明,成像3始终具有最高的对齐性能。 SDXL 1和Imagen 2的性能始终比其他模型少。
图像质量
关于图像质量,研究人员比较了使用不同的特征空间和距离指标,比较了Imagen 3,SDXL 1和DALL·E 3的生成图像的分布。他们观察到,将这三个指标最小化是一个权衡,有利于自然色和纹理的产生,但无法检测到对象形状和零件上的畸变。 Imagen 3介绍了三种型号的CMMD值较低,突出了其在最先进的特征空间指标上的强劲性能。
定性结果:突出显示Imagen 3对细节的关注
下图显示了2个图像上采样到12百万像素,农作物显示了细节水平。
评估推断
Imagen 3是及时图像对齐的顶级模型,尤其是在详细的提示和计数能力中。在视觉吸引力方面,Midjourney V6领先,Imagen 3排名第二。但是,它仍然存在某些功能的缺点,例如数值推理,规模推理,组成短语,动作,空间推理和复杂的语言。这些模型在需要数值推理,规模推理,组成短语和行动的任务上挣扎。总体而言,Imagen 3是尊重用户意图的高质量输出的最佳选择。
通过顶点AI访问Imagen 3:无缝集成指南
使用顶点AI
要开始使用顶点AI,您必须拥有现有的Google Cloud项目并启用顶点AI API。了解有关建立项目和开发环境的更多信息。
另外,这是GitHub链接 - 请参阅
导入Vertexai 来自vertexai.preview.vision_models导入imageGenerationModel #todo(开发人员):从顶点AI控制台更新您的项目ID project_id =“ project_id” vertexai.init(project = project_id,location =“ us-central1”) generation_model = imageGenerationModel.from_pretrataining(“ Imagen-3.0生成-001”) 提示=“” 一本木制厨房桌子上的食谱的影像图像,封面面向前方的封面,有一个微笑的家庭坐在类似的桌子上,柔软的高架照明照亮了场景,食谱是图像的主要重点。 ”“” image = generation_model.generate_images( 提示=提示, number_of_images = 1, expack_ratio =“ 1:1”, safety_filter_level =“ block_some”, person_generation =“ ally_all”, )
文本渲染
Imagen 3还为文本渲染图像开辟了新的可能性。创建带有不同字体和颜色字幕的海报,卡片和社交媒体帖子的图像是尝试此工具的好方法。要使用此功能,只需简要描述您想在提示中看到的内容即可。想象一下,您想更改食谱的封面并添加标题。
提示=“” 一本木制厨房桌子上的食谱的影像图像,封面面向前方的封面,有一个微笑的家庭坐在类似的桌子上,柔软的高架照明照亮了场景,食谱是图像的主要重点。 在橙色块字母的“日常食谱”中添加一个书名。 ”“” image = generation_model.generate_images( 提示=提示, number_of_images = 1, expack_ratio =“ 1:1”, safety_filter_level =“ block_some”, person_generation =“ ally_all”, )
延迟减少
除Imagen 3(迄今为止其最高质量的模型)外,DeepMind提供了Imagen 3 Fast,这是一种针对发电速度优化的模型。 Imagen 3 FAST适用于产生具有更大对比度和亮度的图像。与Imagen 2相比,您可以观察到延迟的降低40%。您可以使用相同的提示来创建两个图像来说明这两个模型。让我们为沙拉照片创建两个替代方法,我们可以在上面提到的食谱中包括。
generation_model_fast = imageGenerationModel.from_pretrate( “ Imagen-3.0-fast-generate-001” ) 提示=“” 花园沙拉的影像图像,上面有五颜六色的蔬菜,例如辣椒,黄瓜,西红柿和绿叶蔬菜,坐在白色大理石桌上的图像中心的木碗中。自然光照亮了场景,铸造柔和的阴影并突出了成分的新鲜度。 ”“” #成像3快速图像生成 fast_image = generation_model_fast.generate_images( 提示=提示, number_of_images = 1, expack_ratio =“ 1:1”, safety_filter_level =“ block_some”, person_generation =“ ally_all”, )
提示=“” 花园沙拉的影像图像,上面有五颜六色的蔬菜,例如辣椒,黄瓜,西红柿和绿叶蔬菜,坐在白色大理石桌上的图像中心的木碗中。自然光照亮了场景,铸造柔和的阴影并突出了成分的新鲜度。 ”“” #成像3图像生成 image = generation_model.generate_images( 提示=提示, number_of_images = 1, expack_ratio =“ 1:1”, safety_filter_level =“ block_some”, person_generation =“ ally_all”, )
使用双子座
Gemini支持使用新Imagen 3的支持,因此我们使用Gemini访问Imagen 3。在下图中,我们可以看到Gemini使用Imagen 3生成图像。
提示 - “在城市道路上产生狮子行走的形象。道路上有汽车,自行车和公共汽车。一定要使它现实”
结论
Google的Imagen 3设定了一个新的基准,用于文本对图像综合,在光真相中表现出色,并以极好的精度处理复杂提示。它在多个评估基准中的强劲表现突出了其在详细的及时图像对齐和视觉吸引力中的功能,超过了诸如DALL·E 3和稳定扩散之类的模型。但是,它在涉及数值和空间推理的任务中仍然面临挑战。通过添加Imagen 3的添加,以减少延迟和与顶点AI等工具的集成,Imagen 3为创造性应用开辟了令人兴奋的可能性,从而突破了多模式AI的界限。
如果您正在在线寻找生成的AI课程,请探索 -今天的Genai Pinnacle计划!
常见问题
Q1。是什么使Google的Imagen 3在文本到图像合成中脱颖而出?ANS Imagen 3在光真相和复杂的及时处理方面表现出色,与其他型号(如DALL·E 3和稳定的扩散)相比,与用户输入相比,提供了出色的图像质量和与用户输入的对齐。
Q2。 Imagen 3如何处理复杂提示?Ans。 Imagen 3旨在有效地管理详细且冗长的提示,以表明及时图像对齐和详细的内容表示方面的良好性能。
Q3。哪些数据集用于训练Imagen 3?Ans。该模型在一个具有文本,图像和注释的大型,多样化的数据集上进行了培训,以排除AI生成的内容,有害图像和质量差数据。
Q4。 Imagen 3与标准版本有何不同?Ans。 Imagen 3快速对速度进行了优化,与标准版本相比,在保持高质量的图像生成的同时,延迟降低了40%。
Q5。 Imagen 3可以集成到生产环境中吗?Ans。是的,Imagen 3可以与Google Cloud的顶点AI一起使用,从而可以无缝集成到图像生成和创意任务的应用中。
以上是Google的Imagen 3是AI图像创建的未来吗?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

介绍 想象一下,穿过美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

对于那些可能是我专栏新手的人,我广泛探讨了AI的最新进展,包括体现AI,AI推理,AI中的高科技突破,及时的工程,AI培训,AI,AI RE RE等主题
