目录
可扩展到200亿参数:更逼真,更“聪明”
所有组件都是Transformer
谷歌“自己卷自己”
One More Thing
首页 科技周边 人工智能 谷歌新AI火了!世界最长单词都能画

谷歌新AI火了!世界最长单词都能画

Apr 09, 2023 pm 09:51 PM
谷歌 ai parti

朋友,你知道这个英文单词是什么吗?

Pneumonoultramicroscopicsilicovolcanoconiosis.

这个世界公认最长——由45个字母组成的单词,意思是“因肺部沉积火山矽质微粒所引起的疾病”(俗称火山矽肺病)。

但如果说,现在不是让你拼读这个单词,而是……把它给画出来呢?

(读都读不出来,还画画???)

谷歌最新提出来的一个AI——Parti,它就能轻松hold住这事。

在把这个单词“投喂”给Parti后,它就能有模有样地生成多张合情合理的肺部疾病谷歌新AI火了!世界最长单词都能画:

谷歌新AI火了!世界最长单词都能画

但这只是Parti小试牛刀的能力,据谷歌介绍,它是目前最先进的“文本转图像”AI。

例如,跟它说句:“把悉尼歌剧院和巴黎铁塔做个结合”,输出结果是这样的:

谷歌新AI火了!世界最长单词都能画

(不知道的还真以为是画报呢)

而且在算法路数上,还不同于谷歌自家的Imagen,Parti可以说是把“AI作画”卷出了新高度。

谷歌新AI火了!世界最长单词都能画

就连谷歌AI负责人Jeff Dean也连发数条推文,玩得不亦乐乎:

谷歌新AI火了!世界最长单词都能画

可扩展到200亿参数:更逼真,更“聪明”

事实上,Parti的能力还不止于此。

得益于模型可扩展到200亿参数,一方面,它生成的图像更加细节逼真。

不管是短短几个字,还是五十多个个单词的小段落,都能清晰展现出来。

比如,The back of a violin,小提琴的背面。

谷歌新AI火了!世界最长单词都能画

亦或是照着梵高《星空》来描述的夜晚画面。ps,这段有67个单词。

谷歌新AI火了!世界最长单词都能画

结果Parti也不在话下,一揽子把各种风格的图全给你画出来了~

谷歌新AI火了!世界最长单词都能画

这也正是Parti的第二大能力,不光细节到位,风格也能做到多变。

还有像“浣熊穿正装,头戴礼帽,拄着拐杖,拿着个垃圾袋”这种奇特的描述,它也能在整出花活的同时还不落细节。

风格上,则有梵高风、埃及法老风、像素风、中国传统绘画风、抽象主义风……

谷歌新AI火了!世界最长单词都能画

甚至有时候它还会讲双关笑话。

谷歌新AI火了!世界最长单词都能画

(Toad’ay,癞蛤蟆)

具体在测试结果上,MS-COCO、Localized Narrative(LN,4倍长的描述)上FID分数,Parti都取得了最先进的结果。

谷歌新AI火了!世界最长单词都能画

尤其在MS-COCO零样本的FID得分仅为7.23,微调FID得分为3.22,超过了此前的Imagen和DALL-E 2。

所有组件都是Transformer

时隔一个月,谷歌再把AI作画卷出新高度,结果作者却说:秘诀很简单。

谷歌新AI火了!世界最长单词都能画

Parti主要是将文本生成图像视作序列到序列之间建模。这有点类似于机器翻译,将文本标记作为编码器的输入,目标输出从文本变成了图像。

从结构上看,它的所有组件只有三部分:编码器、解码器以及图像标记器,且都是基于标准Transformer。

谷歌新AI火了!世界最长单词都能画

首先,使用基于Transformer的图像标记器ViT-VQGAN,将图像编码为离散的标记序列。

然后再通过Transformer的编码-解码结构,将参数扩展到200亿。

以往关于文本生成图像的研究,除了最早出现的GAN,大体可以分成两种思路。

一种是基于自回归模型,首先文本特征映射到图像特征,再使用类似于Transformer的序列架构,来学习语言输入和图像输出之间的关系。

这种方法的一个关键组成部分就是图像标记器,将每个图像转换为一个离散单元的序列。比如DALL-E和CogView,就采用了这一思路。

另一种则是这段时间以来进展频频的路线——基于扩散的文本到图像模型,比如DALL-E 2和Imagen。

他们摒弃了图像标记器,而是采用扩散模型来直接生成图像。可以看到的是,这些模型产生的图像质量更高,在MS-COCO零样本FID得分更好。

谷歌新AI火了!世界最长单词都能画

而Parti模型的成功,则证明了自回归模型可以用来改善文本生成图像的效果。

与此同时,Parti还引入并发布了新的基准测试——PartiPrompts,用于衡量模型在12个类别和11个挑战方面的能力。

谷歌新AI火了!世界最长单词都能画

但Parti还是有一定的局限性,研究人员也展示了一些bug:

比如,对否定的描述就没招了~

一个没有香蕉的盘子,旁边一个没有橙汁儿的玻璃杯。

谷歌新AI火了!世界最长单词都能画

还会犯一些常识性错误,例如不合理地缩放。比如这张图,机器人竟然比赛车高出好几倍。

谷歌新AI火了!世界最长单词都能画

一个穿着赛车服和黑色遮阳板的闪亮机器人自豪地站在一辆F1赛车前。太阳落在城市景观上。漫画书插图。

谷歌“自己卷自己”

在这项研究来自Google Research,团队中的华人居多。

谷歌新AI火了!世界最长单词都能画

研究核心工作人员包括Yuanzhong Xu、Thang Luong等,目前均就职于谷歌从事AI相关研究工作。

(Thang Luong在谷歌学术上的引用量高达20000 )

谷歌新AI火了!世界最长单词都能画

△左:Yuanzhong Xu;右:Thang Luong

不过有意思的是,同为“说句话让AI作画”,同为出自谷歌之手的Imagen,它跟Parti还真有点千丝万缕的关系。

在Parti的GitHub的项目文档中就有提到:

感谢Imagen团队,他们在发布Imagen之前与我们分享了其最近完整的结果。

他们在CF-guidance方面的重要发现,对最终的Parti模型特别有帮助。

谷歌新AI火了!世界最长单词都能画

而且Imagen的作者之一Burcu Karagol Ayan,也参与到了Parti的项目中。

(有种谷歌“自己卷自己”那味了)

不仅如此,就连“隔壁”DALL-E 2的作者Aditya Ramesh,也给Parti在MS-COCO评价方面做了讨论工作。

以及DALL-Eval的作者们,也在Parti数据方面的工作提供了帮助。

One More Thing

有一说一,就“文本生成图像”这事,可不只是研究人员们的宠儿。

网友们在“玩”它这条路上,也是乐此不疲(脑洞不要太大好吧)。

前一阵子让Imagen画一幅宋朝“虎戴VR”,直接演变成AI作画大战。

谷歌新AI火了!世界最长单词都能画

△图:Imagen作画

DALL·E、MidJourney等“闻讯赶来”参与其中。

谷歌新AI火了!世界最长单词都能画

△ DALL·E作画

甚至还有把Wordle和 DALL-E 2搞到一起的:

谷歌新AI火了!世界最长单词都能画

……

不过回归到这次的Parti,好玩归好玩,但还是有网友提出了“直击灵魂”的问题:

谷歌新AI火了!世界最长单词都能画

啥时候商业化?要是自己“关门玩”就没意思了。

Parti论文地址:

https://parti.research.google/

GitHub项目地址:

https://github.com/google-research/parti

参考链接:

[1]https://twitter.com/lmthang/status/1539664610596225024[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289[3]https://imagen.research.google/​

以上是谷歌新AI火了!世界最长单词都能画的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1670
14
CakePHP 教程
1428
52
Laravel 教程
1329
25
PHP教程
1276
29
C# 教程
1256
24
量化交易所排行榜2025 数字货币量化交易APP前十名推荐 量化交易所排行榜2025 数字货币量化交易APP前十名推荐 Apr 30, 2025 pm 07:24 PM

交易所内置量化工具包括:1. Binance(币安):提供Binance Futures量化模块,低手续费,支持AI辅助交易。2. OKX(欧易):支持多账户管理和智能订单路由,提供机构级风控。独立量化策略平台有:3. 3Commas:拖拽式策略生成器,适用于多平台对冲套利。4. Quadency:专业级算法策略库,支持自定义风险阈值。5. Pionex:内置16 预设策略,低交易手续费。垂直领域工具包括:6. Cryptohopper:云端量化平台,支持150 技术指标。7. Bitsgap:

轻松协议(Easeprotocol.com)将ISO 20022消息标准直接实现为区块链智能合约 轻松协议(Easeprotocol.com)将ISO 20022消息标准直接实现为区块链智能合约 Apr 30, 2025 pm 05:06 PM

这种开创性的开发将使金融机构能够利用全球认可的ISO20022标准来自动化不同区块链生态系统的银行业务流程。Ease协议是一个企业级区块链平台,旨在通过易用的方式促进广泛采用,今日宣布已成功集成ISO20022消息传递标准,直接将其纳入区块链智能合约。这一开发将使金融机构能够使用全球认可的ISO20022标准,轻松自动化不同区块链生态系统的银行业务流程,该标准正在取代Swift消息传递系统。这些功能将很快在“EaseTestnet”上进行试用。EaseProtocolArchitectDou

数字货币app有前途吗 苹果手机数字货币交易平台app下载TOP10 数字货币app有前途吗 苹果手机数字货币交易平台app下载TOP10 Apr 30, 2025 pm 07:00 PM

数字货币App的前景广阔,具体体现在:1. 技术创新驱动功能升级,通过DeFi与NFT融合及AI与大数据应用提升用户体验;2. 监管合规化趋势,全球框架完善及AML、KYC要求趋严;3. 功能多元化与服务拓展,整合借贷、理财等服务并优化用户体验;4. 用户基数与全球化扩张,预计2025年用户规模突破10亿。

币圈中的三巨头是哪些?虚拟币主流交易所APP前十名推荐 币圈中的三巨头是哪些?虚拟币主流交易所APP前十名推荐 Apr 30, 2025 pm 06:27 PM

在币圈中,所谓的三巨头通常指的是三种最具影响力和广泛使用的加密货币。这些加密货币在市场上占据了重要的地位,并在交易量和市值方面都表现出色。同时,虚拟币主流交易所APP也是投资者和交易者进行加密货币交易的重要工具。本文将详细介绍币圈中的三巨头以及推荐前十名的虚拟币主流交易所APP。

已倒闭的加密交易所FTX在最新尝试中对特定发行人采取法律诉讼 已倒闭的加密交易所FTX在最新尝试中对特定发行人采取法律诉讼 Apr 30, 2025 pm 05:24 PM

在其最新尝试中,已解决的加密交易所FTX采取了法律行动,以收回债务并偿还客户。在收回债务和偿还客户的最新努力中,已解决的加密交易所FTX已对特定发行人提起法律诉讼。FTX交易和FTX恢复信托基金已针对未能履行其协议的某些代币发行人提起诉讼,以将约定的硬币汇出到交易所。具体来说,重组团队在周一就合规性问题起诉了NFTStarsLimited和OrosemiInc.。FTX正在起诉令牌发行人,以收回到期硬币。FTX曾经是美国最杰出的加密货币交易平台之一。该银行在2022年11月因报道称其创始人山姆·

AI和作曲家:增强代码质量和开发 AI和作曲家:增强代码质量和开发 May 09, 2025 am 12:20 AM

AI在Composer中主要通过依赖推荐、依赖冲突解决和代码质量提升来提高开发效率和代码质量。1.AI可以根据项目需求推荐合适的依赖包。2.AI提供智能解决方案来处理依赖冲突。3.AI审查代码并提供优化建议,提升代码质量。通过这些功能,开发者可以更专注于业务逻辑的实现。

全球十大支持多链交易的加密货币平台2025年权威发布 全球十大支持多链交易的加密货币平台2025年权威发布 May 08, 2025 pm 07:15 PM

根据 2025 年权威机构的最新评估和行业趋势,以下是全球十大支持多链交易的加密货币平台,结合交易量、技术创新、合规性及用户口碑综合分析:

2025年十大数字虚拟币交易APP排行 十大数字币交易所app汇总 2025年十大数字虚拟币交易APP排行 十大数字币交易所app汇总 May 08, 2025 pm 05:24 PM

2025年十大数字虚拟币交易APP排行:1. Binance:全球领先,提供高效交易和多种金融产品。2. OKX:创新多样,支持多种交易类型。3. Huobi:稳定可靠,服务优质。4. Coinbase:新手友好,界面简洁。5. Kraken:专业交易者首选,工具强大。6. Bitfinex:高效交易,交易对丰富。7. Bittrex:安全合规,监管合作。

See all articles