目錄
介紹
概述
目錄
數據集:確保培訓的質量和安全性
成像架構
成像模型的評估
人類評估:評估者如何評判Imagen 3的產出質量?
總體用戶偏好:Imagen 3領先創意圖像生成
及時圖像對齊:用精度捕獲用戶意圖
視覺吸引力:跨平台的美學卓越
詳細的及時圖像對齊
數值推理:超過對象計數準確性的競爭
自動化評估:將模型與夾子,壁虎和VQASCORE進行比較
及時 - 圖像對齊
圖像質量
定性結果:突出顯示Imagen 3對細節的關注
評估推斷
通過頂點AI訪問Imagen 3:無縫集成指南
使用頂點AI
文本渲染
延遲減少
使用雙子座
結論
常見問題
首頁 科技週邊 人工智慧 Google的Imagen 3是AI圖像創建的未來嗎?

Google的Imagen 3是AI圖像創建的未來嗎?

Apr 13, 2025 am 09:29 AM

介紹

文本到圖像的綜合和圖像文本對比學習是最近越來越受歡迎的兩個最具創新性的多模式學習應用程序。這些模型憑藉其創新的創造圖像創建和操縱應用,徹底改變了研究社區,並引起了廣泛的公共利益。

為了進一步研究,DeepMind引入了成像劑。這種文本對圖像擴散模型通過將變壓器語言模型(LMS)的強度與高前景擴散模型融合在一起,提供了前所未有的光真相和對文本形象綜合中語言的深刻理解。

本文介紹了Google最新成像模型的訓練和評估,Imagen 3。默認情況下,可以將Imagen 3配置為以1024×1024分辨率的輸出圖像,並可以選擇2×,4×或8×UPSMPLING。與其他尖端T2I模型相比,我們概述了分析和評估。

我們發現Imagen 3是最好的模型。它擅長於攝影和遵循複雜且冗長的用戶說明。

Google的Imagen 3是AI圖像創建的未來嗎?

概述

  1. 革命性的文本對圖像模型:Google的Imagen 3,一種文本對圖擴散模型,在解釋詳細的用戶提示時提供了無與倫比的光真相和精度。
  2. 評估和比較:Imagen 3在及時圖像比對和視覺吸引力中表現出色,超過了諸如DALL·e 3之類的模型,並且在自動化和人類評估中均具有穩定的擴散。
  3. 數據集和安全措施:訓練數據集經歷嚴格的過濾以刪除低質量或有害內容,從而確保更安全,更準確的輸出。
  4. 建築輝煌:使用冷凍的T5-XXL編碼器和多步上採樣,Imagen 3生成高達1024×1024分辨率的高度詳細圖像。
  5. 現實世界集成:Imagen 3可以通過Google Cloud的頂點AI訪問,從而易於集成到生產環境中以創造圖像生成。
  6. 高級功能和速度:隨著Imagen 3的引入快速,用戶可以從延遲的40%降低而不會損害圖像質量中受益。

目錄

  • 數據集:確保培訓的質量和安全性
  • 成像架構
  • 成像模型的評估
  • 人類評估:評估者如何評判Imagen 3的產出質量?
    • 總體用戶偏好:Imagen 3領先創意圖像生成
    • 及時圖像對齊:用精度捕獲用戶意圖
    • 視覺吸引力:跨平台的美學卓越
    • 詳細的及時圖像對齊
    • 數值推理:超過對象計數準確性的競爭
  • 自動化評估:將模型與夾子,壁虎和VQASCORE進行比較
    • 及時 - 圖像對齊
    • 圖像質量
  • 定性結果:突出顯示Imagen 3對細節的關注
  • 評估推斷
  • 通過頂點AI訪問Imagen 3:無縫集成指南
    • 使用頂點AI
    • 使用雙子座
  • 常見問題

數據集:確保培訓的質量和安全性

使用包括文本,圖像和相關註釋的大型數據集對成像模型進行訓練。 DeepMind使用了幾個過濾階段來保證質量和安全要求。首先,除去被認為是危險,暴力或質量差的任何圖像都將消除。接下來,DeepMind刪除了AI為阻止模型拾取這些圖像中經常存在的偏見或偽像的圖像。 DeepMind還採用了加權類似的圖像和重複數據刪除程序,以減少輸出過度擬合某些培訓數據點的可能性。

數據集中的每個圖像都有一個合成字幕和一個來自Alt文本,人類描述等的原始字幕。 Gemini模型產生具有不同提示的合成字幕。為了最大程度地提高這些綜合標題的語言多樣性和質量,DeepMind使用了多種雙子座模型和說明。 DeepMind使用各種過濾器來消除潛在的有害標題和個人身份信息。

成像架構

Google的Imagen 3是AI圖像創建的未來嗎?

Imagen使用大型冷凍T5-XXL編碼器將輸入文本編碼為嵌入。條件擴散模型將嵌入到64×64圖像中的文本映射。成像人進一步利用文本條件的超分辨率擴散模型來對圖像64×64→256×256和256×256→1024×1024進行示例。

成像模型的評估

DeepMind評估了Imagen 3模型,這是最佳質量配置,對Imagen 2和外部模型DALL·E 3,Midjourney V6,穩定的擴散3大,穩定的擴散XL 1.0。 DeepMind發現,Imagen 3通過人類和機器的嚴格評估在文本到圖像生成中設定了新的最新技術。定性結果和評估推斷包含定性結果以及對整體發現和局限性的討論。與成像3的產品集成可能會導致性能與已測試的配置不同。

另請閱讀:如何使用DALL-E 3 API進行圖像生成?

人類評估:評估者如何評判Imagen 3的產出質量?

對文本形像生成模型進行了評估,以五個質量方面進行評估:總體偏好,及時圖像對齊,視覺吸引力,詳細的及時圖像對齊和數值推理。對這些方面進行獨立評估,以避免評估者的判斷中混合。並排比較用於定量判斷,而數值推理可以通過計算圖像中描述的給定類型的多少個對象來直接評估數值推理。

完整的ELO記分板是通過對每對型號進行詳盡的比較而生成的。每項研究包括在提示集中的提示中均勻分佈的2500個評級。這些模型在評估者界面中被匿名化,並且側面對每個評分都隨機調整。數據收集是使用Google DeepMind在數據豐富方面的最佳實踐進行的,以確保所有數據豐富工人至少獲得當地生活工資的支付。該研究在3225個不同評估者的5943次提交中收集了366,569個評級。每個評估者最多參與了10%的研究,並提供了大約2%的評級,以避免對一組評估者的判斷的有偏見。來自71個不同國籍的評估者參加了研究。

總體用戶偏好:Imagen 3領先創意圖像生成

用戶對給定提示的生成圖像的總體偏好是一個空曠的問題,評估者決定哪些質量方面最重要。將兩張圖像提交給評估者,如果兩者都同樣吸引人,“我無動於衷”。

Google的Imagen 3是AI圖像創建的未來嗎?

Google的Imagen 3是AI圖像創建的未來嗎?

Google的Imagen 3是AI圖像創建的未來嗎?

結果表明,在Genai Bench,Drawbench和Dall·E 3評估中,Imagen 3明顯更受歡迎。 Imagen 3在拉動台上的邊緣比穩定的擴散3較小,並且在dall·e 3評估上的邊緣略有邊緣。

及時圖像對齊:用精度捕獲用戶意圖

該研究評估了輸入圖像內容中輸入提示的表示,忽略了潛在的缺陷或審美吸引力。要求評估者選擇一個更好地捕獲提示意圖的圖像,而無視不同樣式的圖像。結果表明,Imagen 3優於Genai Bench,Drawbench和Dall·E 3 Eval,並具有重疊的置信區間。該研究表明,忽略圖像中的潛在缺陷或不良質量可以提高及時圖像對齊的準確性。

Google的Imagen 3是AI圖像創建的未來嗎?

Google的Imagen 3是AI圖像創建的未來嗎?

Google的Imagen 3是AI圖像創建的未來嗎?

視覺吸引力:跨平台的美學卓越

視覺吸引力衡量產生的圖像的吸引力,無論內容如何。評估者沒有提示並排評價兩個圖像。 Midjourney V6的帶領下,Imagen 3幾乎在Genai Bench上,在Drawbench上略大,並且在DALL·E 3評估方面具有顯著優勢。

Google的Imagen 3是AI圖像創建的未來嗎?

Google的Imagen 3是AI圖像創建的未來嗎?

Google的Imagen 3是AI圖像創建的未來嗎?

詳細的及時圖像對齊

該研究通過從DOCCI的詳細提示中生成圖像來評估及時圖像的功能,該圖像要比以前的提示集更長。研究人員發現閱讀100個單詞提示人類評估者太具有挑戰性了。取而代之的是,他們使用真實參考照片的高質量標題將生成的圖像與基準參考圖像進行比較。評估者專注於圖像的語義,忽略樣式,捕獲技術和質量。結果表明,Imagen 3的顯著差距為114個ELO點,而第二好的模型的勝率為63%,突出了其出色的功能,遵循輸入提示的詳細內容。

Google的Imagen 3是AI圖像創建的未來嗎?

數值推理:超過對象計數準確性的競爭

該研究評估了模型使用Geckonum基準任務生成確切數量的對象的能力。該任務涉及將圖像中的對像數與提示中請求的預期數量進行比較。這些模型考慮了諸如顏色和​​空間關係之類的屬性。結果表明,成像3是最強的模型,表現優於dall·e 3乘12個百分點。在生成包含2-5個對象的圖像和更複雜的句子結構上的性能更好時,它也具有更高的精度。

Google的Imagen 3是AI圖像創建的未來嗎?

自動化評估:將模型與夾子,壁虎和VQASCORE進行比較

近年來,諸如剪輯和VQASCORE之類的自動評估(自動評估)指標已被更廣泛地用於衡量文本模型的質量。這項研究重點介紹了自動化指標,以及時圖像對準和圖像質量,以補充人類評估。

及時 - 圖像對齊

研究人員選擇了三個強大的自動效應及時圖像指標:對比度雙編碼器(剪輯),基於VQA的對比度(gecko)和一個基於LVLM提示(VQASCORE2的實現)。結果表明,剪輯通常無法預測正確的模型排序,而壁虎和VQASCORE表現良好,大約有72%的時間達成共識。 VQASCORE具有優勢,因為它與人類評分相匹配,而Gecko的73.3%則有80%的時間。壁虎使用較弱的骨幹,帕利,這可能解釋了性能的差異。

該研究評估了四個數據集,以調查不同條件下的模型差異:壁虎,docci檢測 - 居民,dall·e 3評估和Genai-Bench。結果表明,成像3始終具有最高的對齊性能。 SDXL 1和Imagen 2的性能始終比其他模型少。

Google的Imagen 3是AI圖像創建的未來嗎?

圖像質量

關於圖像質量,研究人員比較了使用不同的特徵空間和距離指標,比較了Imagen 3,SDXL 1和DALL·E 3的生成圖像的分佈。他們觀察到,將這三個指標最小化是一個權衡,有利於自然色和紋理的產生,但無法檢測到對象形狀和零件上的畸變。 Imagen 3介紹了三種型號的CMMD值較低,突出了其在最先進的特徵空間指標上的強勁性能。

Google的Imagen 3是AI圖像創建的未來嗎?

定性結果:突出顯示Imagen 3對細節的關注

下圖顯示了2個圖像上採樣到12百萬像素,農作物顯示了細節水平。

Google的Imagen 3是AI圖像創建的未來嗎?

評估推斷

Imagen 3是及時圖像對齊的頂級模型,尤其是在詳細的提示和計數能力中。在視覺吸引力方面,Midjourney V6領先,Imagen 3排名第二。但是,它仍然存在某些功能的缺點,例如數值推理,規模推理,組成短語,動作,空間推理和復雜的語言。這些模型在需要數值推理,規模推理,組成短語和行動的任務上掙扎。總體而言,Imagen 3是尊重用戶意圖的高質量輸出的最佳選擇。

通過頂點AI訪問Imagen 3:無縫集成指南

使用頂點AI

要開始使用頂點AI,您必須擁有現有的Google Cloud項目並啟用頂點AI API。了解有關建立項目和開發環境的更多信息。

另外,這是GitHub鏈接 - 請參閱

導入Vertexai

來自vertexai.preview.vision_models導入imageGenerationModel

#todo(開發人員):從頂點AI控制台更新您的項目ID

project_id =“ project_id”

vertexai.init(project = project_id,location =“ us-central1”)

generation_model = imageGenerationModel.from_pretrataining(“ Imagen-3.0生成-001”)

提示=“”

一本木製廚房桌子上的食譜的影像圖像,封面面向前方的封面,有一個微笑的家庭坐在類似的桌子上,柔軟的高架照明照亮了場景,食譜是圖像的主要重點。

”“”

image = generation_model.generate_images(

    提示=提示,

    number_of_images = 1,

    expack_ratio =“ 1:1”,

    safety_filter_level =“ block_some”,

    person_generation =“ ally_all”,

)
登入後複製

Google的Imagen 3是AI圖像創建的未來嗎?

文本渲染

Imagen 3還為文本渲染圖像開闢了新的可能性。創建帶有不同字體和顏色字幕的海報,卡片和社交媒體帖子的圖像是嘗試此工具的好方法。要使用此功能,只需簡要描述您想在提示中看到的內容即可。想像一下,您想更改食譜的封面並添加標題。

提示=“”

一本木製廚房桌子上的食譜的影像圖像,封面面向前方的封面,有一個微笑的家庭坐在類似的桌子上,柔軟的高架照明照亮了場景,食譜是圖像的主要重點。

在橙色塊字母的“日常食譜”中添加一個書名。 

”“”

image = generation_model.generate_images(

    提示=提示,

    number_of_images = 1,

    expack_ratio =“ 1:1”,

    safety_filter_level =“ block_some”,

    person_generation =“ ally_all”,

)
登入後複製

Google的Imagen 3是AI圖像創建的未來嗎?

延遲減少

除Imagen 3(迄今為止其最高質量的模型)外,DeepMind提供了Imagen 3 Fast,這是一種針對發電速度優化的模型。 Imagen 3 FAST適用於產生具有更大對比度和亮度的圖像。與Imagen 2相比,您可以觀察到延遲的降低40%。您可以使用相同的提示來創建兩個圖像來說明這兩個模型。讓我們為沙拉照片創建兩個替代方法,我們可以在上面提到的食譜中包括。

 generation_model_fast = imageGenerationModel.from_pretrate(

    “ Imagen-3.0-fast-generate-001”

)

提示=“”

花園沙拉的影像圖像,上面有五顏六色的蔬菜,例如辣椒,黃瓜,西紅柿和綠葉蔬菜,坐在白色大理石桌上的圖像中心的木碗中。自然光照亮了場景,鑄造柔和的陰影並突出了成分的新鮮度。 

”“” 

#成像3快速圖像生成

fast_image = generation_model_fast.generate_images(

    提示=提示,

    number_of_images = 1,

    expack_ratio =“ 1:1”,

    safety_filter_level =“ block_some”,

    person_generation =“ ally_all”,

)
登入後複製

Google的Imagen 3是AI圖像創建的未來嗎?

提示=“”

花園沙拉的影像圖像,上面有五顏六色的蔬菜,例如辣椒,黃瓜,西紅柿和綠葉蔬菜,坐在白色大理石桌上的圖像中心的木碗中。自然光照亮了場景,鑄造柔和的陰影並突出了成分的新鮮度。 

”“” 

#成像3圖像生成

image = generation_model.generate_images(

    提示=提示,

    number_of_images = 1,

    expack_ratio =“ 1:1”,

    safety_filter_level =“ block_some”,

    person_generation =“ ally_all”,

)
登入後複製

Google的Imagen 3是AI圖像創建的未來嗎?

使用雙子座

Gemini支持使用新Imagen 3的支持,因此我們使用Gemini訪問Imagen 3。在下圖中,我們可以看到Gemini使用Imagen 3生成圖像。

提示 - “在城市道路上產生獅子行走的形象。道路上有汽車,自行車和公共汽車。一定要使它現實”

Google的Imagen 3是AI圖像創建的未來嗎?

Google的Imagen 3是AI圖像創建的未來嗎?

結論

Google的Imagen 3設定了一個新的基準,用於文本對圖像綜合,在光真相中表現出色,並以極好的精度處理複雜提示。它在多個評估基準中的強勁表現突出了其在詳細的及時圖像對齊和視覺吸引力中的功能,超過了諸如DALL·E 3和穩定擴散之類的模型。但是,它在涉及數值和空間推理的任務中仍然面臨挑戰。通過添加Imagen 3的添加,以減少延遲和與頂點AI等工具的集成,Imagen 3為創造性應用開闢了令人興奮的可能性,從而突破了多模式AI的界限。

如果您正在在線尋找生成的AI課程,請探索 -今天的Genai Pinnacle計劃!

常見問題

Q1。是什麼使Google的Imagen 3在文本到圖像合成中脫穎而出?

ANS Imagen 3在光真相和復雜的及時處理方面表現出色,與其他型號(如DALL·E 3和穩定的擴散)相比,與用戶輸入相比,提供了出色的圖像質量和與用戶輸入的對齊。

Q2。 Imagen 3如何處理複雜提示?

Ans。 Imagen 3旨在有效地管理詳細且冗長的提示,以表明及時圖像對齊和詳細的內容表示方面的良好性能。

Q3。哪些數據集用於訓練Imagen 3?

Ans。該模型在一個具有文本,圖像和註釋的大型,多樣化的數據集上進行了培訓,以排除AI生成的內容,有害圖像和質量差數據。

Q4。 Imagen 3與標準版本有何不同?

Ans。 Imagen 3快速對速度進行了優化,與標準版本相比,在保持高質量的圖像生成的同時,延遲降低了40%。

Q5。 Imagen 3可以集成到生產環境中嗎?

Ans。是的,Imagen 3可以與Google Cloud的頂點AI一起使用,從而可以無縫集成到圖像生成和創意任務的應用中。

以上是Google的Imagen 3是AI圖像創建的未來嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1668
14
CakePHP 教程
1426
52
Laravel 教程
1329
25
PHP教程
1273
29
C# 教程
1256
24
10個生成AI編碼擴展,在VS代碼中,您必須探索 10個生成AI編碼擴展,在VS代碼中,您必須探索 Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

GPT-4O vs OpenAI O1:新的Openai模型值得炒作嗎? GPT-4O vs OpenAI O1:新的Openai模型值得炒作嗎? Apr 13, 2025 am 10:18 AM

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya pixtral -12b:Mistral AI&#039;第一個多模型模型 - 分析Vidhya Apr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

如何使用AGNO框架構建多模式AI代理? 如何使用AGNO框架構建多模式AI代理? Apr 23, 2025 am 11:30 AM

在從事代理AI時,開發人員經常發現自己在速度,靈活性和資源效率之間進行權衡。我一直在探索代理AI框架,並遇到了Agno(以前是Phi-

超越駱駝戲:大型語言模型的4個新基準 超越駱駝戲:大型語言模型的4個新基準 Apr 14, 2025 am 11:09 AM

陷入困境的基準:駱駝案例研究 2025年4月上旬,梅塔(Meta)揭開了其Llama 4套件的模特,擁有令人印象深刻的性能指標,使他們對GPT-4O和Claude 3.5 Sonnet等競爭對手的良好定位。倫斯的中心

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮 OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮 Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

多動症遊戲,健康工具和AI聊天機器人如何改變全球健康 多動症遊戲,健康工具和AI聊天機器人如何改變全球健康 Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

See all articles