Google的Imagen 3是AI圖像創建的未來嗎？-人工智慧-PHP中文網

數據集：確保培訓的質量和安全性
成像架構
成像模型的評估
人類評估：評估者如何評判Imagen 3的產出質量？
- 總體用戶偏好：Imagen 3領先創意圖像生成
- 及時圖像對齊：用精度捕獲用戶意圖
- 視覺吸引力：跨平台的美學卓越
- 詳細的及時圖像對齊
- 數值推理：超過對象計數準確性的競爭
自動化評估：將模型與夾子，壁虎和VQASCORE進行比較
- 及時 - 圖像對齊
- 圖像質量
定性結果：突出顯示Imagen 3對細節的關注
評估推斷
通過頂點AI訪問Imagen 3：無縫集成指南
- 使用頂點AI
- 使用雙子座
常見問題

數據集：確保培訓的質量和安全性

使用包括文本，圖像和相關註釋的大型數據集對成像模型進行訓練。 DeepMind使用了幾個過濾階段來保證質量和安全要求。首先，除去被認為是危險，暴力或質量差的任何圖像都將消除。接下來，DeepMind刪除了AI為阻止模型拾取這些圖像中經常存在的偏見或偽像的圖像。 DeepMind還採用了加權類似的圖像和重複數據刪除程序，以減少輸出過度擬合某些培訓數據點的可能性。

數據集中的每個圖像都有一個合成字幕和一個來自Alt文本，人類描述等的原始字幕。 Gemini模型產生具有不同提示的合成字幕。為了最大程度地提高這些綜合標題的語言多樣性和質量，DeepMind使用了多種雙子座模型和說明。 DeepMind使用各種過濾器來消除潛在的有害標題和個人身份信息。

成像架構

Google的Imagen 3是AI圖像創建的未來嗎？

Imagen使用大型冷凍T5-XXL編碼器將輸入文本編碼為嵌入。條件擴散模型將嵌入到64×64圖像中的文本映射。成像人進一步利用文本條件的超分辨率擴散模型來對圖像64×64→256×256和256×256→1024×1024進行示例。

成像模型的評估

DeepMind評估了Imagen 3模型，這是最佳質量配置，對Imagen 2和外部模型DALL·E 3，Midjourney V6，穩定的擴散3大，穩定的擴散XL 1.0。 DeepMind發現，Imagen 3通過人類和機器的嚴格評估在文本到圖像生成中設定了新的最新技術。定性結果和評估推斷包含定性結果以及對整體發現和局限性的討論。與成像3的產品集成可能會導致性能與已測試的配置不同。

另請閱讀：如何使用DALL-E 3 API進行圖像生成？

人類評估：評估者如何評判Imagen 3的產出質量？

對文本形像生成模型進行了評估，以五個質量方面進行評估：總體偏好，及時圖像對齊，視覺吸引力，詳細的及時圖像對齊和數值推理。對這些方面進行獨立評估，以避免評估者的判斷中混合。並排比較用於定量判斷，而數值推理可以通過計算圖像中描述的給定類型的多少個對象來直接評估數值推理。

完整的ELO記分板是通過對每對型號進行詳盡的比較而生成的。每項研究包括在提示集中的提示中均勻分佈的2500個評級。這些模型在評估者界面中被匿名化，並且側面對每個評分都隨機調整。數據收集是使用Google DeepMind在數據豐富方面的最佳實踐進行的，以確保所有數據豐富工人至少獲得當地生活工資的支付。該研究在3225個不同評估者的5943次提交中收集了366,569個評級。每個評估者最多參與了10％的研究，並提供了大約2％的評級，以避免對一組評估者的判斷的有偏見。來自71個不同國籍的評估者參加了研究。

總體用戶偏好：Imagen 3領先創意圖像生成

用戶對給定提示的生成圖像的總體偏好是一個空曠的問題，評估者決定哪些質量方面最重要。將兩張圖像提交給評估者，如果兩者都同樣吸引人，“我無動於衷”。

Google的Imagen 3是AI圖像創建的未來嗎？

結果表明，在Genai Bench，Drawbench和Dall·E 3評估中，Imagen 3明顯更受歡迎。 Imagen 3在拉動台上的邊緣比穩定的擴散3較小，並且在dall·e 3評估上的邊緣略有邊緣。

及時圖像對齊：用精度捕獲用戶意圖

該研究評估了輸入圖像內容中輸入提示的表示，忽略了潛在的缺陷或審美吸引力。要求評估者選擇一個更好地捕獲提示意圖的圖像，而無視不同樣式的圖像。結果表明，Imagen 3優於Genai Bench，Drawbench和Dall·E 3 Eval，並具有重疊的置信區間。該研究表明，忽略圖像中的潛在缺陷或不良質量可以提高及時圖像對齊的準確性。

Google的Imagen 3是AI圖像創建的未來嗎？

視覺吸引力：跨平台的美學卓越

視覺吸引力衡量產生的圖像的吸引力，無論內容如何。評估者沒有提示並排評價兩個圖像。 Midjourney V6的帶領下，Imagen 3幾乎在Genai Bench上，在Drawbench上略大，並且在DALL·E 3評估方面具有顯著優勢。

Google的Imagen 3是AI圖像創建的未來嗎？

詳細的及時圖像對齊

該研究通過從DOCCI的詳細提示中生成圖像來評估及時圖像的功能，該圖像要比以前的提示集更長。研究人員發現閱讀100個單詞提示人類評估者太具有挑戰性了。取而代之的是，他們使用真實參考照片的高質量標題將生成的圖像與基準參考圖像進行比較。評估者專注於圖像的語義，忽略樣式，捕獲技術和質量。結果表明，Imagen 3的顯著差距為114個ELO點，而第二好的模型的勝率為63％，突出了其出色的功能，遵循輸入提示的詳細內容。

Google的Imagen 3是AI圖像創建的未來嗎？

數值推理：超過對象計數準確性的競爭

該研究評估了模型使用Geckonum基準任務生成確切數量的對象的能力。該任務涉及將圖像中的對像數與提示中請求的預期數量進行比較。這些模型考慮了諸如顏色和空間關係之類的屬性。結果表明，成像3是最強的模型，表現優於dall·e 3乘12個百分點。在生成包含2-5個對象的圖像和更複雜的句子結構上的性能更好時，它也具有更高的精度。

Google的Imagen 3是AI圖像創建的未來嗎？

自動化評估：將模型與夾子，壁虎和VQASCORE進行比較

近年來，諸如剪輯和VQASCORE之類的自動評估（自動評估）指標已被更廣泛地用於衡量文本模型的質量。這項研究重點介紹了自動化指標，以及時圖像對準和圖像質量，以補充人類評估。

及時 - 圖像對齊

研究人員選擇了三個強大的自動效應及時圖像指標：對比度雙編碼器（剪輯），基於VQA的對比度（gecko）和一個基於LVLM提示（VQASCORE2的實現）。結果表明，剪輯通常無法預測正確的模型排序，而壁虎和VQASCORE表現良好，大約有72％的時間達成共識。 VQASCORE具有優勢，因為它與人類評分相匹配，而Gecko的73.3％則有80％的時間。壁虎使用較弱的骨幹，帕利，這可能解釋了性能的差異。

該研究評估了四個數據集，以調查不同條件下的模型差異：壁虎，docci檢測 - 居民，dall·e 3評估和Genai-Bench。結果表明，成像3始終具有最高的對齊性能。 SDXL 1和Imagen 2的性能始終比其他模型少。

Google的Imagen 3是AI圖像創建的未來嗎？

圖像質量

關於圖像質量，研究人員比較了使用不同的特徵空間和距離指標，比較了Imagen 3，SDXL 1和DALL·E 3的生成圖像的分佈。他們觀察到，將這三個指標最小化是一個權衡，有利於自然色和紋理的產生，但無法檢測到對象形狀和零件上的畸變。 Imagen 3介紹了三種型號的CMMD值較低，突出了其在最先進的特徵空間指標上的強勁性能。

Google的Imagen 3是AI圖像創建的未來嗎？

定性結果：突出顯示Imagen 3對細節的關注

下圖顯示了2個圖像上採樣到12百萬像素，農作物顯示了細節水平。

Google的Imagen 3是AI圖像創建的未來嗎？

評估推斷

Imagen 3是及時圖像對齊的頂級模型，尤其是在詳細的提示和計數能力中。在視覺吸引力方面，Midjourney V6領先，Imagen 3排名第二。但是，它仍然存在某些功能的缺點，例如數值推理，規模推理，組成短語，動作，空間推理和復雜的語言。這些模型在需要數值推理，規模推理，組成短語和行動的任務上掙扎。總體而言，Imagen 3是尊重用戶意圖的高質量輸出的最佳選擇。

通過頂點AI訪問Imagen 3：無縫集成指南

使用頂點AI

要開始使用頂點AI，您必須擁有現有的Google Cloud項目並啟用頂點AI API。了解有關建立項目和開發環境的更多信息。

另外，這是GitHub鏈接 - 請參閱

導入Vertexai

來自vertexai.preview.vision_models導入imageGenerationModel

＃todo（開發人員）：從頂點AI控制台更新您的項目ID

project_id =“ project_id”

vertexai.init（project = project_id，location =“ us-central1”）

generation_model = imageGenerationModel.from_pretrataining（“ Imagen-3.0生成-001”）

提示=“”

一本木製廚房桌子上的食譜的影像圖像，封面面向前方的封面，有一個微笑的家庭坐在類似的桌子上，柔軟的高架照明照亮了場景，食譜是圖像的主要重點。

”“”

image = generation_model.generate_images（

    提示=提示，

    number_of_images = 1，

    expack_ratio =“ 1：1”，

    safety_filter_level =“ block_some”，

    person_generation =“ ally_all”，

）

登入後複製

Google的Imagen 3是AI圖像創建的未來嗎？

文本渲染

Imagen 3還為文本渲染圖像開闢了新的可能性。創建帶有不同字體和顏色字幕的海報，卡片和社交媒體帖子的圖像是嘗試此工具的好方法。要使用此功能，只需簡要描述您想在提示中看到的內容即可。想像一下，您想更改食譜的封面並添加標題。

提示=“”

一本木製廚房桌子上的食譜的影像圖像，封面面向前方的封面，有一個微笑的家庭坐在類似的桌子上，柔軟的高架照明照亮了場景，食譜是圖像的主要重點。

在橙色塊字母的“日常食譜”中添加一個書名。 

”“”

image = generation_model.generate_images（

    提示=提示，

    number_of_images = 1，

    expack_ratio =“ 1：1”，

    safety_filter_level =“ block_some”，

    person_generation =“ ally_all”，

）

登入後複製

Google的Imagen 3是AI圖像創建的未來嗎？

延遲減少

除Imagen 3（迄今為止其最高質量的模型）外，DeepMind提供了Imagen 3 Fast，這是一種針對發電速度優化的模型。 Imagen 3 FAST適用於產生具有更大對比度和亮度的圖像。與Imagen 2相比，您可以觀察到延遲的降低40％。您可以使用相同的提示來創建兩個圖像來說明這兩個模型。讓我們為沙拉照片創建兩個替代方法，我們可以在上面提到的食譜中包括。

 generation_model_fast = imageGenerationModel.from_pretrate（

    “ Imagen-3.0-fast-generate-001”

）

提示=“”

花園沙拉的影像圖像，上面有五顏六色的蔬菜，例如辣椒，黃瓜，西紅柿和綠葉蔬菜，坐在白色大理石桌上的圖像中心的木碗中。自然光照亮了場景，鑄造柔和的陰影並突出了成分的新鮮度。 

”“” 

＃成像3快速圖像生成

fast_image = generation_model_fast.generate_images（

    提示=提示，

    number_of_images = 1，

    expack_ratio =“ 1：1”，

    safety_filter_level =“ block_some”，

    person_generation =“ ally_all”，

）

登入後複製

Google的Imagen 3是AI圖像創建的未來嗎？

提示=“”

花園沙拉的影像圖像，上面有五顏六色的蔬菜，例如辣椒，黃瓜，西紅柿和綠葉蔬菜，坐在白色大理石桌上的圖像中心的木碗中。自然光照亮了場景，鑄造柔和的陰影並突出了成分的新鮮度。 

”“” 

＃成像3圖像生成

image = generation_model.generate_images（

    提示=提示，

    number_of_images = 1，

    expack_ratio =“ 1：1”，

    safety_filter_level =“ block_some”，

    person_generation =“ ally_all”，

）

登入後複製

Google的Imagen 3是AI圖像創建的未來嗎？

使用雙子座

Gemini支持使用新Imagen 3的支持，因此我們使用Gemini訪問Imagen 3。在下圖中，我們可以看到Gemini使用Imagen 3生成圖像。

提示 - “在城市道路上產生獅子行走的形象。道路上有汽車，自行車和公共汽車。一定要使它現實”

Google的Imagen 3是AI圖像創建的未來嗎？

結論

Google的Imagen 3設定了一個新的基準，用於文本對圖像綜合，在光真相中表現出色，並以極好的精度處理複雜提示。它在多個評估基準中的強勁表現突出了其在詳細的及時圖像對齊和視覺吸引力中的功能，超過了諸如DALL·E 3和穩定擴散之類的模型。但是，它在涉及數值和空間推理的任務中仍然面臨挑戰。通過添加Imagen 3的添加，以減少延遲和與頂點AI等工具的集成，Imagen 3為創造性應用開闢了令人興奮的可能性，從而突破了多模式AI的界限。

如果您正在在線尋找生成的AI課程，請探索 -今天的Genai Pinnacle計劃！