简化文生图prompt，LLM模型生成高质量图像-人工智能-PHP中文网

HCP实验室简介

首页

科技周边

人工智能

简化文生图prompt，LLM模型生成高质量图像

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 13, 2023 am 09:25 AM

ai 训练

扩散模型已经成为主流的文本到图像生成模型，它可以通过文本提示来引导生成高质量且内容丰富的图像

如果输入的提示过于简洁，现有的模型在语义理解和常识推理方面都存在局限，这将导致生成的图像质量明显下降

中山大学HCP实验室的林倞团队提出了一种名为SUR-adapter的简单而有效的微调方法，旨在提高模型对叙述性提示的理解能力。该方法是一种语义理解和推理适配器，适用于预训练的扩散模型，并具有参数高效的特点

简化文生图prompt，LLM模型生成高质量图像

请点击以下链接查看论文：https://arxiv.org/abs/2305.05189

开源地址：https://github.com/Qrange-group/SUR-adapter

为了达到这个目标，研究人员首先收集并标注了一个名为SURD的数据集。这个数据集包含了超过5.7万个多模态样本，每个样本都包含一个简单的叙述性提示、一个复杂的基于关键字的提示以及一张高质量的图像

研究人员将叙事提示的语义表示与复杂提示对齐，并通过知识蒸馏将大型语言模型（LLM）的知识迁移到SUR适配器，以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成。然后，他们将叙事提示的语义表示与复杂提示对齐，并通过知识蒸馏将大型语言模型（LLM）的知识迁移到SUR适配器，以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成

简化文生图prompt，LLM模型生成高质量图像

我们通过集成多个LLM和预训练扩散模型进行实验，发现该方法能够有效地使扩散模型理解和推理简洁的自然语言描述，同时不会降低图像质量

这种方法可以使得文本到图像的扩散模型更易于使用，提供更好的用户体验，进一步推动用户友好的文本到图像生成模型的发展，并弥补简单叙事提示和基于关键字提示之间的语义差距

背景介绍

目前，以稳定扩散为代表的文本到图像预训练模型已经成为人工智能生成内容领域最重要的基础模型之一，在图像编辑、视频生成、3D对象生成等任务中起着重要作用

目前，这些预训练的扩散模型的语义能力主要取决于文本编码器（如CLIP），其语义理解能力直接影响到扩散模型的生成效果

本文首先通过构造视觉问答任务（VQA）中常见的问题类别，如"计数"、"颜色"和"动作"，来测试Stable diffusion的图文匹配准确度。我们将人工统计并进行测试

以下是构造各种提示的示例，详见下表

简化文生图prompt，LLM模型生成高质量图像

根据下表所示的结果，文章揭示了目前的文生图预训练扩散模型存在严重的语义理解问题。大量问题的图文匹配准确度不足50%，甚至在某些问题下，准确度仅为0%

简化文生图prompt，LLM模型生成高质量图像

为了获得符合文本生成条件的图像，我们需要找到方法来增强预训练扩散模型中本文编码器的语义能力

方法概述

重写后的内容：1. 数据预处理

首先，我们可以从常用的扩散模型在线网站lexica.art、civitai.com和stablediffusionweb中获取大量的图片文本对。然后，我们需要对这些数据进行清洗和筛选，以获得超过57000张高质量的三元组数据（包括复杂提示、简单提示和图片），并将其构成SURD数据集

简化文生图prompt，LLM模型生成高质量图像

在下图中所示，复杂提示是指生成图像时扩散模型所需的文本提示条件，通常这些提示具有复杂的格式和描述。简单提示是通过BLIP对图像生成的文本描述，它采用符合人类描述的语言格式

一般来说，符合正常人类语言描述的简单提示很难让扩散模型生成足够符合语义的图像，而复杂提示（用户戏称为扩散模型的“咒语”）则可以达到令人满意的效果

需要进行重新编写的内容是：2. 大型语言模型的语义蒸馏

本文介绍了一种使用Transformer结构的Adapter来蒸馏大型语言模型在特定隐藏层中的语义特征的方法，并通过将Adapter引导的大型语言模型信息与原始文本编码器输出的语义特征进行线性组合，得到最终的语义特征

大语言模型选用的是不同大小的LLaMA模型，而扩散模型的UNet部分在整个训练过程中的参数都是冻结的

简化文生图prompt，LLM模型生成高质量图像

需要进行重写的内容是：3. 图像质量恢复

为了保持原意不变，需要将内容改写为中文：由于本文结构在预训练大模型推理过程引入了可学习模块，一定程度破坏了预训练模型的原图生成质量，因此需要将图像生成的质量拉回原预训练模型的生成质量水平

简化文生图prompt，LLM模型生成高质量图像

本文使用SURD数据集中的三元组，在训练过程中引入了相应的质量损失函数，以恢复图像生成的质量。具体而言，本文希望通过新模块后获得的语义特征能够与复杂提示的语义特征尽可能地对齐

下图展示了SUR-adapter对预训练扩散模型的fine-tuning框架。右侧为Adapter的网络结构

简化文生图prompt，LLM模型生成高质量图像

实验结果

对于SUR-adapter的性能，本文从语义匹配和图像质量两个方面进行了分析

一方面，根据下表显示，SUR-adapter能够有效地解决文生图扩散模型中常见的语义不匹配问题，适用于不同的实验设置。在不同类别的语义准则下，准确度也有一定的提升

另一方面，本文利用常用的BRISQUE等常用的图像质量评价指标下，对原始pretrain扩散模型和使用了SUR-adapter后的扩散模型所生成图片的质量进行统计检验，我们可以发现两者没有显著的差异。

我们还进行了一项人类偏好的调查问卷测试

通过以上分析，可以得出结论，所提出的方法能够在保持图像生成质量的同时，缓解预训练文本到图像的固有图文不匹配问题

简化文生图prompt，LLM模型生成高质量图像

我们还可以通过以下图像生成的示例来定性展示，更详细的分析和细节请参阅本文和开源仓库

需要进行改写的内容是：

简化文生图prompt，LLM模型生成高质量图像

HCP实验室简介

林倞教授于2010年创办了中山大学人机物智能融合实验室（HCP Lab）。近年来，该实验室在多模态内容理解、因果及认知推理、具身智能等领域取得了丰富的学术成果。实验室多次荣获国内外科技奖项和最佳论文奖，并致力于开发产品级的人工智能技术和平台

以上是简化文生图prompt，LLM模型生成高质量图像的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

Java教程

1675

CakePHP 教程

1429

Laravel 教程

1333

PHP教程

1278

C# 教程

1257

显示更多

Related knowledge

AI和作曲家：增强代码质量和开发 May 09, 2025 am 12:20 AM

AI在Composer中主要通过依赖推荐、依赖冲突解决和代码质量提升来提高开发效率和代码质量。1.AI可以根据项目需求推荐合适的依赖包。2.AI提供智能解决方案来处理依赖冲突。3.AI审查代码并提供优化建议，提升代码质量。通过这些功能，开发者可以更专注于业务逻辑的实现。

币圈十大加密货币交易所排行榜十大数字货币交易平台2025年最新排名 May 08, 2025 pm 10:45 PM

币圈十大加密货币交易所排名：1. Binance：全球领先，提供高效交易和多种金融产品。2. OKX：创新多样，支持多种交易类型。3. Huobi：稳定可靠，服务优质。4. Coinbase：新手友好，界面简洁。5. Kraken：专业交易者首选，工具强大。6. Bitfinex：高效交易，交易对丰富。7. Bittrex：安全合规，监管合作。8. Poloniex等等。

币圈十大虚拟币交易所app 2025年币圈十大数字货币交易所最新排行榜 May 12, 2025 pm 06:00 PM

币圈十大虚拟币交易所app：1. Binance，2. OKX，3. Huobi，4. Coinbase，5. Kraken，6. Bitfinex，7. Bybit，8. KuCoin，9. Gemini，10. Bitstamp，这些平台因其交易量、安全性和用户体验而备受欢迎。

如何设置、获取和删除 WordPress Cookie（像专业人士一样） May 12, 2025 pm 08:57 PM

您想了解如何在WordPress网站上使用cookie吗？Cookie是在用户浏览器中存储临时信息的有用工具。您可以使用此信息通过个性化和行为定位来增强用户体验。在本终极指南中，我们将向您展示如何像专业人士一样设置、获取和删除WordPresscookie。注意：这是一个高级教程。它要求您精通HTML、CSS、WordPress网站和PHP。什么是Cookie？Cookie是用户访问网站时创建并存储在用户浏览