论文修改100遍也别慌！Meta发布全新写作语言模型PEER：参考文献都会加-人工智能-PHP中文网

NLP也来仿生学

首页

科技周边

人工智能

论文修改100遍也别慌！Meta发布全新写作语言模型PEER：参考文献都会加

王林

Apr 13, 2023 pm 03:55 PM

ai 模型

2020年5月至今，GPT-3发布近两年半的时间里，在其神奇的文本生成能力加持下，已经能够很好地辅助人类进行写作了。

但GPT-3说到底也就是个文本生成模型，与人类的写作过程可以说是完全不同了。

比如要写一篇论文或者作文，我们需要先在脑海里构造一个框架，查相关资料，打草稿，再找导师不断地修改、润色文字，期间可能还会修改思路，最终才可能成为一篇好文章。

而生成模型得到的文本也就是能满足语法要求，在内容编排上就毫无逻辑，也没有自我修改的能力，所以让AI独立写作文这件事还很遥远。

最近Meta AI Research和卡内基梅隆大学的研究人员提出一个新的文本生成模型PEER（计划Plan，编辑Edit，解释Explain，重复Repeat），完全模拟人类写作文的过程，从打草稿、征求建议到编辑文本，再不断迭代。

论文地址：https://arxiv.org/abs/2208.11663

PEER解决了传统语言模型只会生成最终结果，并且生成文本无法控制的问题，通过输入自然语言命令，PEER可以对生成文本进行修改。

最重要的是，研究人员训练了多个PEER的实例，能够填补写作过程中的多个环节，借此可以使用自训练（self-training）技术提高训练数据的质量、数量以及多样性。

能生成训练数据，也就代表PEER的潜力远不止写作文那么简单，还可以在其他没有编辑历史的领域使用PEER，让它自己逐渐提高遵循指令、编写有用评论和解释其行为的能力。

NLP也来仿生学

大型神经网络在用自然语言进行预训练后，文本生成的效果已经非常强了，但这些模型的生成方式基本就是从左到右一次性输出结果文本，与人类写作的迭代过程有很大不同。

一次性生成也有很多弊端，比如无法追溯文本中的句子进行修改或完善，也无法解释某句文本的生成原因，并且检验生成文本的正确性也很难，结果中经常会生成幻觉（hallucinate）内容，即不符合事实的文本。这些缺陷也限制了模型与人类合作进行写作的能力，因为人类需要的是连贯且符合事实的文本。

PEER模型通过在文本的「编辑历史」上进行训练，使得模型能够模拟人类的写作过程。

1、PEER模型运行时，需要用户或模型指定一个计划（Plan），通过自然语言描述他们想要执行的行动（action），比如说add some information或者fix grammar errors；

2、然后通过编辑（Edit）文本来实现这一行动；

3、模型可以用自然语言和指向相关资源来解释（Explain）该次编辑结果，比如在文末加一个参考文献；

4、重复（Repeat）该过程，直到生成的文本不再需要进一步的更新。

这种迭代的方法不仅使该模型可以将写一个连贯、一致、事实性的文本这一复杂的任务分解成多个较容易的子任务，还允许人类在生成过程中的任何时刻进行干预，引导模型向正确的方向发展，提供用户的计划和评论，或者自己上手进行编辑。

通过方法描述就可以看出来，功能实现上最难的并不是用Transformer搭建模型，而是找训练数据，想要找到能够以训练大型语言模型所需的规模来学习这一过程的数据显然是很困难的，因为大部分网站都没有提供编辑历史，所以通过爬虫获得的网页没办法作为训练数据。

即使通过爬虫获取不同时间相同网页作为编辑历史也不可行，因为没有对该次编辑做出计划或解释的相关文本。

PEER与之前的迭代编辑方法类似，使用维基百科作为主要编辑和相关评论的数据来源，因为维基百科提供了完整的编辑历史，包括对各种主题的评论，而且规模很大，文章中经常包含引文，对寻找相关文件很有帮助。

但仅依靠维基百科作为训练数据的唯一来源也存在各种缺点：

1、仅使用维基百科训练得到的模型在预期文本内容的样子和预测的计划和编辑方面需要和维基百科相似；

2、维基百科中的评论是有噪音的，因此在许多情况下，评论并不是计划或解释的恰当输入；

3、维基百科中的许多段落不包含任何引文，虽然这种背景信息的缺乏可以通过使用检索系统来弥补，但即使这样的系统也可能无法为许多编辑找到支持性的背景信息。

研究人员提出了一个简单的方法来解决因维基百科是唯一的评论编辑历史来源而产生的所有问题：即训练多个PEER实例，并用这些实例学习填充编辑过程的各个环节。这些模型可以用来生成合成数据作为训练语料库中缺失部分的替代。

最终训练得到四个encoder-decoder模型：

1、PEER-Edit的输入为文本x和一组文档，模型输出为计划和编辑后的文本，其中p为计划文本。

2、PEER-Undo的输入为编辑后的文本和一组文档，模型输出结果为是否撤销该次编辑。

3、PEER-Explain用来生成该次编辑的解释，输入为源文本、编辑后的文本和一组相关文档。

4、 PEER-Document输入源文本、编辑后的文本和计划，模型输出为该次编辑中最有用的背景信息。

PEER的所有变体模型都用来生成合成数据，既生成缺失的部分来补充的训练数据，也用来替换现有数据中的「低质量」部分。

为了能够对任意文本数据进行训练，即使该段文本没有编辑历史，也使用PEER-Undo来生成合成的「后向」编辑，即对源文本反复应用PEER-Undo直到文本为空，再调用PEER-Edit在相反的方向进行训练。

在生成计划时，使用PEER-Explain来修正语料库中许多低质量的评论，或者处理没有评论的文本。从PEER-Explain的输出中随机采样多个结果作为「潜在的计划」，通过计算实际编辑的似然概率，并选择概率最高的作为新计划。

如果对于特定编辑操作无法找到相关文档，则使用PEER-Document生成一组合成的文档，包含执行该次编辑操作的信息。最关键的是，仅在训练PEER-Edit这么做，在推理阶段并不提供任何合成文档。

为了提高生成的计划、编辑和文档的质量和多样性，研究人员还实现了一个控制机制，即在模型被训练生成的输出序列中预置特定的控制标记，然后在推理过程中使用这些控制标记来指导模型的生成，标记包括：

1、type用来控制PEER-Explain生成的文本类型，可选值为instructon（输出必须以不定式开头to ....）和other；

2、length, 控制PEER-Explain的输出长度，可选值包括s（少于2个词）, m（2-3个词），l（4-5个词）和xl（多于或等于6个词）；

3、overlap, 是否PEER-Explain生成的词可以与编辑文本重复，可选值为true和false；

4、words，用来控制PEER-Undo在源文本和编辑后文本之间不同词的个数，可选值为所有整数；

5、contains，用来确保PEER-Document输出的文本包含某个substring

PEER没有对PEER-edit引入控制符，即没有假定用户可能会用模型解决编辑任务的类型，使得模型更加通用。

在实验对比阶段，PEER使用LM-Adapted T5的3B参数版本预训练初始化。

为了评估了PEER在不同领域中遵循一系列计划、利用所提供的文档和进行编辑的能力，特别是在没有编辑历史的领域中的表现，文中引入了一个新的数据集Natural Edits，一个针对不同文本类型和领域的自然发生的编辑的集合。

数据从三个英文网络资源中收集获得：从维基百科中收集百科全书式的页面，从Wikinews收集新闻文章，从StackExchange的烹饪、园艺、法律、电影、政治、旅游和工作场所子论坛收集问题，所有这些网站都提供了带有评论的编辑历史，这些评论详细说明了编辑的意图，并将其作为计划提供给模型。

在Wikinews和StackExchange子集的训练中，只提供纯文本数据，而非实际的编辑，从而测试在没有编辑历史的领域的编辑能力。

实验结果可以看出PEER的表现在一定程度上超过了所有的基线，并且计划和文档提供了模型能够使用的互补信息

在Natural Edits的所有子集上评估PEER后可以发现，计划对各领域都有很大的帮助，这表明理解维基百科编辑中的计划的能力可以直接转移到其他领域。重要的是，在Natural Edits的所有子集上，PEER的领域适应性变体明显优于常规的PEER，尤其是在园艺、政治和电影子集上有很大的改进（分别为84%、71%和48%的EM-Diff），也显示了在不同领域中应用PEER时，生成合成编辑的有效性。

以上是论文修改100遍也别慌！Meta发布全新写作语言模型PEER：参考文献都会加的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1665

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

显示更多

Related knowledge

C 中的chrono库如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono库可以让你更加精确地控制时间和时间间隔，让我们来探讨一下这个库的魅力所在吧。C 的chrono库是标准库的一部分，它提供了一种现代化的方式来处理时间和时间间隔。对于那些曾经饱受time.h和ctime折磨的程序员来说，chrono无疑是一个福音。它不仅提高了代码的可读性和可维护性，还提供了更高的精度和灵活性。让我们从基础开始，chrono库主要包括以下几个关键组件：std::chrono::system_clock：表示系统时钟，用于获取当前时间。std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接内存访问技术，允许硬件设备直接与内存进行数据传输，不需要CPU干预。1)DMA操作高度依赖于硬件设备和驱动程序，实现方式因系统而异。2)直接访问内存可能带来安全风险，需确保代码的正确性和安全性。3)DMA可提高性能，但使用不当可能导致系统性能下降。通过实践和学习，可以掌握DMA的使用技巧，在高速数据传输和实时信号处理等场景中发挥其最大效能。

怎样在C 中处理高DPI显示？ Apr 28, 2025 pm 09:57 PM

在C 中处理高DPI显示可以通过以下步骤实现：1)理解DPI和缩放，使用操作系统API获取DPI信息并调整图形输出；2)处理跨平台兼容性，使用如SDL或Qt的跨平台图形库；3)进行性能优化，通过缓存、硬件加速和动态调整细节级别来提升性能；4)解决常见问题，如模糊文本和界面元素过小，通过正确应用DPI缩放来解决。

C 中的实时操作系统编程是什么？ Apr 28, 2025 pm 10:15 PM

C 在实时操作系统（RTOS）编程中表现出色，提供了高效的执行效率和精确的时间管理。1）C 通过直接操作硬件资源和高效的内存管理满足RTOS的需求。2）利用面向对象特性，C 可以设计灵活的任务调度系统。3）C 支持高效的中断处理，但需避免动态内存分配和异常处理以保证实时性。4）模板编程和内联函数有助于性能优化。5）实际应用中，C 可用于实现高效的日志系统。

怎样在C 中测量线程性能？ Apr 28, 2025 pm 10:21 PM

在C 中测量线程性能可以使用标准库中的计时工具、性能分析工具和自定义计时器。1.使用库测量执行时间。2.使用gprof进行性能分析，步骤包括编译时添加-pg选项、运行程序生成gmon.out文件、生成性能报告。3.使用Valgrind的Callgrind模块进行更详细的分析，步骤包括运行程序生成callgrind.out文件、使用kcachegrind查看结果。4.自定义计时器可灵活测量特定代码段的执行时间。这些方法帮助全面了解线程性能，并优化代码。

给MySQL表添加和删除字段的操作步骤 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，删除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段时，需指定位置以优化查询性能和数据结构；删除字段前需确认操作不可逆；使用在线DDL、备份数据、测试环境和低负载时间段修改表结构是性能优化和最佳实践。

量化交易所排行榜2025 数字货币量化交易APP前十名推荐 Apr 30, 2025 pm 07:24 PM

交易所内置量化工具包括：1. Binance（币安）：提供Binance Futures量化模块，低手续费，支持AI辅助交易。2. OKX（欧易）：支持多账户管理和智能订单路由，提供机构级风控。独立量化策略平台有：3. 3Commas：拖拽式策略生成器，适用于多平台对冲套利。4. Quadency：专业级算法策略库，支持自定义风险阈值。5. Pionex：内置16 预设策略，低交易手续费。垂直领域工具包括：6. Cryptohopper：云端量化平台，支持150 技术指标。7. Bitsgap：