目录
训练
添加上下文
首页 科技周边 人工智能 陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

Feb 04, 2024 am 09:30 AM
软件 ai

Transformer的技能树是越来越厉害了。

来自马萨诸塞大学、谷歌和伊利诺伊大学厄巴纳-香槟分校(UIUC)的研究人员,最近发表了一篇论文,他们通过使用大型语言模型,成功地实现了自动生成完整定理证明的目标。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

论文地址:https://arxiv.org/pdf/2303.04910.pdf

这篇工作以Baldur(北欧神话中雷神Thor的兄弟)命名,首次证明了Transformer可以生成全证明,还表明在为模型提供额外上下文时,可以改进模型先前的证明。

该论文在2023年12月的ESEC/FSE(ACM欧洲软件工程联合会议和软件工程基础研讨会)上发表,并荣获杰出论文奖。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

众所周知,软件中不可避免地存在着bug,这对一般应用程序或网站来说可能不会带来太大问题。然而,对于关键系统背后的软件,如加密协议、医疗设备和航天飞机,我们必须确保没有任何错误。

——一般的代码审查和测试并不能给出这个保证,这需要形式验证(formal verification)。

对于formal verification,ScienceDirect给出的解释为:

the process of mathematically checking that the behavior of a system, described using a formal model, satisfies a given property, also described using a formal model

指的是从数学上检查,使用形式模型描述的系统行为,是否满足给定属性的过程。

简单来说就是,利用数学分析的方法,通过算法引擎建立模型,对待测设计的状态空间进行穷尽分析的验证。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

形式化软件验证,对于软件工程师来说是最具挑战性的任务之一。例如CompCert,使用Coq交互式定理证明器验证的C编译器,是无处不在的GCC和LLVM等使用的唯一编译器。

然而,手动形式验证(编写证明)的成本却相当巨大,——C编译器的证明是编译器代码本身的三倍以上。

所以,形式验证本身是一项“劳动密集型”的任务,研究人员也在探索自动化的方法。

比如Coq和Isabelle等证明助手,通过训练一个模型来一次预测一个证明步骤,并使用模型搜索可能的证明空间。

而本文的Baldur首次在这个领域引入了大语言模型的能力,在自然语言文本和代码上训练,并在证明上进行微调,

Baldur可以一次就生成定理的完整证明,而不是一次一个步骤。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

如上图所示,仅使用定理语句作为证明生成模型的输入,然后从模型中抽取证明尝试,并使用Isabelle执行证明检查。

如果Isabelle接受了证明尝试而没有错误,就说明证明成功;否则从证明生成模型中抽取另一个证明尝试。

Baldur在6336个Isabelle/HOL定理及其证明的基准上进行评估,从经验上证明了完整证明生成、修复和添加上下文的有效性。

另外,这个工具之所以叫Baldur,可能是因为当前最好的自动证明生成工具叫做Thor。

Thor的证明率更高(57%),它使用较小的语言模型结合搜索可能证明空间的方法预测证明的下一步,而Baldur的优势在于它能够生成完整的证明。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

不过Thor和Baldur两兄弟也可以一起工作,这样可能把证明率提升到接近66%。

自动生成完整证明

Baldur由Google的大语言模型Minerva提供支持,Minerva在科学论文和包含数学表达式的网页上进行训练,并对有关证明和定理的数据进行了微调。

Baldur可以与定理证明助手Isabelle合作,Isabelle对证明结果进行检查。当给定一个定理陈述时,Baldur几乎在41%的时间内能够生成一个完整的证明。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

为了进一步提高Baldur的性能,研究人员向模型提供了额外的上下文信息(比如其他定义、或理论文件中的定理陈述),这使证明率提高到47.5%。

这意味着Baldur能够获取上下文,并使用它来预测新的正确证明,——类似于程序员,当了解了相关方法和代码之后,他们更有可能修复程序中的错误。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

下面举个例子(fun_sum_commute定理):

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

这个定理来自形式证明档案中一个名为多项式的项目。

当人工编写证明的时候,会区分两种情况:集合是有限的或者不是有限的:

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

所以,对于模型来说,输入是定理陈述,而目标输出是这个人工编写的证明。

Baldur认识到这里需要归纳,并应用了一种特殊的归纳法则,称为infinite_finite_induct,遵循与人类书面证明相同的总体方法,但更简洁。

而因为需要归纳,Isabelle使用的Sledgehammer默认无法证明这个定理。

训练

为了训练证明生成模型,研究人员构建了一个新的证明生成数据集。

现有数据集包含单个证明步骤的示例,每个训练示例包括证明状态(输入)和要应用的下一个证明步骤(目标)。

给定一个包含单个证明步骤的数据集,这里需要创建一个新数据集,以便训练模型一次预测整个证明。

研究人员从数据集中提取每个定理的证明步骤,并将它们连接起来以重建原始证明。

证明修复

还是以上面的fun_sum_commute为例,

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

Baldur首次生成的证明尝试,在证明检查器中失败。

Baldur试图应用归纳法,但未能首先将证明分解为两种情况(有限集与无限集)。Isabelle返回以下错误消息:

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

为了从这些字符串中派生出一个证明修复训练示例,这里将定理陈述、失败的证明尝试和错误消息连接起来作为输入,并使用正确的人工编写的证明作为目标。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

上图详细介绍了训练数据的创建过程。

使用证明生成模型,针对原始训练集中的每个问题,对温度为0的证明进行采样。

使用校对助手,记录所有失败的校样及其错误消息,然后,继续构建新的证明修复训练集。

对于每个原始训练示例,将定理语句、证明生成模型生成的(不正确的)候选证明以及相应的错误消息连接起来,以获得新训练示例的输入序列。

添加上下文

在定理陈述之前添加理论文件的行,作为额外的上下文。比如下图这样:

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

Baldur中带有上下文的证明生成模型,可以利用这些附加信息。出现在fun_sum_commute定理语句中的字符串,在这个上下文中再次出现,因此围绕它们的附加信息可以帮助模型做出更好的预测。

上下文可以是陈述(定理、定义、证明),还可以是自然语言注释。

为了利用LLM的可用输入长度,研究人员首先从同一个理论文件中添加多达50个语句。

在训练过程中,首先对所有这些语句进行标记化,然后截断序列的左侧以适应输入长度。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

上图展示了有上下文和无上下文的生成模型的证明成功率与证明尝试次数的关系图。我们可以看出,具有上下文的证明生成模型始终优于普通生成模型。

陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好

上图展示了不同尺寸和温度模型的已验证定理与推理成本之比。

我们可以看到生成模型的证明成功率,以及8B模型和62B模型的上下文与证明尝试次数的关系。

具有上下文的62B证明生成模型优于具有上下文的8B模型。

不过,作者在这里强调,由于这些实验的成本较高,他们也无法调整超参数,62B模型如果经过优化可能会表现得更好。

以上是陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1675
14
CakePHP 教程
1429
52
Laravel 教程
1333
25
PHP教程
1278
29
C# 教程
1257
24
AI和作曲家:增强代码质量和开发 AI和作曲家:增强代码质量和开发 May 09, 2025 am 12:20 AM

AI在Composer中主要通过依赖推荐、依赖冲突解决和代码质量提升来提高开发效率和代码质量。1.AI可以根据项目需求推荐合适的依赖包。2.AI提供智能解决方案来处理依赖冲突。3.AI审查代码并提供优化建议,提升代码质量。通过这些功能,开发者可以更专注于业务逻辑的实现。

币圈十大加密货币交易所排行榜 十大数字货币交易平台2025年最新排名 币圈十大加密货币交易所排行榜 十大数字货币交易平台2025年最新排名 May 08, 2025 pm 10:45 PM

币圈十大加密货币交易所排名:1. Binance:全球领先,提供高效交易和多种金融产品。2. OKX:创新多样,支持多种交易类型。3. Huobi:稳定可靠,服务优质。4. Coinbase:新手友好,界面简洁。5. Kraken:专业交易者首选,工具强大。6. Bitfinex:高效交易,交易对丰富。7. Bittrex:安全合规,监管合作。8. Poloniex等等。

币圈十大虚拟币交易所app 2025年币圈十大数字货币交易所最新排行榜 币圈十大虚拟币交易所app 2025年币圈十大数字货币交易所最新排行榜 May 12, 2025 pm 06:00 PM

币圈十大虚拟币交易所app:1. Binance,2. OKX,3. Huobi,4. Coinbase,5. Kraken,6. Bitfinex,7. Bybit,8. KuCoin,9. Gemini,10. Bitstamp,这些平台因其交易量、安全性和用户体验而备受欢迎。

如何设置、获取和删除 WordPress Cookie(像专业人士一样) 如何设置、获取和删除 WordPress Cookie(像专业人士一样) May 12, 2025 pm 08:57 PM

您想了解如何在WordPress网站上使用cookie吗?Cookie是在用户浏览器中存储临时信息的有用工具。您可以使用此信息通过个性化和行为定位来增强用户体验。在本终极指南中,我们将向您展示如何像专业人士一样设置、获取和删除WordPresscookie。注意:这是一个高级教程。它要求您精通HTML、CSS、WordPress网站和PHP。什么是Cookie?Cookie是用户访问网站时创建并存储在用户浏览

2025年火币APKV10.50.0下载指南 怎么下载 2025年火币APKV10.50.0下载指南 怎么下载 May 12, 2025 pm 08:48 PM

火币APKV10.50.0下载指南:1、点击文中直达链接;2、选择正确的下载包;3、填写注册信息;4、开始火币交易流程。

2025年火币APKV10.50.0下载地址 2025年火币APKV10.50.0下载地址 May 12, 2025 pm 08:42 PM

火币APKV10.50.0下载指南:1、点击文中直达链接;2、选择正确的下载包;3、填写注册信息;4、开始火币交易流程。

什么是币圈 币圈十大交易所一览 什么是币圈 币圈十大交易所一览 May 08, 2025 pm 09:45 PM

币圈是加密货币市场的俗称,涵盖比特币、以太坊等数字货币的交易、投资、项目开发及衍生金融活动。这一领域以区块链技术为基础,具有高波动性、全球化、去中心化等特点,吸引了大量投资者和创业者参与。以下是 2025 年全球十大加密货币交易所的详细分析,结合市场动态、合规性及中国政策进行说明:

2025年火币APKV10.50.0安装方法 APK指南 2025年火币APKV10.50.0安装方法 APK指南 May 12, 2025 pm 08:27 PM

火币APKV10.50.0下载指南:1、点击文中直达链接;2、选择正确的下载包;3、填写注册信息;4、开始火币交易流程。

See all articles