被GPT带飞的In-Context Learning发展现状如何?这篇综述梳理明白了
随着语言模型和语料库规模的逐渐扩大,大型语言模型(LLM)展现出更多的潜力。近来一些研究表明,LLM 可以使用 in-context learning(ICL)执行一系列复杂任务,例如解决数学推理问题。
来自北京大学、上海 AI Lab 和加州大学圣巴巴拉分校的十位研究者近期发布了一篇关于 in-context learning 的综述论文,详细梳理了 ICL 研究的当前进展。
论文地址:https://arxiv.org/pdf/2301.00234v1.pdf
in-context learning 的核心思路是类比学习,下图描述了语言模型如何使用 ICL 进行决策。
首先,ICL 需要一些样例来形成演示语境,这些样例通常用自然语言模板编写。然后,ICL 将查询问题和演示语境相联系,形成 prompt,并且将其输入语言模型进行预测。与监督学习需要使用反向梯度更新模型参数的训练阶段不同,ICL 不需要参数更新即可使预训练语言模型直接执行预测任务,并且模型有望学习演示样例中隐藏的模式,并据此做出正确的预测。
作为一种新的范式,ICL 有很多吸引人的优势。首先,演示样例用自然语言格式编写,这为与大语言模型关联提供了一个可解释的接口。通过改变演示样例和模板(Liu et al., 2022; Lu et al., 2022; Wu et al., 2022; Wei et al., 2022c),这种范式使将人类知识纳入语言模型变得更加容易。第二,in-context learning 类似于人类通过类比学习的决策过程。第三,与监督式训练相比,ICL 是一个无需训练的学习框架。这不仅可以大大降低模型适应新任务的计算成本,而且还可以使语言模型即服务(LMaaS,Sun et al., 2022)成为可能,并轻松应用于大规模的现实任务。
尽管 ICL 有着大好的前景,但仍存在许多值得探究的问题,包括它的性能。例如原始的 GPT-3 模型就具备一定的 ICL 能力,但一些研究发现,通过预训练期间的适应,这种能力还可以获得显著的提升。此外,ICL 的性能对特定的设置很敏锐,包括 prompt 模板、语境样例的选择和样例顺序等。此外,ICL 的工作机制虽然看似合理,但仍不够清晰明了,能够初步解释其工作机制的研究也不多。
本篇综述论文总结道,ICL 的强大性能依赖于两个阶段:
- 培养大型语言模型 ICL 能力的训练阶段;
- 大型语言模型根据特定任务演示进行预测的推理阶段。
在训练阶段,语言模型直接按照语言建模目标进行训练,例如从左到右的生成。尽管这些模型并没有专门针对 in-context learning 进行优化,但 ICL 的能力依旧令人惊喜。现有的 ICL 研究基本以训练良好的语言模型为主干。
在推理阶段,由于输入和输出的 label 都是用可解释的自然语言模板表征的,因此 ICL 性能可以从多个角度得到优化。该综述论文进行了详细的描述和比较,并选择合适的例子进行演示,针对不同的任务设计具体的评分方法。
这篇综述论文的大致内容和结构如下图所示,包括:ICL 的正式定义 (§3)、warmup 方法 (§4)、prompt 设计策略 (§5) 和评分函数 (§6)。
此外,§7 深入阐述了当前为揭开 ICL 背后工作原理所做的探索。§8 进一步为 ICL 提供了有用的评估与资源,§9 介绍了能显示出 ICL 有效性的潜在应用场景。最后,§10 总结了 ICL 领域存在的挑战和潜在的方向,为该领域的进一步发展提供参考。
感兴趣的读者可以阅读论文原文,了解更多研究细节。
以上是被GPT带飞的In-Context Learning发展现状如何?这篇综述梳理明白了的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。而且测试并不是在JAX性能表现最好的TPU上完成的。虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。但未来,也许有更多的大模型会基于JAX平台进行训练和运行。模型最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras2进行了基准测试。首先,他们为生成式和非生成式人工智能任务选择了一组主流

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

这篇论文探讨了在自动驾驶中,从不同视角(如透视图和鸟瞰图)准确检测物体的问题,特别是如何有效地从透视图(PV)到鸟瞰图(BEV)空间转换特征,这一转换是通过视觉转换(VT)模块实施的。现有的方法大致分为两种策略:2D到3D和3D到2D转换。2D到3D的方法通过预测深度概率来提升密集的2D特征,但深度预测的固有不确定性,尤其是在远处区域,可能会引入不准确性。而3D到2D的方法通常使用3D查询来采样2D特征,并通过Transformer学习3D和2D特征之间对应关系的注意力权重,这增加了计算和部署的

写在前面项目链接:https://nianticlabs.github.io/mickey/给定两张图片,可以通过建立图片之间的对应关系来估计它们之间的相机姿态。通常,这些对应关系是二维到二维的,而我们估计的姿态在尺度上是不确定的。一些应用,例如随时随地实现即时增强现实,需要尺度度量的姿态估计,因此它们依赖于外部的深度估计器来恢复尺度。本文提出了MicKey,这是一个关键点匹配流程,能够够预测三维相机空间中的度量对应关系。通过学习跨图像的三维坐标匹配,我们能够在没有深度测试的情况下推断出度量相对
