目录
M3KE 数据集
多学科视角下的 M3KE 介绍及示例
多教育阶段视角下的 M3KE 介绍和示例
实验
结论
首页 科技周边 人工智能 将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

May 27, 2023 pm 09:13 PM
数据 模型

随着中文大规模语言模型在自然语言理解与自然语言生成方面展现出强大的性能,现有针对特定自然语言处理任务的中文评测基准数据集已经不足以对中文大模型进行有效地评估。传统的中文评测基准主要关注模型对于简单常识(如雨天出门需要带伞)和表层语义(如篮球比赛的报道是体育类还是科技类新闻)的理解能力,而忽略了人类复杂知识的挖掘和利用。目前,针对中文大模型复杂知识评测的数据集十分匮乏,特别是涉及我国教育体系下不同层次和不同领域的专业知识。

为了弥补这一差距,天津大学自然语言处理实验室与华为诺亚方舟实验室联合发布了 M3KE(A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models)基准数据集,以零样本、少样本形式测试中文大模型对于多级多学科知识的掌握能力。

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案


  • 论文链接:https://arxiv.org/abs/2305.10263
  • 数据链接:https://github.com/tjunlp-lab/M3KE

M3KE 数据集

数据集介绍

M3KE 收集了 20,477 个真人标准化考试题目(包含 4 个候选答案),覆盖 71 个任务,包括小学、初中、高中、大学、研究生入学考试题目,涉及人文、历史、政治、法律、教育、心理学、科学、工程技术、艺术等学科,分布如 Fig 1 所示。

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

研究人员基于两个标准构建 M3KE 数据集:

1,契合中国教育体系,覆盖多教育阶段

研究人员模仿中国学生的教育经历,即小学、初中、高中、大学等主要教育阶段,旨在评估中文大模型在不同教育阶段下的表现。由于每个教育阶段需要掌握的知识点不同(例如,在语文学科中,小学和初中的知识或考点存在明显的差异),因此,M3KE 在不同教育阶段会包含相同的学科。为了提高数据集中学科知识点的覆盖范围,研究人员选择了中国升学考试中的统考试题,包括小升初、中考、高考,研究生入学考试和中国公务员考试等真题题目。

2,覆盖多学科领域

为提高数据集的学科覆盖率,研究人员基于人文艺术、社会科学和自然科学三大类进行构建,包括:文学、理学,历史、政治、法学、教育学、心理学、科学、工程技术、艺术等学科。为进一步拓展数据集的丰富度,研究人员补充了中医、宗教以及计算机等级考试等任务。

数据集统计

Table 3 显示了 M3KE 的整体统计数据。上述四个学科类别中的任务数量分别为 12、21、31 和 7,而四个学科类别中的问题数量分别为 3,612、6,222、8,162 和 2,126。任务中包含的问题最大数量为 425,最小数量为 100。社会科学和自然科学的问题通常比艺术与人文学科和其他科目的问题更长,而它们的答案选项较短。

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

多学科视角下的 M3KE 介绍及示例

人文艺术

人文与艺术学科包括语文、艺术和历史等多个领域的学科。这些学科注重对文学和文化文物的分析和解释等,以小学语文为例,考试题目旨在评估 7 至 13 岁学生的语言运用和文学欣赏能力,如使用同义词和反义词的能力。历史学科则涵盖从古代到现代的中国和世界历史。除人文学科外,M3KE 还包括艺术科目,如舞蹈、美术、音乐、电影等,艺术是人类文化的重要组成部分,评测中文大模型在艺术领域的表现同样重要。

美术任务示例:

下面关于拉斯科洞穴壁画说法错误的是?

A. 这个壁画是在法国发现的

B. 发现的动物形象有 100 多个

C. 发现的时间为 1940 年

D. 壁画颜色以黑色为主

世界近现代史任务示例:

从尼德兰革命到法国大革命历时两个多世纪,而此后仅半个世纪资本主义就初步形成了一个世界体系,这主要是因为?

A. 法国大革命的影响得到广泛传播

B. 维也纳体系激化了各国社会矛盾

C. 工业革命使资本主义力量迅速增强

D. 殖民统治遍及世界各大洲

社会科学

社会科学重在人文学科的应用,如法律、政治、教育和心理等学科。政治课程贯穿初中、高中、大学、研究生多个教育阶段,其他学科则主要分布在大学阶段的课程中。社会科学还包括经济和管理学任务,这些任务的试题选自中国研究生入学考试中的经济学联考和管理学联考,知识涉及微观经济学、宏观经济学、管理学和逻辑学等。

刑法学任务示例:

甲欲杀乙,将毒药投入乙的饭食中。乙服食后,甲后悔,赶紧说明情况,并将乙送往医院。医院在过程中检查发现,甲所投放的 "毒药" 根本没有毒性,乙安然无恙。甲的行为属于?

A. 不构成犯罪

B. 犯罪未遂

C. 犯罪中止

D. 犯罪既遂

教育学原理任务示例:

教育研究中最基本、最常用的研究方法是?

A. 教育观察研究

B. 教育调查研究

C. 教育测量研究

D. 教育实验研究

自然科学

自然科学包括工程学、科学、医学和数学、物理学、化学、生物学等基础学科。这些学科通常需要复杂的计算、分析和逻辑推理能力。在我国教育体系中,同一学科在不同阶段会涉及不同类型的知识。例如,小学数学主要学习基本的算术运算,而高中数学则涵盖更高级的数学概念,如数列、导数、几何等。

动物生理学任务示例:

使用普鲁卡因麻醉神经纤维,影响了神经纤维传导兴奋的哪一项特征?

A. 生理完整性

B. 绝缘性

C. 双向传导性

D. 相对不疲劳性

操作系统任务示例:

目录形式对文件的检索效率影响很大,下列最高级的目录形式是?

A. 单级目录

B. 两级目录

C. 三级目录

D. 树形目录

其它

其他类型的任务包括宗教、中国公务员考试,计算机等级考试等。这些任务需要的知识不局限于上述单一层次或学科的知识。如中国公务员考试涉及常识、人文、逻辑等知识,因此研究人员将这些任务视为对中文大模型综合知识的评估。

中国公务员考试任务示例:

以前有几项研究表明,食用巧克力会增加食用者患心脏病的可能性。而一项最新的、更为可靠的研究得出的结论是:食用巧克力与心脏病发病率无关。估计这项研究成果公布以后,巧克力的消费量将会大大增加。上述推论基于以下哪项假设?

A. 尽管有些人知道食用巧克力会增加患心脏病的可能性,却照样大吃特吃

B. 人们从来也不相信进食巧克力会更容易患心脏病的说法

C. 现在许多人吃巧克力是因为他们没有听过巧克力会导致心脏病的说法

D. 现在许多人不吃巧克力完全是因为他们相信巧克力会诱发心脏病

中医学任务示例:

人参有大补元气、益气固脱的作用,而用于慢性虚弱性疾病常以何药作代用品?

丹参

党参

黄芪

太子参

多教育阶段视角下的 M3KE 介绍和示例

研究人员按照中国教育体系对数据集进行了分阶段,包括小学、初中、高中、大学及研究生入学考试。同样,研究人员还选择一些教育体系外的考试科目,如计算机等级考试和中国公务员考试等。

小学

小学语文任务示例:

下列词语书写完全正确的一项是?

A. 天籁之音   行云流水   笔走龙蛇   翻箱倒柜

B. 高山流水   轻歌曼舞   画龙点睛   别出心栽

C. 余音绕梁   巧夺天功   妙笔生花   焦躁不安

D. 黄钟大吕   惟妙惟肖   栩栩如生   精兵减政

小学数学任务示例:

一件商品,先提价 20%,以后又降价 20%,现在的价格与原来相比?

A. 提高了

B. 降低了

C. 不变

D. 不知道

初中

初中语文任务示例:

下列说法正确的一项是?

A. 《最苦与最乐》选自《梁启超文选》,作者梁启超是明代思想家、学者

B. 《邹忌讽齐王纳谏》选自《战国策》,《战国策》是战国时游说之士的策谋和言论的汇编,由东汉的刘向编订为三十三篇

C. 词又称 “长短句”,句式长短不一。兴盛于宋代,苏轼和辛弃疾是豪放派的代表人物,而李清照是婉约派的代表人物

D.《岳阳楼记》实际上是一篇借物言志的文章,寄寓了作者与民同乐的思想

初中政治任务示例:

班级要以 “崇尚法治精神” 为主题制作黑板报,小兰负责 “践行平等” 版块内容的编写。以下她搜集的素材适合入选的是?

A. 公交车上设有 “老弱病戏孕” 爱心专座

B. 中学生到革命传统教育基地参加研学活动

C. 解放军战士不畏严寒酷暑,守卫祖国边疆

D. 同学们利用节假日到街头清除小广告

高中

高中语文任务示例:

沈括在《梦溪笔谈》中说道:“天地之变,寒暑风雨,水旱螟蝗,率皆有法。” 这句话的哲学寓意是?

A. 规律是客观事物变化的根本原因

B. 规律具有客观性、普遍性  

C. 要学会用联系的观点看问题     

D. 要学会用发展的观点看问题

高中生物任务示例:

环境容纳量取决于一个种群所处的环境条件。下列叙述正确的是?

甲乙两地的灰喜鹊种群的环境容纳量一定是相同的

生活在某草原的东亚飞蝗不同年份的环境容纳量可能是相同的

当种群数量接近环境容纳量时,死亡率会升高,出生率不变

生活在微山湖中的鲫鱼和黑鱼环境容纳量是相同的

大学

大学口腔医学任务示例:

排在我国口腔癌之首的是?

A. 牙槽黏膜癌

B. 颊黏膜癌

C. 唇癌

D. 舌癌

大学经济学综合任务示例:

下列项目哪一项应计入 GDP?

A. 政府转移支付

B. 购买一辆用过的汽车

C. 企业支付的贷款和债券利息

D. 购买彩票赢得的 1 万元

其它

计算机等级考试之计算机基础任务示例:

因某工作表数据非常多,在滚动浏览时第一行的标题无法始终看到,应如何操作才能始终看到标题行,最快捷的方法是?

A. 设置 “打印标题”

B. 冻结窗格

C. 冻结首行

D. 冻结首列

宗教任务示例:

宗教能够与社会主义社会相适应的政治基础是?

A. 人民民主专政国家政权的建立

B. 广大教徒是拥护社会主义制度的,同全国人民在根本利益上是一致的

C. 中国共产党领导和执政地位的确立

D. 独立自主,自办教会

实验

评测模型

  • GLM-335M/10B/130B,由清华大学开发的预训练大语言模型,支持中、英文双语。研究人员选择 GLM 中文版的三个模型,参数规模分别为 335M, 10B 和 130B。
  • BLOOM-7.1B,Hugging Face 推出的多语言大模型,由数百名研究人员合作开发。
  • ChatGLM-6B,由清华大学开发的语言模型,使用指令数据微调,并通过基于人类反馈的强化学习进一步训练。
  • MOSS-16B-SFT, 由复旦大学开发的语言模型,实验中使用经过指令微调版的 MOSS-moon-003-SFT 版本。
  • BELLE-7B-0.2M,基于 BLOOMZ-7.1B-mt 开发的经过 20 万条指令微调的语言模型。
  • BELLE-7B-2M,基于 BLOOMZ-7.1B-mt 开发的经过 200 万条指令微调的语言模型。
  • GPT-3.5-turbo,由 OpenAI 开发的语言模型。采用人工构建的高质量指令数据,进行人类反馈强化学习训练。

Zero-shot/Few-shot 评估

在零样本设置条件下,模型要求直接回答问题;在少样本设置条件下,会预先给定模型同任务的若干示例,引导模型进行情景学习(In-Context Learning)。在 M3KE 中,所有题目均使用准确率计算得分。

不同学科类别下的评测结果

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案


将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

不同教育阶段下的评测结果

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

实验结果分析

1,在零样本评估中(Table 4&6),所有参数小于 10B 的预训练语言模型(未经过微调)准确率都低于随机结果(25%),少样本的设置(Table 5&7)有助于模型性能的提升。但是,GLM130B 在零样本评估的结果好于少样本评估结果,原因可能是 GLM130B 在预训练阶段已经使用了部分指令数据,使其已经具备较好的零样本学习能力。

2,大部分经过微调后的中文大模型仅达到随机结果(25%)水平,即使在小学阶段的测试中(Table 6&7)。这说明较低教育阶段中的知识仍然是当前中文大模型的短板之一。

3,在零样本评估中,BELLE-7B-2M 取得了中文大模型中最好的成绩,但仍然与 GPT-3.5-turbo 有 14.8% 的差距。此外,有监督微调指令的数量也是一个重要的因素,经过两百万指令微调的 BELLE-7B-2M 好于经过二十万指令微调的 BELLE-7B-0.2M(Table 4)。

4,少样本的设置在大多数情况下并没有带来性能的改善(Table 5&7 vs Table 4&6),尤其是经过指令微调或基于人类反馈的强化学习训练后的语言模型。这表明对预训练语言模型进行指令微调可以显著提升语言模型的零样本学习能力,不需要额外的示例就能理解指令或问题的意图。

结论

研究人员提出了一个新的基准 M3KE,用于评估中文大模型在多个学科和不同教育阶段下中文大模型知识掌握能力。M3KE 包含 71 个任务和 20,447 个问题。研究人员发现,所有参与评估的开源中文大模型都明显落后于 GPT-3.5。研究人员希望 M3KE 有助于发现中文大模型的知识漏洞,促进中文大模型进一步的发展。

M3KE 中所有的任务

将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案

以上是将入学考试题搬进中文大模型数据集,20477道题目,还带4个候选答案的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! 开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计! Apr 03, 2024 pm 12:04 PM

0.这篇文章干了啥?提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。下面一起来阅读一下这项工作~1.论文信息标题:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下,一个人工智能模型,不仅拥有超越传统计算的能力,还能以更低的成本实现更高效的性能。这不是科幻,DeepSeek-V2[1],全球最强开源MoE模型来了。DeepSeek-V2是一个强大的专家混合(MoE)语言模型,具有训练经济、推理高效的特点。它由236B个参数组成,其中21B个参数用于激活每个标记。与DeepSeek67B相比,DeepSeek-V2性能更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 你好,电动Atlas!波士顿动力机器人复活,180度诡异动作吓坏马斯克 Apr 18, 2024 pm 07:58 PM

波士顿动力Atlas,正式进入电动机器人时代!昨天,液压Atlas刚刚「含泪」退出历史舞台,今天波士顿动力就宣布:电动Atlas上岗。看来,在商用人形机器人领域,波士顿动力是下定决心要和特斯拉硬刚一把了。新视频放出后,短短十几小时内,就已经有一百多万观看。旧人离去,新角色登场,这是历史的必然。毫无疑问,今年是人形机器人的爆发年。网友锐评:机器人的进步,让今年看起来像人类的开幕式动作、自由度远超人类,但这真不是恐怖片?视频一开始,Atlas平静地躺在地上,看起来应该是仰面朝天。接下来,让人惊掉下巴

替代MLP的KAN,被开源项目扩展到卷积了 替代MLP的KAN,被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初,来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如,作者表示,他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说,DeepMind的MLP有大约300,000个参数,而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础,MLP基于通用逼近定理,而KAN基于Kolmogorov-Arnold表示定理。如下图所示,KAN在边上具

iPhone上的蜂窝数据互联网速度慢:修复 iPhone上的蜂窝数据互联网速度慢:修复 May 03, 2024 pm 09:01 PM

在iPhone上面临滞后,缓慢的移动数据连接?通常,手机上蜂窝互联网的强度取决于几个因素,例如区域、蜂窝网络类型、漫游类型等。您可以采取一些措施来获得更快、更可靠的蜂窝互联网连接。修复1–强制重启iPhone有时,强制重启设备只会重置许多内容,包括蜂窝网络连接。步骤1–只需按一次音量调高键并松开即可。接下来,按降低音量键并再次释放它。步骤2–该过程的下一部分是按住右侧的按钮。让iPhone完成重启。启用蜂窝数据并检查网络速度。再次检查修复2–更改数据模式虽然5G提供了更好的网络速度,但在信号较弱

特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! 特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个! May 06, 2024 pm 04:13 PM

特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。正常速度下,它分拣电池(特斯拉的4680电池)是这样的:官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣:这次放出的视频亮点之一在于Optimus在厂子里完成这项工作,是完全自主的,全程没有人为的干预。并且在Optimus的视角之下,它还可以把放歪了的电池重新捡起来放置,主打一个自动纠错:对于Optimus的手,英伟达科学家JimFan给出了高度的评价:Optimus的手是全球五指机器人里最灵巧的之一。它的手不仅有触觉

FisheyeDetNet:首个基于鱼眼相机的目标检测算法 FisheyeDetNet:首个基于鱼眼相机的目标检测算法 Apr 26, 2024 am 11:37 AM

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

See all articles