將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案
隨著中文大規模語言模型在自然語言理解與自然語言生成方面展現出強大的性能,現有針對特定自然語言處理任務的中文評測基準數據集已經不足以對中文大模型進行有效地評估。傳統的中文評測基準主要關注模型對於簡單常識(如雨天出門需要帶傘)和表層語義(如籃球比賽的報道是體育類還是科技類新聞)的理解能力,而忽略了人類複雜知識的挖掘和利用。目前,針對中文大模型複雜知識評測的資料集十分匱乏,特別是涉及我國教育體系下不同層次和不同領域的專業知識。
為了彌補這一差距,天津大學自然語言處理實驗室與華為諾亞方舟實驗室聯合發布了M3KE(A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models)基準資料集,以零樣本、少樣本形式測試中文大模型對於多層次多學科知識的掌握能力。
- #論文連結:https://arxiv .org/abs/2305.10263
- #資料連結:https://github.com/tjunlp-lab/M3KE
##M3KE 資料集
資料集介紹
M3KE 收集了20,477 個真人標準化考試題目(包含4個候選答案),涵蓋71 個任務,包括小學、初中、高中、大學、研究生入學考試題目,涉及人文、歷史、政治、法律、教育、心理學、科學、工程技術、藝術等學科,分佈如Fig 1 所示。
研究人員基於兩個標準建立M3KE 資料集:
1,契合中國教育體系,涵蓋多重教育階段
研究者模仿中國學生的教育經歷,即小學、國中、高中、大學等主要教育階段,旨在評估中文大模型在不同教育階段的表現。由於每個教育階段需要掌握的知識點不同(例如,在語文學科中,小學和初中的知識或考點存在明顯的差異),因此,M3KE 在不同教育階段會包含相同的學科。為了提高資料集中學科知識點的涵蓋範圍,研究人員選擇了中國升學考試中的統考試題,包括小升初、中考、高考,研究生入學考試和中國公務員考試等真題目。
2,涵蓋多學科領域
#為提高資料集的學科覆蓋率,研究人員基於人文藝術、社會科學、自然科學三大類進行構建,包括:文學、理學,歷史、政治、法學、教育、心理學、科學、工程技術、藝術等學科。為進一步拓展資料集的豐富度,研究人員補充了中醫、宗教以及電腦等級考試等任務。
資料集統計資料
Table 3 顯示了 M3KE 的整體統計資料。上述四個學科類別中的任務數量分別為 12、21、31 和 7,而四個學科類別中的問題數量分別為 3,612、6,222、8,162 和 2,126。任務中包含的問題最大數量為 425,最小數量為 100。社會科學和自然科學的問題通常比藝術與人文學科和其他科目的問題更長,而它們的答案選項較短。
多學科視角下的M3KE 介紹及範例
人文藝術
人文與藝術學科包括語文、藝術和歷史等多個領域的學科。這些學科著重對文學和文化文物的分析和解釋等,以小學語文為例,考試題目旨在評估 7 至 13 歲學生的語言運用和文學欣賞能力,如使用同義詞和反義詞的能力。歷史學科則涵蓋從古代到現代的中國和世界歷史。除人文學科外,M3KE 還包括藝術科目,如舞蹈、美術、音樂、電影等,藝術是人類文化的重要組成部分,評測中文大模型在藝術領域的表現同樣重要。
美術任務範例:
下面關於拉斯科洞穴壁畫說法錯誤的是?
A. 這個壁畫是在法國發現的
B. 發現的動物形像有100 多個
C. 發現的時間為1940 年
D. 壁畫顏色以黑色為主
世界近現代史任務例:
從尼德蘭革命到法國大革命歷時兩個多世紀,而此後僅半個世紀資本主義就初步形成了一個世界體系,這主要是因為?
A. 法國大革命的影響力已廣為傳播
B. 維也納體系激化了各國社會矛盾
#C. 工業革命使資本主義力量迅速增強
D. 殖民統治遍及世界各大洲
社會科學
社會科學重在人文學科的應用,如法律、政治、教育和心理學等學科。政治課程貫穿國中、高中、大學、研究生多個教育階段,其他學科則主要分佈在大學階段的課程中。社會科學也包括經濟和管理學任務,這些任務的試題選自中國研究生入學考試中的經濟學聯考和管理學聯考,知識涉及微觀經濟學、宏觀經濟學、管理學和邏輯學等。
刑法學任務範例:
甲欲殺乙,將毒藥投入乙的飯食中。乙服食後,甲後悔,趕緊說明狀況,並將乙送往醫院。醫院在過程中檢查發現,甲所投放的 "毒藥" 根本沒有毒性,乙安然無恙。甲的行為屬於?
A. 不構成犯罪
B. 未遂犯罪
C. 犯罪中止
D. 犯罪既遂
教育學原理任務範例:
教育研究中最基本、最常用的研究方法是?
A. 教育觀察研究
B.教育調查研究
C.教育測量研究
D.教育實驗研究
# 自然科學
#######自然科學包括工程、科學、醫學和數學、物理、化學、生物學等基礎學科。這些學科通常需要複雜的計算、分析和邏輯推理能力。在我國教育體系中,同一學科在不同階段會涉及不同類型的知識。例如,小學數學主要學習基本的算術運算,而高中數學則涵蓋更高階的數學概念,如數列、導數、幾何等。 ############動物生理任務範例:############使用普魯卡因麻醉神經纖維,影響了神經纖維傳導興奮的哪一項特徵? ######
A. 生理完整性
B. 絕緣性
C. 雙向傳導性
D. 相對不疲勞性
作業系統任務範例:
目錄形式對檔案的檢索效率影響很大,下列最高級的目錄形式是?
A. 單級目錄
B. 兩層目錄
C. 三級目錄
D. 樹狀目錄
#它它
##其他類型的任務包括宗教、中國公務員考試,電腦等級考試等。這些任務所需的知識不限於上述單一層次或學科的知識。如中國公務員考試涉及常識、人文、邏輯等知識,因此研究人員將這些任務視為對中文大模型綜合知識的評估。
中國公務員考試任務範例:
#以前有幾項研究表明,食用巧克力會增加食用者心臟病的可能性。而一項最新的、更可靠的研究得出的結論是:食用巧克力與心臟病發病率無關。估計這項研究成果公佈以後,巧克力的消費量將會大大增加。上述推論是基於下列哪一項假設?
A. 儘管有些人知道食用巧克力會增加心臟病的可能性,卻照樣大吃特吃
B. 人們從來也不相信吃巧克力會更容易患心臟病的說法
C. 現在許多人吃巧克力是因為他們沒有聽過巧克力會導致心臟病的說法
D. 現在許多人不吃巧克力完全是因為他們相信巧克力會誘發心臟病
中醫學任務範例:
#人參有大補元氣、益氣固脫的作用,而用於慢性虛弱性疾病常以何藥作代用品?
丹參
黨參
黃耆
太子參
多元教育階段視角下的M3KE 介紹與範例研究者依照中國教育體系對資料集進行了分階段,包括小學、初中、高中、大學及研究生入學考試。同樣,研究人員也選擇一些教育體系外的考試科目,如電腦等級考試和中國公務員考試等。
小學
小學語文任務範例:
下列字詞書寫完全正確的一項是?
A. 天籟之音 行雲流水 筆走龍蛇 翻箱倒櫃
B. 高山流水 輕歌曼舞者唱出龍點唱龍C. 餘音繞梁 巧奪天功 妙筆生花 焦躁不安
D. 黃鐘大呂 惟妙惟妙惟妙愷栩栩如生# 精減政兵減## #小學數學任務範例:
一件商品,先提價20%,以後又降價20%,現在的價格與原來相比?
A. 提高了
#
B. 降低了
C. 不變
D. 不知道
#初中
#初中語文任務範例:
下列說法正確的一項是?
A. 《最苦與最樂》選自《梁啟超文選》,作者梁啟超是明代思想家、學者
B. 《鄒忌諷齊王納諫》選自《戰國策》,《戰國策》是戰國時遊說之士的策謀和言論的彙編,由東漢的劉向編訂為三十三篇
C. 字又稱“長短句”,句式長短不一。興盛於宋代,蘇遼和辛棄疾是豪放派的代表人物,而李清照是婉約派的代表人物
D.《岳陽樓記》其實是一篇借物言志的文章,寄寓了作者與民同樂的思想
初中政治任務範例:
班級要以「崇尚法治精神」 為主題製作黑板報,小蘭負責「實踐平等」 版塊內容的編寫。以下她蒐集的素材適合入選的是?
A. 公車上設有「老弱病戲孕」 愛心專座
##B. 中學生到革命傳統教育基地參加研讀活動
C. 解放軍戰士不畏嚴寒酷暑,守護祖國邊疆
D. 同學們利用假日到街頭清除小廣告
高中
高中語言任務範例:
沈括在《夢溪筆談》中說:「天地之變,寒暑風雨,水旱螟蝗,率皆有法。」 這句話的哲學寓意是?
A. 規律是客觀事物變化的根本原因
#B. 規律具有客觀性、普遍性
##C. 要學會用連結的觀點看問題
D. 要學習用發展的觀點看問題
高中生物任務範例:
環境容納量取決於一個族群所處的環境條件。下列敘述正確的是?
甲乙兩地的灰喜鵲種群的環境容納量一定是相同的
生活在某草原的東亞飛蝗不同年份的環境容納量可能是相同的當族群數量接近環境容納量時,死亡率會升高,出生率不變
##生活在微山湖中的鯽魚和黑魚環境容納量是相同的
大學
大學口腔醫學任務例:
排在我國口腔癌之首的是?
A. 齒槽黏膜癌
B. 頰黏膜癌
C. 唇癌症
D.舌癌
大學經濟學綜合任務範例:############下列項目哪一項應計入GDP? ############A. 政府轉移支付#######
B. 購買一輛用過的汽車
C. 企業支付的貸款和債券利息
D.購買彩票贏得的1 萬元
其它
電腦等級考試之計算機基礎任務範例:
因為某工作表資料非常多,在捲動瀏覽時第一行的標題無法始終看到,應如何操作才能始終看到標題行,最快捷的方法是?
A. 設定「列印標題」
#B. 凍結窗格
C.凍結首行
D. 凍結首列
#宗教任務範例:
##宗教能夠與社會主義社會相適應的政治基礎是?
A. 人民民主專政國家政權的建立
#B. 廣大教徒是擁護社會主義制度的,同全國人民在根本利益上是一致的
C. 中國共產黨領導和執政地位的確立
##D. 獨立自主,自辦教會#實驗
評測模型
- #GLM-335M/10B/130B,由清華大學開發的預訓練大語言模型,支援中、英文雙語。研究者選擇 GLM 中文版的三個模型,參數規模分別為 335M, 10B 和 130B。
- BLOOM-7.1B,Hugging Face 推出的多語言大模型,由數百名研究人員合作開發。
- ChatGLM-6B,由清華大學開發的語言模型,使用指令資料微調,並透過基於人類回饋的強化學習進一步訓練。
- MOSS-16B-SFT, 由復旦大學開發的語言模型,實驗中使用經過指令微調版的 MOSS-moon-003-SFT 版本。
- BELLE-7B-0.2M,基於 BLOOMZ-7.1B-mt 開發的經過 20 萬條指令微調的語言模型。
- BELLE-7B-2M,基於 BLOOMZ-7.1B-mt 開發的經過 200 萬條指令微調的語言模型。
- GPT-3.5-turbo,由 OpenAI 開發的語言模型。採用人工建構的高品質指令數據,進行人類回饋強化學習訓練。
Zero-shot/Few-shot 評估
在零樣本設定條件下,模型要求直接回答問題;在少樣本設定條件下,會預先給定模型同任務的若干範例,引導模型進行情境學習(In-Context Learning)。在 M3KE 中,所有題目均使用準確率計算得分。不同學科類別下的評測結果
實驗結果分析 1,在零樣本評估中(Table 4&6),所有參數小於10B 的預訓練語言模型(未經過微調)準確率都低於隨機結果(25%),少樣本的設定(Table 5&7)有助於模型效能的提升。但是,GLM130B 在零樣本評估的結果優於少樣本評估結果,原因可能是 GLM130B 在預訓練階段已經使用了部分指令數據,使其已經具備較好的零樣本學習能力。 2,大部分經過微調後的中文大模型僅達到隨機結果(25%)水平,即使在小學階段的測試中(Table 6&7)。這說明較低教育階段中的知識仍然是當前中文大模型的短板之一。 3,在零樣本評估中,BELLE-7B-2M 取得了中文大模型中最好的成績,但仍與 GPT-3.5-turbo 有 14.8% 的差距。此外,有監督微調指令的數量也是一個重要的因素,經過兩百萬指令微調的 BELLE-7B-2M 比經過二十萬指令微調的 BELLE-7B-0.2M(Table 4)好。 4,少樣本的設定在大多數情況下並沒有帶來表現的改善(Table 5&7 vs Table 4&6),尤其是經過指令微調或基於人類回饋的強化學習訓練後的語言模型。這顯示對預訓練語言模型進行指令微調可以顯著提升語言模型的零樣本學習能力,不需要額外的範例就能理解指令或問題的意圖。 研究者提出了一個新的基準M3KE,用於評估中文大模型在多個學科和不同教育階段下中文大模型知識掌握能力。 M3KE 包含 71 個任務和 20,447 個問題。研究人員發現,所有參與評估的開源中文大模型都明顯落後 GPT-3.5。研究人員希望 M3KE 有助於發現中文大模型的知識漏洞,促進中文大模型進一步的發展。 M3KE 中所有的任務結論
以上是將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
