Qwen2.5-Moth入門
在過去的幾年中,在研究和提高大型語言模型的推理能力方面取得了重大進展,重點是提高他們在解決解決方面的水平
算術和數學問題。
具有良好算術和數學推理的模型可以幫助:
- 個性化學習: AI驅動的導師可以適應各個學生的需求,使他們更有效地了解複雜的數學概念。
- 解決問題的援助:自動逐步解釋解決問題可改善學生的參與和理解。
- 課程設計:在代數和微積分等主題中創建適應性和漸進的學習模塊。
本文探討了數學推理的進步如何推動QWEN2.5-MATH等人工智能模型及其在個性化學習,解決問題和課程設計中的應用。
學習目標
- 了解並探索QWEN2.5-MATH系列及其組成部分。
- 了解QWEN2.5-MATH模型體系結構。
- 在QWEN2.5-MATH上獲得動手接觸,並進行示例。
- 了解QWEN2.5-MATH在各種基準測試中的性能。
目錄
- 什麼是QWEN2.5-MOTH?
- Qwen2.5-Math vs Qwen2-Math
- 優化培訓數據
- 有效的模型培訓
- 優化模型性能
- 運行演示
- 結論
- 常見問題
什麼是QWEN2.5-MOTH?
QWEN2.5-MATH系列是阿里巴巴雲的QWEN系列開源,特定於數學的大型語言模型的最新成員。它遵循Qwen2-Math的較早版本,這是一系列基於Qwen2 LLM的專業數學語言模型。這些模型表現出了出色的數學功能,超過了開源替代方案,甚至超過了一些封閉源模型,例如GPT-4O。
該系列展示了有關中文和英語數學基準的QWEN2-MATH系列的顯著性能提高。雖然該系列僅應用思考鏈(COT)來解決特定於英語的數學問題,但QWEN2.5-MATH系列通過納入COT和工具集成推理(TIR)來擴展其功能,以有效地解決中文和英語的數學問題。
Qwen2.5-Math vs Qwen2-Math
QWEN2.5-MATH和QWEN2-MATH之間的比較突出了數學推理和解決問題的能力的進步,在阿里巴巴雲的特定於數學語言模型的最新迭代中實現了。
財產 | Qwen2-Math | QWEN2.5-MATH |
---|---|---|
培訓前數據大小 | 700b令牌(來自Qwen Math Corpus V1) | 超過1T令牌(來自QWEN MATH COPUS V2) |
支持語言 | 英語 | 英語和中文 |
方法 | 經營鏈(COT) | 經過思考鏈(COT),工具集成推理(TIR) |
基準分數(GSM8K,數學和MMLU-STEM) | 89.1,60.5,79.1 | 90.8,66.8,82.8 |
模型變體 | QWEN2-MATH-1.5B/7B/72B | QWEN2.5-MATH-1.5B/7B/72B |
優化培訓數據
QWEN2.5-MATH系列是使用QWEN MATH COPUS V2培訓的,其中包括英語和中文的1萬億高質量的數學數據令牌。該數據集包括使用QWEN2-MATH-72B - 教學模型生成的綜合數學數據以及通過多個召回週期從Web內容,書籍和代碼存儲庫中採購的匯總數學中國數據。
經營鏈(COT)數據集
QWEN2.5-MATH的經營鏈(COT)數據集是旨在提高模型推理能力的數學問題的全面集合。它包括:
- 580k英語和500K數學問題,包括註釋和合成項目。
- 從GSM8K,MATH和NUMINAMATH等來源得出的註釋數據。
工具集成推理(TIR)數據集
為了解決COT提示所面臨的計算和算法挑戰,例如求解二次方程或計算特徵值 - 引入了工具集成推理(TIR)數據集。該數據集通過使其能夠將Python解釋器用於推理任務,從而增強了模型對符號操作和精確計算的熟練程度。它包括:
- 從GSM8K,MATH,COLLEGEMATH和NUMINAMATH等基準的190K問題。
- 205K的問題是使用Mugglemath和Dotamath技術在GSM8K和數學訓練集中進化的問題創建的。
有效的模型培訓
由於QWEN2.5-MATH模型是QWEN2-MATH模型的升級版本,因此其訓練來自QWEN2-MATH,如下所示:
- QWEN2-MATH模型在QWEN MATH COPUS V1上訓練,這是一個高質量的數據集,其中包含大約7000億個數學內容的令牌。
- 開發人員訓練特定於數學的獎勵模型QWEN2-MATH-RM,該模型源自QWEN2-MATH-72B模型。
- QWEN2.5系列基本模型可用於參數初始化,增強語言理解,代碼生成和文本推理功能。
- 在訓練基本QWEN2.5-MATH模型之後,開發人員基於QWEN2.5-MATH-72B訓練了特定於數學的獎勵模型QWEN2.5-MATH-RM-72B。該獎勵模型通過拒絕採樣SFT模型(QWEN2.5-MATH-SFT)進化了SFT數據。
- 最終建立了指示模型(QWEN2.5-MATH-MATH-INSTRUCT),以增強響應的質量。該模型是通過使用QWEN2-MATH-INSCRUCT模型和QWEN2.5-MATH-RM-72B的額外迭代來創建的。該過程結合了通過小組相對策略優化(GRPO)完善的工具集成推理(TIR)數據和SFT數據,以進一步增強模型的性能。
優化模型性能
增強模型性能是提供更快,更準確的結果,確保應用程序效率和可靠性的關鍵。
基本模型性能
基本型號QWEN2.5-MATH-1.5B/7B/72B在英語數學基準(GSM8K, MATH和MMLU-STEM)和中國數學基準測試(CMATH,GAOKAO MATH CLOZE和GAOKAO MATH QA)方面取得了重大改進,因為比較了Qwen2-Math-1.5b-1.5b/7b/7b/7b/7b/7b/7b/7b/72b。
例如,QWEN2.5-MATH-1.5B/7B/72B模型在數學上顯示出5.4、5.0、6.3的顯著改善,而Gaokao Math QA的得分提高了3.4、12.2、19.8。
指令調整模型性能
QWEN2.5-MATH-72B-INSTRUCT模型的表現優於開源模型和頂級封閉源模型,例如GPT-4O和Gemini Math-Pecialized 1.5 Pro。
QWEN2.5-MATH-72B-INSTRUCT模型超過其前身(QWEN2-MATH-72B-INSTRUCTY模型),平均英語為4.4點,中文平均為6.1分。這種性能標誌著它是當今可用的領先開源數學模型的地位。
在極具挑戰性的基準(例如Aime 2024和AMC23)上,諸如Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro之類的模型中僅解決了30個問題中的1或2個。相比之下,QWEN2.5-MATH-72B-INSTRUCTION表現出色的性能,在貪婪的解碼COT模式中解決了9個問題,在TIR模式下解決了12個問題。此外,在獎勵模型(RM)的協助下,QWEN2.5-MATH-7B-INSTRUCTION實現了令人印象深刻的21個解決問題,展示了其出色的數學問題解決能力。
運行演示
讓我們在此處使用HuggingFace空間查看QWEN2.5-MATH演示。
該空間為圖像或文本格式輸入數學或算術問題提供了基於Web的用戶界面,以測試模型的功能。
為了支持多模式,此空間使用QWEN2-VL進行OCR和QWEN2.5-MATH用於數學推理。
步驟1:使用qwen-vl提取與數學相關的內容
QWEN-VL(QWEN大視覺語言模型)是多模式視覺語言模型,支持圖像,文本為輸入。它自然會支持英語和中文執行各種圖像到文本的生成任務,例如圖像字幕,視覺問題,視覺推理,文本識別等。
QWEN-VL系列包含許多模型,例如QWEN-VL,QWEN-VL-CHAT,QWEN-VL-PLUS,QWEN-VL-MAX
QWEN-VL-MAX是Qwen最有能力的大型視覺語言模型,用於在更廣泛的複雜任務上提供最佳性能。
該系統使用QWEN-VL-MAX-0809模型從輸入圖像中理解,處理和提取文本信息。 Process_image()函數首先接收輸入圖像並提取與數學相關的內容,從而確保任何乳膠公式的準確轉錄。然後,該系統應用以下標準提示,以從圖像中提取文本,數學相關的內容。
提示指示:“描述此圖像中與數學相關的內容,以確保任何乳膠公式的準確轉錄。不要描述非數學細節。”
導入操作系統 OS.System('PIP INSTALS DASHSCOPE -U') 導入tempfile 從pathlib導入路徑 進口秘密 導入Dashscope 從dashscope導入多模式轉換,生成 從PIL導入圖像 your_api_token = os.getEnv('your_api_token') dashscope.api_key = your_api_token Math_messages = [] def process_image(image,shory conconvert = false): 全局Math_messages Math_messages = []#重置上傳圖像 uploaded_file_dir = os.environ.get(“ gradio_temp_dir”)或str( 路徑(tempfile.getTempdir()) /“ gradio” ) OS.Makedirs(uploaded_file_dir,equent_ok = true) name = f“ tmp {secrets.token_hex(20)}。jpg” filename = os.path.join(uploaded_file_dir,名稱) 如果應該: new_img = image.new('rgb',size =(圖像。 new_img.paste(圖像,(0,0),蒙版=圖像) 圖像= new_img image.save(文件名) 消息= [{{ “角色”:“系統”, 'content':[{'text':'你是一個有益的助手。'}]] },{ “角色”:“用戶”, '內容': [ {'image':f'file:// {filename}'},, {'text':'請描述此圖像中與數學相關的內容,以確保正確轉錄任何乳膠公式。非數學細節不需要描述。'} 這是給出的 ]] 響應=多模式conversation.call(model ='qwen-vl-max-0809',messages =消息) OS.Remove(文件名) 返迴響應
步驟2:使用QWEN2.5-MATH的數學推理
此步驟提取圖像描述,然後將其傳遞到QWEN2.5模型以及用戶問題以生成響應。 QWEN2.5-MATH-72B-INSTRUCT模型在此過程中執行數學推理。
def get_math_response(image_description,user_question): 全局Math_messages 如果不是Math_messages: MATH_MESSAGES.APPEND({'角色':'system','content':'您是一個有用的數學助手。'})) Math_messages = Math_messages [:1] 如果image_description不是沒有: content = f'image描述:{image_description} \ n \ n' 別的: 內容='' 查詢= f“ {content}用戶問題:{user_question}” Math_messages.append({'row':'user','content':query}) 響應= generation.call( model =“ qwen2.5-Math-72b-instruct”, 消息= Math_messages, result_format ='消息', 流= true ) 答案=無 響應RESP: 如果desp.Output是無: 繼續 答案= resp.Output.Choices [0] .message.content 屈服答案(“ \\”,“ \\\\”) print(f'query:{query} \ nanswer:{wonse}') 如果答案是沒有的: Math_messages.pop() 別的: MATH_MESSAGES.APPEND({'角色':'Assistans','content':answer})
知道該空間中使用的模型後,讓我們看看一些示例
評估模型能力解決數學或算術問題。
示例1
包含以下問題語句的輸入映像 -
該模型找到x為5和y的值。它也提供了分步
自然語言推理,同時找到x和y的值。
示例2
包含以下問題語句的輸入映像 -
該模型發現最後一個表達式的值為50。
示例3
包含以下問題語句的輸入映像 -
該模型發現上述表達式為5。
結論
在本文中,我們探索了QWEN2.5-MATH - 具有強大推理能力的一系列數學模型。我們檢查了其組件,培訓數據,體系結構以及各種標準基準測試的性能。此外,我們回顧了演示,並以一系列中等至複雜的示例進行了測試。
關鍵要點
- QWEN2.5-MATH模型支持中文和英語,並展示高級數學推理能力。它利用了諸如思想鏈(COT)和工具集成推理(TIR)之類的技術。
- QWEN2.5系列包括基於參數數量的多個變體,模型可在1.5b,7b和72b參數中可用。
- QWEN2.5-MATH模型利用了1萬億代幣進行預訓練,與QWEN2-MATH使用的7000億代幣相比,大幅增加了。
- QWEN2.5-MATH超過各種英語和中文基準的QWEN2-MATH。此外,它的表現優於Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro等諸如AIME 2024等具有挑戰性的基準的模型。
常見問題
Q1。 QWEN2.5-MATH和QWEN2-MATH有什麼區別?A. QWEN2.5-MATH是Qwen2-Math的升級版本,提供了提高的性能,更好地解決複雜的數學問題以及增強的訓練技術。
Q2。哪種模型對於復雜的數學任務,qwen2.5-MATH或QWEN2-MATH的表現更好?A. QWEN2.5-MATH通常在數學推理中的高級培訓和精緻能力上,在復雜任務上的表現通常優於QWEN2-MATH。
Q3。 QWEN2.5-MATH和QWEN2-MATH如何處理數學推理?答:兩種模型均設計用於數學推理,但是QWEN2.5使用更複雜的算法和訓練數據來更有效地解決挑戰性問題。
Q4。 QWEN2.5-MATH與QWEN2-MATH中訓練數據的重要性是什麼?答:QWEN2.5-MATH受益於更大,更多樣化的數據集,這比QWEN2-MATH更準確地提高了其概括和解決複雜數學問題的能力。
Q5。 QWEN2.5-MATH和QWEN2-MATH之間的處理速度有什麼差異嗎?A. QWEN2.5優化了更快的處理,並且與QWEN2-MATH相比提供了更快的響應,同時保持高精度。
本文所示的媒體不由Analytics Vidhya擁有,並由作者酌情使用。
以上是Qwen2.5-Moth入門的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年
