目錄
學習目標
目錄
什麼是QWEN2.5-MOTH?
Qwen2.5-Math vs Qwen2-Math
優化培訓數據
經營鏈(COT)數據集
工具集成推理(TIR)數據集
有效的模型培訓
優化模型性能
基本模型性能
指令調整模型性能
運行演示
步驟1:使用qwen-vl提取與數學相關的內容
步驟2:使用QWEN2.5-MATH的數學推理
示例3
結論
關鍵要點
常見問題
首頁 科技週邊 人工智慧 Qwen2.5-Moth入門

Qwen2.5-Moth入門

Mar 13, 2025 am 11:03 AM

在過去的幾年中,在研究和提高大型語言模型的推理能力方面取得了重大進展,重點是提高他們在解決解決方面的水平
算術和數學問題。

具有良好算術和數學推理的模型可以幫助:

  • 個性化學習: AI驅動的導師可以適應各個學生的需求,使他們更有效地了解複雜的數學概念。
  • 解決問題的援助:自動逐步解釋解決問題可改善學生的參與和理解。
  • 課程設計:在代數和微積分等主題中創建適應性和漸進的學習模塊。

本文探討了數學推理的進步如何推動QWEN2.5-MATH等人工智能模型及其在個性化學習,解決問題和課程設計中的應用。

學習目標

  • 了解並探索QWEN2.5-MATH系列及其組成部分。
  • 了解QWEN2.5-MATH模型體系結構。
  • 在QWEN2.5-MATH上獲得動手接觸,並進行示例。
  • 了解QWEN2.5-MATH在各種基準測試中的性能。

目錄

  • 什麼是QWEN2.5-MOTH?
  • Qwen2.5-Math vs Qwen2-Math
  • 優化培訓數據
  • 有效的模型培訓
  • 優化模型性能
  • 運行演示
  • 結論
  • 常見問題

什麼是QWEN2.5-MOTH?

QWEN2.5-MATH系列是阿里巴巴雲的QWEN系列開源,特定於數學的大型語言模型的最新成員。它遵循Qwen2-Math的較早版本,這是一系列基於Qwen2 LLM的專業數學語言模型。這些模型表現出了出色的數學功能,超過了開源替代方案,甚至超過了一些封閉源模型,例如GPT-4O。

該系列展示了有關中文和英語數學基準的QWEN2-MATH系列的顯著性能提高。雖然該系列僅應用思考鏈(COT)來解決特定於英語的數學問題,但QWEN2.5-MATH系列通過納入COT和工具集成推理(TIR)來擴展其功能,以有效地解決中文和英語的數學問題。

Qwen2.5-Math vs Qwen2-Math

QWEN2.5-MATH和QWEN2-MATH之間的比較突出了數學推理和解決問題的能力的進步,在阿里巴巴雲的特定於數學語言模型的最新迭代中實現了。

財產 Qwen2-Math QWEN2.5-MATH
培訓前數據大小 700b令牌(來自Qwen Math Corpus V1) 超過1T令牌(來自QWEN MATH COPUS V2)
支持語言 英語 英語和中文
方法 經營鏈(COT) 經過思考鏈(COT),工具集成推理(TIR)
基準分數(GSM8K,數學和MMLU-STEM) 89.1,60.5,79.1 90.8,66.8,82.8
模型變體 QWEN2-MATH-1.5B/7B/72B QWEN2.5-MATH-1.5B/7B/72B

優化培訓數據

QWEN2.5-MATH系列是使用QWEN MATH COPUS V2培訓的,其中包括英語和中文的1萬億高質量的數學數據令牌。該數據集包括使用QWEN2-MATH-72B - 教學模型生成的綜合數學數據以及通過多個召回週期從Web內容,書籍和代碼存儲庫中採購的匯總數學中國數據。

經營鏈(COT)數據集

QWEN2.5-MATH的經營鏈(COT)數據集是旨在提高模型推理能力的數學問題的全面集合。它包括:

  • 580k英語和500K數學問題,包括註釋和合成項目。
  • 從GSM8K,MATH和NUMINAMATH等來源得出的註釋數據。

工具集成推理(TIR)數據集

為了解決COT提示所面臨的計算和算法挑戰,例如求解二次方程或計算特徵值 - 引入了工具集成推理(TIR)數據集。該數據集通過使其能夠將Python解釋器用於推理任務,從而增強了模型對符號操作和精確計算的熟練程度。它包括:

  • 從GSM8K,MATH,COLLEGEMATH和NUMINAMATH等基準的190K問題。
  • 205K的問題是使用Mugglemath和Dotamath技術在GSM8K和數學訓練集中進化的問題創建的。

有效的模型培訓

Qwen2.5-Moth入門

由於QWEN2.5-MATH模型是QWEN2-MATH模型的升級版本,因此其訓練來自QWEN2-MATH,如下所示:

  • QWEN2-MATH模型在QWEN MATH COPUS V1上訓練,這是一個高質量的數據集,其中包含大約7000億個數學內容的令牌。
  • 開發人員訓練特定於數學的獎勵模型QWEN2-MATH-RM,該模型源自QWEN2-MATH-72B模型。
  • QWEN2.5系列基本模型可用於參數初始化,增強語言理解,代碼生成和文本推理功能。
  • 在訓練基本QWEN2.5-MATH模型之後,開發人員基於QWEN2.5-MATH-72B訓練了特定於數學的獎勵模型QWEN2.5-MATH-RM-72B。該獎勵模型通過拒絕採樣SFT模型(QWEN2.5-MATH-SFT)進化了SFT數據。
  • 最終建立了指示模型(QWEN2.5-MATH-MATH-INSTRUCT),以增強響應的質量。該模型是通過使用QWEN2-MATH-INSCRUCT模型和QWEN2.5-MATH-RM-72B的額外迭代來創建的。該過程結合了通過小組相對策略優化(GRPO)完善的工具集成推理(TIR)數據和SFT數據,以進一步增強模型的性能。

優化模型性能

增強模型性能是提供更快,更準確的結果,確保應用程序效率和可靠性的關鍵。

基本模型性能

基本型號QWEN2.5-MATH-1.5B/7B/72B在英語數學基準(GSM8K, MATH和MMLU-STEM)和中國數學基準測試(CMATH,GAOKAO MATH CLOZE和GAOKAO MATH QA)方面取得了重大改進,因為比較了Qwen2-Math-1.5b-1.5b/7b/7b/7b/7b/7b/7b/7b/72b。

Qwen2.5-Moth入門

例如,QWEN2.5-MATH-1.5B/7B/72B模型在數學上顯示出5.4、5.0、6.3的顯著改善,而Gaokao Math QA的得分提高了3.4、12.2、19.8。

指令調整模型性能

QWEN2.5-MATH-72B-INSTRUCT模型的表現優於開源模型和頂級封閉源模型,例如GPT-4O和Gemini Math-Pecialized 1.5 Pro。

Qwen2.5-Moth入門

QWEN2.5-MATH-72B-INSTRUCT模型超過其前身(QWEN2-MATH-72B-INSTRUCTY模型),平均英語為4.4點,中文平均為6.1分。這種性能標誌著它是當今可用的領先開源數學模型的地位。

在極具挑戰性的基準(例如Aime 2024和AMC23)上,諸如Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro之類的模型中僅解決了30個問題中的1或2個。相比之下,QWEN2.5-MATH-72B-INSTRUCTION表現出色的性能,在貪婪的解碼COT模式中解決了9個問題,在TIR模式下解決了12個問題。此外,在獎勵模型(RM)的協助下,QWEN2.5-MATH-7B-INSTRUCTION實現了令人印象深刻的21個解決問題,展示了其出色的數學問題解決能力。

Qwen2.5-Moth入門

運行演示

讓我們在此處使用HuggingFace空間查看QWEN2.5-MATH演示。

該空間為圖像或文本格式輸入數學或算術問題提供了基於Web的用戶界面,以測試模型的功能。

為了支持多模式,此空間使用QWEN2-VL進行OCR和QWEN2.5-MATH用於數學推理。

步驟1:使用qwen-vl提取與數學相關的內容

QWEN-VL(QWEN大視覺語言模型)是多模式視覺語言模型,支持圖像,文本為輸入。它自然會支持英語和中文執行各種圖像到文本的生成任務,例如圖像字幕,視覺問題,視覺推理,文本識別等。

QWEN-VL系列包含許多模型,例如QWEN-VL,QWEN-VL-CHAT,QWEN-VL-PLUS,QWEN-VL-MAX
QWEN-VL-MAX是Qwen最有能力的大型視覺語言模型,用於在更廣泛的複雜任務上提供最佳性能。

該系統使用QWEN-VL-MAX-0809模型從輸入圖像中理解,處理和提取文本信息。 Process_image()函數首先接收輸入圖像並提取與數學相關的內容,從而確保任何乳膠公式的準確轉錄。然後,該系統應用以下標準提示,以從圖像中提取文本,數學相關的內容。

提示指示:“描述此圖像中與數學相關的內容,以確保任何乳膠公式的準確轉錄。不要描述非數學細節。”

導入操作系統

OS.System('PIP INSTALS DASHSCOPE -U')
導入tempfile
從pathlib導入路徑
進口秘密
導入Dashscope
從dashscope導入多模式轉換,生成
從PIL導入圖像



your_api_token = os.getEnv('your_api_token')
dashscope.api_key = your_api_token
Math_messages = []
def process_image(image,shory conconvert = false):

    全局Math_messages
    Math_messages = []#重置上傳圖像
    uploaded_file_dir = os.environ.get(“ gradio_temp_dir”)或str(
        路徑(tempfile.getTempdir()) /“ gradio”
    )
    OS.Makedirs(uploaded_file_dir,equent_ok = true)
    

    name = f“ tmp {secrets.token_hex(20)}。jpg”
    filename = os.path.join(uploaded_file_dir,名稱)

    如果應該:
        new_img = image.new('rgb',size =(圖像。
        new_img.paste(圖像,(0,0),蒙版=圖像)
        圖像= new_img
    image.save(文件名)
    

    消息= [{{
        “角色”:“系統”,
        'content':[{'text':'你是一個有益的助手。'}]]
    },{
        “角色”:“用戶”,
        '內容': [
            {'image':f'file:// {filename}'},,
            {'text':'請描述此圖像中與數學相關的內容,以確保正確轉錄任何乳膠公式。非數學細節不需要描述。'}
        這是給出的
    ]]
    
    響應=多模式conversation.call(model ='qwen-vl-max-0809',messages =消息)
    

    OS.Remove(文件名)
    
    返迴響應
登入後複製

步驟2:使用QWEN2.5-MATH的數學推理

此步驟提取圖像描述,然後將其傳遞到QWEN2.5模型以及用戶問題以生成響應。 QWEN2.5-MATH-72B-INSTRUCT模型在此過程中執行數學推理。

 def get_math_response(image_description,user_question):
    全局Math_messages
    如果不是Math_messages:
        MATH_MESSAGES.APPEND({'角色':'system','content':'您是一個有用的數學助手。'}))
    Math_messages = Math_messages [:1]
    如果image_description不是沒有:
        content = f'image描述:{image_description} \ n \ n'
    別的:
        內容=''
    查詢= f“ {content}用戶問題:{user_question}”
    Math_messages.append({'row':'user','content':query})
    響應= generation.call(	
        model =“ qwen2.5-Math-72b-instruct”,
        消息= Math_messages,	
        result_format ='消息',
        流= true
    )
    答案=無
    響應RESP:
        如果desp.Output是無:
            繼續
        答案= resp.Output.Choices [0] .message.content
        屈服答案(“ \\”,“ \\\\”)
    print(f'query:{query} \ nanswer:{wonse}')
    如果答案是沒有的:
        Math_messages.pop()
    別的:
        MATH_MESSAGES.APPEND({'角色':'Assistans','content':answer})
登入後複製

知道該空間中使用的模型後,讓我們看看一些示例
評估模型能力解決數學或算術問題。

示例1

包含以下問題語句的輸入映像 -

Qwen2.5-Moth入門

該模型找到x為5和y的值。它也提供了分步
自然語言推理,同時找到x和y的值。

示例2

包含以下問題語句的輸入映像 -

Qwen2.5-Moth入門

該模型發現最後一個表達式的值為50。

示例3

包含以下問題語句的輸入映像 -

Qwen2.5-Moth入門

該模型發現上述表達式為5。

結論

在本文中,我們探索了QWEN2.5-MATH - 具有強大推理能力的一系列數學模型。我們檢查了其組件,培訓數據,體系結構以及各種標準基準測試的性能。此外,我們回顧了演示,並以一系列中等至複雜的示例進行了測試。

關鍵要點

  • QWEN2.5-MATH模型支持中文和英語,並展示高級數學推理能力。它利用了諸如思想鏈(COT)和工具集成推理(TIR)之類的技術。
  • QWEN2.5系列包括基於參數數量的多個變體,模型可在1.5b,7b和72b參數中可用。
  • QWEN2.5-MATH模型利用了1萬億代幣進行預訓練,與QWEN2-MATH使用的7000億代幣相比,大幅增加了。
  • QWEN2.5-MATH超過各種英語和中文基準的QWEN2-MATH。此外,它的表現優於Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro等諸如AIME 2024等具有挑戰性的基準的模型。

常見問題

Q1。 QWEN2.5-MATH和QWEN2-MATH有什麼區別?

A. QWEN2.5-MATH是Qwen2-Math的升級版本,提供了提高的性能,更好地解決複雜的數學問題以及增強的訓練技術。

Q2。哪種模型對於復雜的數學任務,qwen2.5-MATH或QWEN2-MATH的表現更好?

A. QWEN2.5-MATH通常在數學推理中的高級培訓和精緻能力上,在復雜任務上的表現通常優於QWEN2-MATH。

Q3。 QWEN2.5-MATH和QWEN2-MATH如何處理數學推理?

答:兩種模型均設計用於數學推理,但是QWEN2.5使用更複雜的算法和訓練數據來更有效地解決挑戰性問題。

Q4。 QWEN2.5-MATH與QWEN2-MATH中訓練數據的重要性是什麼?

答:QWEN2.5-MATH受益於更大,更多樣化的數據集,這比QWEN2-MATH更準確地提高了其概括和解決複雜數學問題的能力。

Q5。 QWEN2.5-MATH和QWEN2-MATH之間的處理速度有什麼差異嗎?

A. QWEN2.5優化了更快的處理,並且與QWEN2-MATH相比提供了更快的響應,同時保持高精度。

本文所示的媒體不由Analytics Vidhya擁有,並由作者酌情使用。

以上是Qwen2.5-Moth入門的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1654
14
CakePHP 教程
1413
52
Laravel 教程
1306
25
PHP教程
1252
29
C# 教程
1225
24
開始使用Meta Llama 3.2 -Analytics Vidhya 開始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

10個生成AI編碼擴展,在VS代碼中,您必須探索 10個生成AI編碼擴展,在VS代碼中,您必須探索 Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

向員工出售AI策略:Shopify首席執行官的宣言 向員工出售AI策略:Shopify首席執行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

AV字節:Meta' llama 3.2,Google的雙子座1.5等 AV字節:Meta' llama 3.2,Google的雙子座1.5等 Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

GPT-4O vs OpenAI O1:新的Openai模型值得炒作嗎? GPT-4O vs OpenAI O1:新的Openai模型值得炒作嗎? Apr 13, 2025 am 10:18 AM

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

視覺語言模型(VLMS)的綜合指南 視覺語言模型(VLMS)的綜合指南 Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛? 閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛? Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

See all articles