Qwen2.5-Moth入門-人工智慧-PHP中文網

財產	Qwen2-Math	QWEN2.5-MATH
培訓前數據大小	700b令牌（來自Qwen Math Corpus V1）	超過1T令牌（來自QWEN MATH COPUS V2）
支持語言	英語	英語和中文
方法	經營鏈（COT）	經過思考鏈（COT），工具集成推理（TIR）
基準分數（GSM8K，數學和MMLU-STEM）	89.1，60.5，79.1	90.8，66.8，82.8
模型變體	QWEN2-MATH-1.5B/7B/72B	QWEN2.5-MATH-1.5B/7B/72B

優化培訓數據

QWEN2.5-MATH系列是使用QWEN MATH COPUS V2培訓的，其中包括英語和中文的1萬億高質量的數學數據令牌。該數據集包括使用QWEN2-MATH-72B - 教學模型生成的綜合數學數據以及通過多個召回週期從Web內容，書籍和代碼存儲庫中採購的匯總數學中國數據。

經營鏈（COT）數據集

QWEN2.5-MATH的經營鏈（COT）數據集是旨在提高模型推理能力的數學問題的全面集合。它包括：

580k英語和500K數學問題，包括註釋和合成項目。
從GSM8K，MATH和NUMINAMATH等來源得出的註釋數據。

工具集成推理（TIR）數據集

為了解決COT提示所面臨的計算和算法挑戰，例如求解二次方程或計算特徵值 - 引入了工具集成推理（TIR）數據集。該數據集通過使其能夠將Python解釋器用於推理任務，從而增強了模型對符號操作和精確計算的熟練程度。它包括：

從GSM8K，MATH，COLLEGEMATH和NUMINAMATH等基準的190K問題。
205K的問題是使用Mugglemath和Dotamath技術在GSM8K和數學訓練集中進化的問題創建的。

有效的模型培訓

Qwen2.5-Moth入門

由於QWEN2.5-MATH模型是QWEN2-MATH模型的升級版本，因此其訓練來自QWEN2-MATH，如下所示：

QWEN2-MATH模型在QWEN MATH COPUS V1上訓練，這是一個高質量的數據集，其中包含大約7000億個數學內容的令牌。
開發人員訓練特定於數學的獎勵模型QWEN2-MATH-RM，該模型源自QWEN2-MATH-72B模型。
QWEN2.5系列基本模型可用於參數初始化，增強語言理解，代碼生成和文本推理功能。
在訓練基本QWEN2.5-MATH模型之後，開發人員基於QWEN2.5-MATH-72B訓練了特定於數學的獎勵模型QWEN2.5-MATH-RM-72B。該獎勵模型通過拒絕採樣SFT模型（QWEN2.5-MATH-SFT）進化了SFT數據。
最終建立了指示模型（QWEN2.5-MATH-MATH-INSTRUCT），以增強響應的質量。該模型是通過使用QWEN2-MATH-INSCRUCT模型和QWEN2.5-MATH-RM-72B的額外迭代來創建的。該過程結合了通過小組相對策略優化（GRPO）完善的工具集成推理（TIR）數據和SFT數據，以進一步增強模型的性能。

優化模型性能

增強模型性能是提供更快，更準確的結果，確保應用程序效率和可靠性的關鍵。

基本模型性能

基本型號QWEN2.5-MATH-1.5B/7B/72B在英語數學基準（GSM8K， MATH和MMLU-STEM）和中國數學基準測試（CMATH，GAOKAO MATH CLOZE和GAOKAO MATH QA）方面取得了重大改進，因為比較了Qwen2-Math-1.5b-1.5b/7b/7b/7b/7b/7b/7b/7b/72b。

Qwen2.5-Moth入門

例如，QWEN2.5-MATH-1.5B/7B/72B模型在數學上顯示出5.4、5.0、6.3的顯著改善，而Gaokao Math QA的得分提高了3.4、12.2、19.8。

指令調整模型性能

QWEN2.5-MATH-72B-INSTRUCT模型的表現優於開源模型和頂級封閉源模型，例如GPT-4O和Gemini Math-Pecialized 1.5 Pro。

Qwen2.5-Moth入門

QWEN2.5-MATH-72B-INSTRUCT模型超過其前身（QWEN2-MATH-72B-INSTRUCTY模型），平均英語為4.4點，中文平均為6.1分。這種性能標誌著它是當今可用的領先開源數學模型的地位。

在極具挑戰性的基準（例如Aime 2024和AMC23）上，諸如Claude3 Opus，GPT-4 Turbo和Gemini 1.5 Pro之類的模型中僅解決了30個問題中的1或2個。相比之下，QWEN2.5-MATH-72B-INSTRUCTION表現出色的性能，在貪婪的解碼COT模式中解決了9個問題，在TIR模式下解決了12個問題。此外，在獎勵模型（RM）的協助下，QWEN2.5-MATH-7B-INSTRUCTION實現了令人印象深刻的21個解決問題，展示了其出色的數學問題解決能力。

Qwen2.5-Moth入門

運行演示

讓我們在此處使用HuggingFace空間查看QWEN2.5-MATH演示。

該空間為圖像或文本格式輸入數學或算術問題提供了基於Web的用戶界面，以測試模型的功能。

為了支持多模式，此空間使用QWEN2-VL進行OCR和QWEN2.5-MATH用於數學推理。

步驟1：使用qwen-vl提取與數學相關的內容

QWEN-VL（QWEN大視覺語言模型）是多模式視覺語言模型，支持圖像，文本為輸入。它自然會支持英語和中文執行各種圖像到文本的生成任務，例如圖像字幕，視覺問題，視覺推理，文本識別等。

QWEN-VL系列包含許多模型，例如QWEN-VL，QWEN-VL-CHAT，QWEN-VL-PLUS，QWEN-VL-MAX
QWEN-VL-MAX是Qwen最有能力的大型視覺語言模型，用於在更廣泛的複雜任務上提供最佳性能。

該系統使用QWEN-VL-MAX-0809模型從輸入圖像中理解，處理和提取文本信息。 Process_image（）函數首先接收輸入圖像並提取與數學相關的內容，從而確保任何乳膠公式的準確轉錄。然後，該系統應用以下標準提示，以從圖像中提取文本，數學相關的內容。

提示指示：“描述此圖像中與數學相關的內容，以確保任何乳膠公式的準確轉錄。不要描述非數學細節。”

導入操作系統

OS.System（'PIP INSTALS DASHSCOPE -U'）
導入tempfile
從pathlib導入路徑
進口秘密
導入Dashscope
從dashscope導入多模式轉換，生成
從PIL導入圖像



your_api_token = os.getEnv（'your_api_token'）
dashscope.api_key = your_api_token
Math_messages = []
def process_image（image，shory conconvert = false）：

    全局Math_messages
    Math_messages = []＃重置上傳圖像
    uploaded_file_dir = os.environ.get（“ gradio_temp_dir”）或str（
        路徑（tempfile.getTempdir（）） /“ gradio”
    ）
    OS.Makedirs（uploaded_file_dir，equent_ok = true）
    

    name = f“ tmp {secrets.token_hex（20）}。jpg”
    filename = os.path.join（uploaded_file_dir，名稱）

    如果應該：
        new_img = image.new（'rgb'，size =（圖像。
        new_img.paste（圖像，（0，0），蒙版=圖像）
        圖像= new_img
    image.save（文件名）
    

    消息= [{{
        “角色”：“系統”，
        'content'：[{'text'：'你是一個有益的助手。'}]]
    }，{
        “角色”：“用戶”，
        '內容'： [
            {'image'：f'file：// {filename}'}，，
            {'text'：'請描述此圖像中與數學相關的內容，以確保正確轉錄任何乳膠公式。非數學細節不需要描述。'}
        這是給出的
    ]]
    
    響應=多模式conversation.call（model ='qwen-vl-max-0809'，messages =消息）
    

    OS.Remove（文件名）
    
    返迴響應

登入後複製

步驟2：使用QWEN2.5-MATH的數學推理

此步驟提取圖像描述，然後將其傳遞到QWEN2.5模型以及用戶問題以生成響應。 QWEN2.5-MATH-72B-INSTRUCT模型在此過程中執行數學推理。

 def get_math_response（image_description，user_question）：
    全局Math_messages
    如果不是Math_messages：
        MATH_MESSAGES.APPEND（{'角色'：'system'，'content'：'您是一個有用的數學助手。'}））
    Math_messages = Math_messages [：1]
    如果image_description不是沒有：
        content = f'image描述：{image_description} \ n \ n'
    別的：
        內容=''
    查詢= f“ {content}用戶問題：{user_question}”
    Math_messages.append（{'row'：'user'，'content'：query}）
    響應= generation.call（	
        model =“ qwen2.5-Math-72b-instruct”，
        消息= Math_messages，	
        result_format ='消息'，
        流= true
    ）
    答案=無
    響應RESP：
        如果desp.Output是無：
            繼續
        答案= resp.Output.Choices [0] .message.content
        屈服答案（“ \\”，“ \\\\”）
    print（f'query：{query} \ nanswer：{wonse}'）
    如果答案是沒有的：
        Math_messages.pop（）
    別的：
        MATH_MESSAGES.APPEND（{'角色'：'Assistans'，'content'：answer}）

登入後複製

知道該空間中使用的模型後，讓我們看看一些示例
評估模型能力解決數學或算術問題。

示例1

包含以下問題語句的輸入映像 -

Qwen2.5-Moth入門

該模型找到x為5和y的值。它也提供了分步
自然語言推理，同時找到x和y的值。

示例2

包含以下問題語句的輸入映像 -

Qwen2.5-Moth入門

該模型發現最後一個表達式的值為50。

示例3

包含以下問題語句的輸入映像 -

Qwen2.5-Moth入門

該模型發現上述表達式為5。

結論

在本文中，我們探索了QWEN2.5-MATH - 具有強大推理能力的一系列數學模型。我們檢查了其組件，培訓數據，體系結構以及各種標準基準測試的性能。此外，我們回顧了演示，並以一系列中等至複雜的示例進行了測試。

關鍵要點

QWEN2.5-MATH模型支持中文和英語，並展示高級數學推理能力。它利用了諸如思想鏈（COT）和工具集成推理（TIR）之類的技術。
QWEN2.5系列包括基於參數數量的多個變體，模型可在1.5b，7b和72b參數中可用。
QWEN2.5-MATH模型利用了1萬億代幣進行預訓練，與QWEN2-MATH使用的7000億代幣相比，大幅增加了。
QWEN2.5-MATH超過各種英語和中文基準的QWEN2-MATH。此外，它的表現優於Claude3 Opus，GPT-4 Turbo和Gemini 1.5 Pro等諸如AIME 2024等具有挑戰性的基準的模型。