目录
学习目标
目录
什么是QWEN2.5-MOTH?
Qwen2.5-Math vs Qwen2-Math
优化培训数据
经营链(COT)数据集
工具集成推理(TIR)数据集
有效的模型培训
优化模型性能
基本模型性能
指令调整模型性能
运行演示
步骤1:使用qwen-vl提取与数学相关的内容
步骤2:使用QWEN2.5-MATH的数学推理
示例3
结论
关键要点
常见问题
首页 科技周边 人工智能 Qwen2.5-Moth入门

Qwen2.5-Moth入门

Mar 13, 2025 am 11:03 AM

在过去的几年中,在研究和提高大型语言模型的推理能力方面取得了重大进展,重点是提高他们在解决解决方面的水平
算术和数学问题。

具有良好算术和数学推理的模型可以帮助:

  • 个性化学习: AI驱动的导师可以适应各个学生的需求,使他们更有效地了解复杂的数学概念。
  • 解决问题的援助:自动逐步解释解决问题可改善学生的参与和理解。
  • 课程设计:在代数和微积分等主题中创建适应性和渐进的学习模块。

本文探讨了数学推理的进步如何推动QWEN2.5-MATH等人工智能模型及其在个性化学习,解决问题和课程设计中的应用。

学习目标

  • 了解并探索QWEN2.5-MATH系列及其组成部分。
  • 了解QWEN2.5-MATH模型体系结构。
  • 在QWEN2.5-MATH上获得动手接触,并进行示例。
  • 了解QWEN2.5-MATH在各种基准测试中的性能。

目录

  • 什么是QWEN2.5-MOTH?
  • Qwen2.5-Math vs Qwen2-Math
  • 优化培训数据
  • 有效的模型培训
  • 优化模型性能
  • 运行演示
  • 结论
  • 常见问题

什么是QWEN2.5-MOTH?

QWEN2.5-MATH系列是阿里巴巴云的QWEN系列开源,特定于数学的大型语言模型的最新成员。它遵循Qwen2-Math的较早版本,这是一系列基于Qwen2 LLM的专业数学语言模型。这些模型表现出了出色的数学功能,超过了开源替代方案,甚至超过了一些封闭源模型,例如GPT-4O。

该系列展示了有关中文和英语数学基准的QWEN2-MATH系列的显着性能提高。虽然该系列仅应用思考链(COT)来解决特定于英语的数学问题,但QWEN2.5-MATH系列通过纳入COT和工具集成推理(TIR)来扩展其功能,以有效地解决中文和英语的数学问题。

Qwen2.5-Math vs Qwen2-Math

QWEN2.5-MATH和QWEN2-MATH之间的比较突出了数学推理和解决问题的能力的进步,在阿里巴巴云的特定于数学语言模型的最新迭代中实现了。

财产 Qwen2-Math QWEN2.5-MATH
培训前数据大小 700b令牌(来自Qwen Math Corpus V1) 超过1T令牌(来自QWEN MATH COPUS V2)
支持语言 英语 英语和中文
方法 经营链(COT) 经过思考链(COT),工具集成推理(TIR)
基准分数(GSM8K,数学和MMLU-STEM) 89.1,60.5,79.1 90.8,66.8,82.8
模型变体 QWEN2-MATH-1.5B/7B/72B QWEN2.5-MATH-1.5B/7B/72B

优化培训数据

QWEN2.5-MATH系列是使用QWEN MATH COPUS V2培训的,其中包括英语和中文的1万亿高质量的数学数据令牌。该数据集包括使用QWEN2-MATH-72B - 教学模型生成的综合数学数据以及通过多个召回周期从Web内容,书籍和代码存储库中采购的汇总数学中国数据。

经营链(COT)数据集

QWEN2.5-MATH的经营链(COT)数据集是旨在提高模型推理能力的数学问题的全面集合。它包括:

  • 580k英语和500K数学问题,包括注释和合成项目。
  • 从GSM8K,MATH和NUMINAMATH等来源得出的注释数据。

工具集成推理(TIR)数据集

为了解决COT提示所面临的计算和算法挑战,例如求解二次方程或计算特征值 - 引入了工具集成推理(TIR)数据集。该数据集通过使其能够将Python解释器用于推理任务,从而增强了模型对符号操作和精确计算的熟练程度。它包括:

  • 从GSM8K,MATH,COLLEGEMATH和NUMINAMATH等基准的190K问题。
  • 205K的问题是使用Mugglemath和Dotamath技术在GSM8K和数学训练集中进化的问题创建的。

有效的模型培训

Qwen2.5-Moth入门

由于QWEN2.5-MATH模型是QWEN2-MATH模型的升级版本,因此其训练来自QWEN2-MATH,如下所示:

  • QWEN2-MATH模型在QWEN MATH COPUS V1上训练,这是一个高质量的数据集,其中包含大约7000亿个数学内容的令牌。
  • 开发人员训练特定于数学的奖励模型QWEN2-MATH-RM,该模型源自QWEN2-MATH-72B模型。
  • QWEN2.5系列基本模型可用于参数初始化,增强语言理解,代码生成和文本推理功能。
  • 在训练基本QWEN2.5-MATH模型之后,开发人员基于QWEN2.5-MATH-72B训练了特定于数学的奖励模型QWEN2.5-MATH-RM-72B。该奖励模型通过拒绝采样SFT模型(QWEN2.5-MATH-SFT)进化了SFT数据。
  • 最终建立了指示模型(QWEN2.5-MATH-MATH-INSTRUCT),以增强响应的质量。该模型是通过使用QWEN2-MATH-INSCRUCT模型和QWEN2.5-MATH-RM-72B的额外迭代来创建的。该过程结合了通过小组相对策略优化(GRPO)完善的工具集成推理(TIR)数据和SFT数据,以进一步增强模型的性能。

优化模型性能

增强模型性能是提供更快,更准确的结果,确保应用程序效率和可靠性的关键。

基本模型性能

基本型号QWEN2.5-MATH-1.5B/7B/72B在英语数学基准(GSM8K, MATH和MMLU-STEM)和中国数学基准测试(CMATH,GAOKAO MATH CLOZE和GAOKAO MATH QA)方面取得了重大改进,因为比较了Qwen2-Math-1.5b-1.5b/7b/7b/7b/7b/7b/7b/7b/72b。

Qwen2.5-Moth入门

例如,QWEN2.5-MATH-1.5B/7B/72B模型在数学上显示出5.4、5.0、6.3的显着改善,而Gaokao Math QA的得分提高了3.4、12.2、19.8。

指令调整模型性能

QWEN2.5-MATH-72B-INSTRUCT模型的表现优于开源模型和顶级封闭源模型,例如GPT-4O和Gemini Math-Pecialized 1.5 Pro。

Qwen2.5-Moth入门

QWEN2.5-MATH-72B-INSTRUCT模型超过其前身(QWEN2-MATH-72B-INSTRUCTY模型),平均英语为4.4点,中文平均为6.1分。这种性能标志着它是当今可用的领先开源数学模型的地位。

在极具挑战性的基准(例如Aime 2024和AMC23)上,诸如Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro之类的模型中仅解决了30个问题中的1或2个。相比之下,QWEN2.5-MATH-72B-INSTRUCTION表现出色的性能,在贪婪的解码COT模式中解决了9个问题,在TIR模式下解决了12个问题。此外,在奖励模型(RM)的协助下,QWEN2.5-MATH-7B-INSTRUCTION实现了令人印象深刻的21个解决问题,展示了其出色的数学问题解决能力。

Qwen2.5-Moth入门

运行演示

让我们在此处使用HuggingFace空间查看QWEN2.5-MATH演示。

该空间为图像或文本格式输入数学或算术问题提供了基于Web的用户界面,以测试模型的功能。

为了支持多模式,此空间使用QWEN2-VL进行OCR和QWEN2.5-MATH用于数学推理。

步骤1:使用qwen-vl提取与数学相关的内容

QWEN-VL(QWEN大视觉语言模型)是多模式视觉语言模型,支持图像,文本为输入。它自然会支持英语和中文执行各种图像到文本的生成任务,例如图像字幕,视觉问题,视觉推理,文本识别等。

QWEN-VL系列包含许多模型,例如QWEN-VL,QWEN-VL-CHAT,QWEN-VL-PLUS,QWEN-VL-MAX
QWEN-VL-MAX是Qwen最有能力的大型视觉语言模型,用于在更广泛的复杂任务上提供最佳性能。

该系统使用QWEN-VL-MAX-0809模型从输入图像中理解,处理和提取文本信息。 Process_image()函数首先接收输入图像并提取与数学相关的内容,从而确保任何乳胶公式的准确转录。然后,该系统应用以下标准提示,以从图像中提取文本,数学相关的内容。

提示指示:“描述此图像中与数学相关的内容,以确保任何乳胶公式的准确转录。不要描述非数学细节。”

导入操作系统

OS.System('PIP INSTALS DASHSCOPE -U')
导入tempfile
从pathlib导入路径
进口秘密
导入Dashscope
从dashscope导入多模式转换,生成
从PIL导入图像



your_api_token = os.getEnv('your_api_token')
dashscope.api_key = your_api_token
Math_messages = []
def process_image(image,shory conconvert = false):

    全局Math_messages
    Math_messages = []#重置上传图像
    uploaded_file_dir = os.environ.get(“ gradio_temp_dir”)或str(
        路径(tempfile.getTempdir()) /“ gradio”
    )
    OS.Makedirs(uploaded_file_dir,equent_ok = true)
    

    name = f“ tmp {secrets.token_hex(20)}。jpg”
    filename = os.path.join(uploaded_file_dir,名称)

    如果应该:
        new_img = image.new('rgb',size =(图像。
        new_img.paste(图像,(0,0),蒙版=图像)
        图像= new_img
    image.save(文件名)
    

    消息= [{{
        “角色”:“系统”,
        'content':[{'text':'你是一个有益的助手。'}]]
    },{
        “角色”:“用户”,
        '内容': [
            {'image':f'file:// {filename}'},,
            {'text':'请描述此图像中与数学相关的内容,以确保正确转录任何乳胶公式。非数学细节不需要描述。'}
        这是给出的
    ]]
    
    响应=多模式conversation.call(model ='qwen-vl-max-0809',messages =消息)
    

    OS.Remove(文件名)
    
    返回响应
登录后复制

步骤2:使用QWEN2.5-MATH的数学推理

此步骤提取图像描述,然后将其传递到QWEN2.5模型以及用户问题以生成响应。 QWEN2.5-MATH-72B-INSTRUCT模型在此过程中执行数学推理。

 def get_math_response(image_description,user_question):
    全局Math_messages
    如果不是Math_messages:
        MATH_MESSAGES.APPEND({'角色':'system','content':'您是一个有用的数学助手。'}))
    Math_messages = Math_messages [:1]
    如果image_description不是没有:
        content = f'image描述:{image_description} \ n \ n'
    别的:
        内容=''
    查询= f“ {content}用户问题:{user_question}”
    Math_messages.append({'row':'user','content':query})
    响应= generation.call(	
        model =“ qwen2.5-Math-72b-instruct”,
        消息= Math_messages,	
        result_format ='消息',
        流= true
    )
    答案=无
    响应RESP:
        如果desp.Output是无:
            继续
        答案= resp.Output.Choices [0] .message.content
        屈服答案(“ \\”,“ \\\\”)
    print(f'query:{query} \ nanswer:{wonse}')
    如果答案是没有的:
        Math_messages.pop()
    别的:
        MATH_MESSAGES.APPEND({'角色':'Assistans','content':answer})
登录后复制

知道该空间中使用的模型后,让我们看看一些示例
评估模型能力解决数学或算术问题。

示例1

包含以下问题语句的输入映像 -

Qwen2.5-Moth入门

该模型找到x为5和y的值。它也提供了分步
自然语言推理,同时找到x和y的值。

示例2

包含以下问题语句的输入映像 -

Qwen2.5-Moth入门

该模型发现最后一个表达式的值为50。

示例3

包含以下问题语句的输入映像 -

Qwen2.5-Moth入门

该模型发现上述表达式为5。

结论

在本文中,我们探索了QWEN2.5-MATH - 具有强大推理能力的一系列数学模型。我们检查了其组件,培训数据,体系结构以及各种标准基准测试的性能。此外,我们回顾了演示,并以一系列中等至复杂的示例进行了测试。

关键要点

  • QWEN2.5-MATH模型支持中文和英语,并展示高级数学推理能力。它利用了诸如思想链(COT)和工具集成推理(TIR)之类的技术。
  • QWEN2.5系列包括基于参数数量的多个变体,模型可在1.5b,7b和72b参数中可用。
  • QWEN2.5-MATH模型利用了1万亿代币进行预训练,与QWEN2-MATH使用的7000亿代币相比,大幅增加了。
  • QWEN2.5-MATH超过各种英语和中文基准的QWEN2-MATH。此外,它的表现优于Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro等诸如AIME 2024等具有挑战性的基准的模型。

常见问题

Q1。 QWEN2.5-MATH和QWEN2-MATH有什么区别?

A. QWEN2.5-MATH是Qwen2-Math的升级版本,提供了提高的性能,更好地解决复杂的数学问题以及增强的训练技术。

Q2。哪种模型对于复杂的数学任务,qwen2.5-MATH或QWEN2-MATH的表现更好?

A. QWEN2.5-MATH通常在数学推理中的高级培训和精致能力上,在复杂任务上的表现通常优于QWEN2-MATH。

Q3。 QWEN2.5-MATH和QWEN2-MATH如何处理数学推理?

答:两种模型均设计用于数学推理,但是QWEN2.5使用更复杂的算法和训练数据来更有效地解决挑战性问题。

Q4。 QWEN2.5-MATH与QWEN2-MATH中训练数据的重要性是什么?

答:QWEN2.5-MATH受益于更大,更多样化的数据集,这比QWEN2-MATH更准确地提高了其概括和解决复杂数学问题的能力。

Q5。 QWEN2.5-MATH和QWEN2-MATH之间的处理速度有什么差异吗?

A. QWEN2.5优化了更快的处理,并且与QWEN2-MATH相比提供了更快的响应,同时保持高精度。

本文所示的媒体不由Analytics Vidhya拥有,并由作者酌情使用。

以上是Qwen2.5-Moth入门的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

开始使用Meta Llama 3.2 -Analytics Vidhya 开始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

10个生成AI编码扩展,在VS代码中,您必须探索 10个生成AI编码扩展,在VS代码中,您必须探索 Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

AV字节:Meta' llama 3.2,Google的双子座1.5等 AV字节:Meta' llama 3.2,Google的双子座1.5等 Apr 11, 2025 pm 12:01 PM

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

向员工出售AI策略:Shopify首席执行官的宣言 向员工出售AI策略:Shopify首席执行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

视觉语言模型(VLMS)的综合指南 视觉语言模型(VLMS)的综合指南 Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? Apr 13, 2025 am 10:18 AM

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

阅读AI索引2025:AI是您的朋友,敌人还是副驾驶? 阅读AI索引2025:AI是您的朋友,敌人还是副驾驶? Apr 11, 2025 pm 12:13 PM

斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》对正在进行的人工智能革命进行了很好的概述。让我们用四个简单的概念来解读它:认知(了解正在发生的事情)、欣赏(看到好处)、接纳(面对挑战)和责任(弄清我们的责任)。 认知:人工智能无处不在,并且发展迅速 我们需要敏锐地意识到人工智能发展和传播的速度有多快。人工智能系统正在不断改进,在数学和复杂思维测试中取得了优异的成绩,而就在一年前,它们还在这些测试中惨败。想象一下,人工智能解决复杂的编码问题或研究生水平的科学问题——自2023年

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

See all articles