Qwen2.5-Moth入门
在过去的几年中,在研究和提高大型语言模型的推理能力方面取得了重大进展,重点是提高他们在解决解决方面的水平
算术和数学问题。
具有良好算术和数学推理的模型可以帮助:
- 个性化学习: AI驱动的导师可以适应各个学生的需求,使他们更有效地了解复杂的数学概念。
- 解决问题的援助:自动逐步解释解决问题可改善学生的参与和理解。
- 课程设计:在代数和微积分等主题中创建适应性和渐进的学习模块。
本文探讨了数学推理的进步如何推动QWEN2.5-MATH等人工智能模型及其在个性化学习,解决问题和课程设计中的应用。
学习目标
- 了解并探索QWEN2.5-MATH系列及其组成部分。
- 了解QWEN2.5-MATH模型体系结构。
- 在QWEN2.5-MATH上获得动手接触,并进行示例。
- 了解QWEN2.5-MATH在各种基准测试中的性能。
目录
- 什么是QWEN2.5-MOTH?
- Qwen2.5-Math vs Qwen2-Math
- 优化培训数据
- 有效的模型培训
- 优化模型性能
- 运行演示
- 结论
- 常见问题
什么是QWEN2.5-MOTH?
QWEN2.5-MATH系列是阿里巴巴云的QWEN系列开源,特定于数学的大型语言模型的最新成员。它遵循Qwen2-Math的较早版本,这是一系列基于Qwen2 LLM的专业数学语言模型。这些模型表现出了出色的数学功能,超过了开源替代方案,甚至超过了一些封闭源模型,例如GPT-4O。
该系列展示了有关中文和英语数学基准的QWEN2-MATH系列的显着性能提高。虽然该系列仅应用思考链(COT)来解决特定于英语的数学问题,但QWEN2.5-MATH系列通过纳入COT和工具集成推理(TIR)来扩展其功能,以有效地解决中文和英语的数学问题。
Qwen2.5-Math vs Qwen2-Math
QWEN2.5-MATH和QWEN2-MATH之间的比较突出了数学推理和解决问题的能力的进步,在阿里巴巴云的特定于数学语言模型的最新迭代中实现了。
财产 | Qwen2-Math | QWEN2.5-MATH |
---|---|---|
培训前数据大小 | 700b令牌(来自Qwen Math Corpus V1) | 超过1T令牌(来自QWEN MATH COPUS V2) |
支持语言 | 英语 | 英语和中文 |
方法 | 经营链(COT) | 经过思考链(COT),工具集成推理(TIR) |
基准分数(GSM8K,数学和MMLU-STEM) | 89.1,60.5,79.1 | 90.8,66.8,82.8 |
模型变体 | QWEN2-MATH-1.5B/7B/72B | QWEN2.5-MATH-1.5B/7B/72B |
优化培训数据
QWEN2.5-MATH系列是使用QWEN MATH COPUS V2培训的,其中包括英语和中文的1万亿高质量的数学数据令牌。该数据集包括使用QWEN2-MATH-72B - 教学模型生成的综合数学数据以及通过多个召回周期从Web内容,书籍和代码存储库中采购的汇总数学中国数据。
经营链(COT)数据集
QWEN2.5-MATH的经营链(COT)数据集是旨在提高模型推理能力的数学问题的全面集合。它包括:
- 580k英语和500K数学问题,包括注释和合成项目。
- 从GSM8K,MATH和NUMINAMATH等来源得出的注释数据。
工具集成推理(TIR)数据集
为了解决COT提示所面临的计算和算法挑战,例如求解二次方程或计算特征值 - 引入了工具集成推理(TIR)数据集。该数据集通过使其能够将Python解释器用于推理任务,从而增强了模型对符号操作和精确计算的熟练程度。它包括:
- 从GSM8K,MATH,COLLEGEMATH和NUMINAMATH等基准的190K问题。
- 205K的问题是使用Mugglemath和Dotamath技术在GSM8K和数学训练集中进化的问题创建的。
有效的模型培训
由于QWEN2.5-MATH模型是QWEN2-MATH模型的升级版本,因此其训练来自QWEN2-MATH,如下所示:
- QWEN2-MATH模型在QWEN MATH COPUS V1上训练,这是一个高质量的数据集,其中包含大约7000亿个数学内容的令牌。
- 开发人员训练特定于数学的奖励模型QWEN2-MATH-RM,该模型源自QWEN2-MATH-72B模型。
- QWEN2.5系列基本模型可用于参数初始化,增强语言理解,代码生成和文本推理功能。
- 在训练基本QWEN2.5-MATH模型之后,开发人员基于QWEN2.5-MATH-72B训练了特定于数学的奖励模型QWEN2.5-MATH-RM-72B。该奖励模型通过拒绝采样SFT模型(QWEN2.5-MATH-SFT)进化了SFT数据。
- 最终建立了指示模型(QWEN2.5-MATH-MATH-INSTRUCT),以增强响应的质量。该模型是通过使用QWEN2-MATH-INSCRUCT模型和QWEN2.5-MATH-RM-72B的额外迭代来创建的。该过程结合了通过小组相对策略优化(GRPO)完善的工具集成推理(TIR)数据和SFT数据,以进一步增强模型的性能。
优化模型性能
增强模型性能是提供更快,更准确的结果,确保应用程序效率和可靠性的关键。
基本模型性能
基本型号QWEN2.5-MATH-1.5B/7B/72B在英语数学基准(GSM8K, MATH和MMLU-STEM)和中国数学基准测试(CMATH,GAOKAO MATH CLOZE和GAOKAO MATH QA)方面取得了重大改进,因为比较了Qwen2-Math-1.5b-1.5b/7b/7b/7b/7b/7b/7b/7b/72b。
例如,QWEN2.5-MATH-1.5B/7B/72B模型在数学上显示出5.4、5.0、6.3的显着改善,而Gaokao Math QA的得分提高了3.4、12.2、19.8。
指令调整模型性能
QWEN2.5-MATH-72B-INSTRUCT模型的表现优于开源模型和顶级封闭源模型,例如GPT-4O和Gemini Math-Pecialized 1.5 Pro。
QWEN2.5-MATH-72B-INSTRUCT模型超过其前身(QWEN2-MATH-72B-INSTRUCTY模型),平均英语为4.4点,中文平均为6.1分。这种性能标志着它是当今可用的领先开源数学模型的地位。
在极具挑战性的基准(例如Aime 2024和AMC23)上,诸如Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro之类的模型中仅解决了30个问题中的1或2个。相比之下,QWEN2.5-MATH-72B-INSTRUCTION表现出色的性能,在贪婪的解码COT模式中解决了9个问题,在TIR模式下解决了12个问题。此外,在奖励模型(RM)的协助下,QWEN2.5-MATH-7B-INSTRUCTION实现了令人印象深刻的21个解决问题,展示了其出色的数学问题解决能力。
运行演示
让我们在此处使用HuggingFace空间查看QWEN2.5-MATH演示。
该空间为图像或文本格式输入数学或算术问题提供了基于Web的用户界面,以测试模型的功能。
为了支持多模式,此空间使用QWEN2-VL进行OCR和QWEN2.5-MATH用于数学推理。
步骤1:使用qwen-vl提取与数学相关的内容
QWEN-VL(QWEN大视觉语言模型)是多模式视觉语言模型,支持图像,文本为输入。它自然会支持英语和中文执行各种图像到文本的生成任务,例如图像字幕,视觉问题,视觉推理,文本识别等。
QWEN-VL系列包含许多模型,例如QWEN-VL,QWEN-VL-CHAT,QWEN-VL-PLUS,QWEN-VL-MAX
QWEN-VL-MAX是Qwen最有能力的大型视觉语言模型,用于在更广泛的复杂任务上提供最佳性能。
该系统使用QWEN-VL-MAX-0809模型从输入图像中理解,处理和提取文本信息。 Process_image()函数首先接收输入图像并提取与数学相关的内容,从而确保任何乳胶公式的准确转录。然后,该系统应用以下标准提示,以从图像中提取文本,数学相关的内容。
提示指示:“描述此图像中与数学相关的内容,以确保任何乳胶公式的准确转录。不要描述非数学细节。”
导入操作系统 OS.System('PIP INSTALS DASHSCOPE -U') 导入tempfile 从pathlib导入路径 进口秘密 导入Dashscope 从dashscope导入多模式转换,生成 从PIL导入图像 your_api_token = os.getEnv('your_api_token') dashscope.api_key = your_api_token Math_messages = [] def process_image(image,shory conconvert = false): 全局Math_messages Math_messages = []#重置上传图像 uploaded_file_dir = os.environ.get(“ gradio_temp_dir”)或str( 路径(tempfile.getTempdir()) /“ gradio” ) OS.Makedirs(uploaded_file_dir,equent_ok = true) name = f“ tmp {secrets.token_hex(20)}。jpg” filename = os.path.join(uploaded_file_dir,名称) 如果应该: new_img = image.new('rgb',size =(图像。 new_img.paste(图像,(0,0),蒙版=图像) 图像= new_img image.save(文件名) 消息= [{{ “角色”:“系统”, 'content':[{'text':'你是一个有益的助手。'}]] },{ “角色”:“用户”, '内容': [ {'image':f'file:// {filename}'},, {'text':'请描述此图像中与数学相关的内容,以确保正确转录任何乳胶公式。非数学细节不需要描述。'} 这是给出的 ]] 响应=多模式conversation.call(model ='qwen-vl-max-0809',messages =消息) OS.Remove(文件名) 返回响应
步骤2:使用QWEN2.5-MATH的数学推理
此步骤提取图像描述,然后将其传递到QWEN2.5模型以及用户问题以生成响应。 QWEN2.5-MATH-72B-INSTRUCT模型在此过程中执行数学推理。
def get_math_response(image_description,user_question): 全局Math_messages 如果不是Math_messages: MATH_MESSAGES.APPEND({'角色':'system','content':'您是一个有用的数学助手。'})) Math_messages = Math_messages [:1] 如果image_description不是没有: content = f'image描述:{image_description} \ n \ n' 别的: 内容='' 查询= f“ {content}用户问题:{user_question}” Math_messages.append({'row':'user','content':query}) 响应= generation.call( model =“ qwen2.5-Math-72b-instruct”, 消息= Math_messages, result_format ='消息', 流= true ) 答案=无 响应RESP: 如果desp.Output是无: 继续 答案= resp.Output.Choices [0] .message.content 屈服答案(“ \\”,“ \\\\”) print(f'query:{query} \ nanswer:{wonse}') 如果答案是没有的: Math_messages.pop() 别的: MATH_MESSAGES.APPEND({'角色':'Assistans','content':answer})
知道该空间中使用的模型后,让我们看看一些示例
评估模型能力解决数学或算术问题。
示例1
包含以下问题语句的输入映像 -
该模型找到x为5和y的值。它也提供了分步
自然语言推理,同时找到x和y的值。
示例2
包含以下问题语句的输入映像 -
该模型发现最后一个表达式的值为50。
示例3
包含以下问题语句的输入映像 -
该模型发现上述表达式为5。
结论
在本文中,我们探索了QWEN2.5-MATH - 具有强大推理能力的一系列数学模型。我们检查了其组件,培训数据,体系结构以及各种标准基准测试的性能。此外,我们回顾了演示,并以一系列中等至复杂的示例进行了测试。
关键要点
- QWEN2.5-MATH模型支持中文和英语,并展示高级数学推理能力。它利用了诸如思想链(COT)和工具集成推理(TIR)之类的技术。
- QWEN2.5系列包括基于参数数量的多个变体,模型可在1.5b,7b和72b参数中可用。
- QWEN2.5-MATH模型利用了1万亿代币进行预训练,与QWEN2-MATH使用的7000亿代币相比,大幅增加了。
- QWEN2.5-MATH超过各种英语和中文基准的QWEN2-MATH。此外,它的表现优于Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro等诸如AIME 2024等具有挑战性的基准的模型。
常见问题
Q1。 QWEN2.5-MATH和QWEN2-MATH有什么区别?A. QWEN2.5-MATH是Qwen2-Math的升级版本,提供了提高的性能,更好地解决复杂的数学问题以及增强的训练技术。
Q2。哪种模型对于复杂的数学任务,qwen2.5-MATH或QWEN2-MATH的表现更好?A. QWEN2.5-MATH通常在数学推理中的高级培训和精致能力上,在复杂任务上的表现通常优于QWEN2-MATH。
Q3。 QWEN2.5-MATH和QWEN2-MATH如何处理数学推理?答:两种模型均设计用于数学推理,但是QWEN2.5使用更复杂的算法和训练数据来更有效地解决挑战性问题。
Q4。 QWEN2.5-MATH与QWEN2-MATH中训练数据的重要性是什么?答:QWEN2.5-MATH受益于更大,更多样化的数据集,这比QWEN2-MATH更准确地提高了其概括和解决复杂数学问题的能力。
Q5。 QWEN2.5-MATH和QWEN2-MATH之间的处理速度有什么差异吗?A. QWEN2.5优化了更快的处理,并且与QWEN2-MATH相比提供了更快的响应,同时保持高精度。
本文所示的媒体不由Analytics Vidhya拥有,并由作者酌情使用。
以上是Qwen2.5-Moth入门的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

介绍 想象一下,穿过美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》对正在进行的人工智能革命进行了很好的概述。让我们用四个简单的概念来解读它:认知(了解正在发生的事情)、欣赏(看到好处)、接纳(面对挑战)和责任(弄清我们的责任)。 认知:人工智能无处不在,并且发展迅速 我们需要敏锐地意识到人工智能发展和传播的速度有多快。人工智能系统正在不断改进,在数学和复杂思维测试中取得了优异的成绩,而就在一年前,它们还在这些测试中惨败。想象一下,人工智能解决复杂的编码问题或研究生水平的科学问题——自2023年

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu
