Marco-O1 vs Llama 3.2：哪个更好？-人工智能-PHP中文网

OpenAI的O1模型由于其在解决复杂问题方面的高级功能而引起了大型推理模型（LRMS）领域的极大兴奋。 Marco-o1emerges以此为基础，是一种新的LRM，不仅强调了传统学科，例如数学和编码，而且还优先考虑各个领域的开放式问题解决问题。 Marco-O1的一个重点是探索O1模型可以将其推理能力推广到缺乏明确标准和可量化奖励的领域的程度。这种探索对于理解LRM在常规指标可能不适用的现实情况下的潜在应用至关重要，从而突破了这些模型可以实现的目标。

Marco-O1 vs Llama 3.2：哪个更好？

学习目标

了解Marco-O1模型背后的建筑和关键技术，包括经过思考的微调和蒙特卡洛树搜索。
探索Marco-O1如何适应其推理策略，以适应各个领域的复杂，开放式的解决问题的任务。
通过提示对模型的输出的自我评估来分析反射机制在提高推理准确性中的作用。
比较Marco-O1和Llama 3.2的推理能力，重点是在高级推理方案中的深度和解释。
检查MARCO-O1在实际问题解决中的实际应用，包括数学，逻辑和多语言任务。

本文作为数据科学博客马拉松的一部分发表。

什么是Marco-O1？
高级推理的技术
什么是骆驼3.2？
使用Ollama在Google Colab上运行模型
让我们开始比较：Marco-O1 vs Llama 3.2
任务1：逻辑推理
任务2：草莓测试
任务3：基于几何推理
任务4：逐步推理
任务5：脆弱的数学上下文
任务6：矛盾的信息
结果：Marco-O1 vs Llama 3.2
结论
常见问题

什么是Marco-O1？

Marco-O1是由阿里巴巴国际数字商务的Marcopolo团队开发的高级推理模型，旨在解决开放式解决问题的任务。

它是建立在QWEN2架构的基础上的，并采用了精致的思想链（COT）微调和蒙蒙特山carlo树搜索（MCTS）技术来增强其推理能力

培训数据集

通过微调QWEN2-7B教学，结合了过滤的Open-O1 COT数据集，MARCO-O1 COT数据集和Marco-O1指令数据集，Marco-O1改善了其对复杂任务的处理。

Open-O1 COT数据集：通过启发式过滤进行完善，以促进结构化推理模式。
MARCO-O1 COT数据集：使用MCT生成以制定复杂的推理途径。
MARCO指令数据集：专注于增强跨不同任务的指导跟踪功能。

Marco-O1 vs Llama 3.2：哪个更好？

下图显示了MARCO-01的推理过程，详细说明了Open-01 COT和MARCO-01 COT等数据集的使用。该过程涉及选择提示路径，执行MCT并应用监督的微调以提高准确性。这导致了以信心得分的最终答案产生的。

Marco-O1 vs Llama 3.2：哪个更好？

高级推理的技术

这重点介绍了使AI模型能够处理复杂任务的复杂方法，例如通过多个步骤推理，优化决策并纳入不确定性以获得更准确的预测和响应。

解决方案空间扩展Viamonte Carlo Tree搜索

MCT用于通过随机抽样探索所有可能的答案来确定用户查询的最佳答案。如上图所示，在MCT中，选择了Nodeserpresent不同的推理路径和黄色nodessepsecte，以进一步探索。绿色nodesmermentent的最终答案，而诸如“选择”和“备份”之类的箭头显示系统如何评估和完善选择。

信心得分

系统使用概率（如公式中显示）生成答案以完善最终输出后，该系统计算一个置信得分。

行动策略

该模型可以在两个级别上工作 - 广泛的推理（步骤级别）和多步推理（迷你步骤级别）。

在MCT搜索中探索了不同级别的粒度。为了扩大模型的搜索空间并增强其解决问题的功能，将步骤分为64或32个令牌的较小单位，称为“迷你步骤”。这种较细的粒度使该模型可以更详细地探索推理路径。

思考后的反思

模型中存在反射机制，通过添加短语“等待！也许我犯了一些错误！我需要从头开始重新考虑。”在每个思考过程结束时。这促使模型自我反射并重新评估其推理步骤。这种反思对模型产生了重大改进，尤其是在原始模型最初错误地解决的困难问题上。

关键功能

开放式推理：与在标准答案域（例如数学或编码）中表现出色的传统模型不同，Marco-O1强调开放式分辨率，使其适用于缺乏明确标准的更广泛的应用程序。
解决方案的探索： MCTS的实现使该模型可以探索多个解决方案路径，类似于在做出决定之前考虑各种动作的国际象棋参与者。这种方法有助于确定解决问题的最有希望的策略。
灵活的推理策略： MARCO-O1根据其遇到的问题类型来适应其推理策略，从而有效地将复杂的任务分解为可管理的步骤。

申请

Marco-O1对于：

传统答案可能不足的复杂解决方案。
数学推理任务。
复杂的翻译任务需要细微的理解。

什么是骆驼3.2？

Llama 3.2型号包括专为移动和边缘设备设计的10亿（1B）和30亿（3B）参数文本模型，重点介绍了诸如摘要和说明之类的应用程序的有效性能。

模型架构

Llama 3.2在公开可用的来源中预估计了9万亿立克，并结合了来自较大模型（例如Llama 3.1）的知识蒸馏技术，以增强性能，同时保持较小的尺寸。

Marco-O1 vs Llama 3.2：哪个更好？

关键功能

针对边缘设备进行了优化：该模型设计为轻量级，使其适合在移动设备和边缘设备上部署。
扩展上下文长度： Llama 3.2支持上下文长度为128K令牌（〜96,240个单词），这有助于处理长期输入并维护上下文对扩展交互。
支持多语言对话：该模型已针对多语种用例进行了优化，从而使其在需要多种语言交互的应用中有效。

申请

Llama 3.2 3B在特定领域，特别是在推理任务中表现出色。在ARC挑战赛中，它的得分达到78.6，超过了Gemma的76.7，而刚刚落后于Phi-3.5-Mini，得分为87.4。同样，在Hellawag基准中，美洲驼3.2 3B得分69.8，表现优于Gemma，并与Phi保持竞争力。

因此，在下一个实施Python实施中，我们对两个模型的基于推理的问题进行了比较评估-Marco-O1和Llama 3.2 3B。这种比较评估主要是为了检查Marco-O1的输出是否在基于推理的问题中确实表现出色。

使用Ollama在Google Colab上运行模型

Ollama是一种高级AI工具，允许用户在本地（以CPU和GPU模式）轻松设置和运行大型语言模型。我们将在以下步骤中探索如何使用Ollama在Google Colab上运行这些模型。

步骤1：库的安装

下面我们将安装所有需要的库：

 ！sudo apt更新
！sudo apt安装-y pciutils
！PIP安装Langchain-ollama
！curl -fssl https://ollama.com/install.sh | sh
！PIP安装Ollama == 0.4.2

登录后复制

步骤2：启用线程过程可以在Google Colab上运行Ollama

在此步骤中，我们设置了线程，以允许Ollama在Google Colab上有效运行。线程可以并行执行任务，确保表现顺畅，并且不延迟处理更快的处理。该设置对于在Colab环境中无缝进行资源密集型操作至关重要。

导入线程
导入子过程
进口时间

def run_ollama_serve（）：
  subproces.popen（[“ ollama”，“ serve”]）

线程=线程。
thread.start（）
时间。

登录后复制

步骤3：拉动Ollama模型

！ollama拉动marco-o1

登录后复制

我们可以使用相同的代码通过用Llama3.2替换Marco-O1来拉动Llama3.2模型。

步骤4：查询模型

此步骤涉及将查询发送到模型以根据输入获得响应或见解。它有助于与模型进行互动，例如生成文本或回答问题。

来自langchain_core.prompts导入chatprompttemplate
来自langchain_ollama.llms导入ollamallm
来自ipython.display导入降价

template =“”“问题：{问题}”“”

提示= chatprompttemplate.from_template（模板）

型号= ollamallm（model =“ marco-o1”）

链=提示|模型

＃准备调用输入
input_data = {
    “问题”：'我有2个苹果，然后我再买2个。我用2个苹果烤馅饼。吃了一半的馅饼后，我剩下几个苹果？}

＃使用输入数据调用链，并以降价格式显示响应
响应=链。Invoke（input_data）
显示（Markdown（响应））

登录后复制

让我们开始比较：Marco-O1 vs Llama 3.2

在本节中，我们将比较Marco-O1和Llama 3.2的输出，并强调它们在处理复杂的推理任务和实时应用方面的优势和差异。通过检查他们的响应，我们可以更好地了解每个模型如何解决问题并适应不同用例。

任务1：逻辑推理

“我有2个苹果，然后再购买2个苹果。我用2个苹果烤馅饼。进食后<br>一半的馅饼我剩下几个苹果？”

登录后复制

来自Marco-O1的输出

Marco-O1 vs Llama 3.2：哪个更好？

Llama 3.2（3B型号）的输出

Marco-O1 vs Llama 3.2：哪个更好？

两种模型都提供了准确的响应，但是与Llama 3.2相比，Marco-O1提供了更详细的解释。

任务2：草莓测试

“草莓有多少r？”

登录后复制

来自Marco-O1的输出

Marco-O1 vs Llama 3.2：哪个更好？

Llama 3.2（3B型号）的输出

Marco-O1 vs Llama 3.2：哪个更好？

从上面的输出可以看出，Llama 3.2模型的响应不准确，而MARCO-O1模型的响应准确。

任务3：基于几何推理

“三角形的区域是10个单位和5个单位的高度？”

登录后复制

来自Marco-O1的输出

Marco-O1 vs Llama 3.2：哪个更好？

Llama 3.2（3B型号）的输出

Marco-O1 vs Llama 3.2：哪个更好？

从上面的输出可以看出，这两个模型都给出了准确的响应，但是与Llama 3.2相比，Marco-O1模型的响应更为解释。

任务4：逐步推理

“如果一辆汽车的价格为20,000美元，并且每年折旧1,000美元，那将是多少<br>三年后值得吗？”

登录后复制

来自Marco-O1的输出

Marco-O1 vs Llama 3.2：哪个更好？

Llama 3.2（3B型号）的输出

Marco-O1 vs Llama 3.2：哪个更好？

从上面的输出可以看出，这两个模型都给出了准确的响应，但是与Llama 3.2相比，Marco-O1模型的响应更为解释。

有歧义的三段论

“所有鸟都可以飞。企鹅是鸟类。企鹅可以飞吗？”

登录后复制

来自Marco-O1的输出

Marco-O1 vs Llama 3.2：哪个更好？

Llama 3.2（3B型号）的输出

Marco-O1 vs Llama 3.2：哪个更好？

从上面的输出中可以看出，即使两个模型都提供了准确的响应，Marco-O1模型的响应是更加解释的，并且可以详尽地提出大量参数和两次检查以得出答案，而与Llama 3.2相比。

任务5：脆弱的数学上下文

“奥利弗（Oliver）在星期五选择44猕猴桃，然后在周六58次。周日，他在周五选择了他的两倍，但其中五个小于平均水平。奥利弗有几个猕猴桃？”

来自Marco-O1的输出

Marco-O1 vs Llama 3.2：哪个更好？

Llama 3.2（3B型号）的输出

Marco-O1 vs Llama 3.2：哪个更好？

从上面的输出中可以看出，即使两个模型都提供了准确的响应，Llama 3.2的响应与其他信息相混淆（但其中五个小于平均水平）是不准确的，因此从实际答案中减去5。但是，MARCO-O1的输出是准确的，并提供了详细的解释。

任务6：矛盾的信息

约翰对花生过敏。他吃了一个花生酱三明治，感觉很好。什么<br> 我们可以就约翰的过敏得出结论吗？”

登录后复制

来自Marco-O1的输出

Marco-O1 vs Llama 3.2：哪个更好？

Llama 3.2（3B型号）的输出

Marco-O1 vs Llama 3.2：哪个更好？

从Marco-O1模型的响应中可以看出，这是很多解释和详尽的提出的论点和双重检查以得出答案的。 Llama 3.2的反应似乎并没有完全准确，因为“他只是胃部不适或对花生酱的不耐受”的信息不准确，并且与查询中给出的信息不准确。

结果：Marco-O1 vs Llama 3.2

任务	MARCO-O1性能	骆驼3.2（3B型）性能	优胜者
任务1：逻辑推理	准确地说明	准确但详细	Marco-O1
任务2：草莓测试	准确的	不准确	Marco-O1
任务3：几何推理	准确地说明	准确但详细	Marco-O1
任务4：逐步推理	准确地说明	准确但详细	Marco-O1
任务5：有歧义的三段论	精确的解释和双重检查	准确但详细	Marco-O1
任务6：脆弱的数学上下文	准确地说明	不准确（被其他信息混淆）	Marco-O1
任务7：矛盾的信息	精确的解释和双重检查	不准确（提供矛盾的信息）	Marco-O1

结论

MARCO-O1模型代表了AI处理复杂推理任务的能力的重大进步，尤其是通过其创新的蒙特卡洛树搜索和经过经过经过经过经过经验的精细调整的精细调整。它在数学，物理和多语言任务等各个领域的多功能性使其与传统模型不同。同时，Llama 3.2模型为边缘设备提供了有效的性能，在诸如摘要和跟随指令之类的任务中都表现出色。这两种模型都展示了AI的持续发展，每个模型都在自己的领域中脱颖而出，并共同强调了先进语言模型在解决现实世界中的巨大潜力。