小米开源多模态大模型MiMo-VL 称多方面优于Qwen2.5-VL-7B

絕刀狂花
发布: 2025-07-31 13:36:14
原创
221人浏览过

【php中文网快讯】5月30日,小米通过其官方公众号“xiaomi mimo”正式宣布,旗下多模态大模型 xiaomi mimo-vl 开源。此次开源包括 mimo-vl-7b 的 rl 前后两个版本,以及支持超过 50 项评测任务的完整框架,代码已上传至 github。

小米开源多模态大模型MiMo-VL 称多方面优于Qwen2.5-VL-7B

MiMo-VL 在多项任务中展现出卓越能力,尤其在多模态推理方面表现亮眼。尽管参数规模仅为 7B,MiMo-VL-7B 在奥林匹克竞赛数据集(OlympiadBench)及多个数学视觉评测(如 MathVision、MathVerse)中,显著优于参数量高达其 10 倍的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview 模型,甚至在部分指标上超越闭源模型 GPT-4o。在小米内部用于评估真实用户交互体验的大模型竞技场测试中,MiMo-VL-7B 同样力压 GPT-4o,成为当前开源领域中的领先者。

小米开源多模态大模型MiMo-VL 称多方面优于Qwen2.5-VL-7B

尤为引人注目的是,MiMo-VL-7B 不仅擅长复杂图像理解与问答任务,还能执行长达十余步的 GUI 操作流程,展现出在智能 Agent 时代的巨大应用前景。例如,该模型可协助用户完成将心仪商品(如小米 SU7)加入心愿单等操作。

据官方披露,小米团队构建了一套高质量的预训练多模态数据集,涵盖图像-文本对、视频-文本对以及 GUI 操作序列等多种类型,总计达 2.4T tokens。通过分阶段动态调整各类数据比例,有效增强了模型的长程多模态推理能力。同时,团队创新性地采用混合在线强化学习算法(Mixed On-policy Reinforcement Learning, MORL),融合文本推理、多模态感知与 RLHF 等多种反馈信号,全面提升了模型在推理、感知及用户体验方面的综合表现。

以上就是小米开源多模态大模型MiMo-VL 称多方面优于Qwen2.5-VL-7B的详细内容,更多请关注php中文网其它相关文章!

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载
相关标签:
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号