視覺強化微調！ DeepSeek R1技術成功遷移到多模態領域，全面開源-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

視覺強化微調！ DeepSeek R1技術成功遷移到多模態領域，全面開源

Linda Hamilton

Mar 12, 2025 pm 01:12 PM

git ai 信箱產業寶可夢 DeepSeek 视觉强化 qwen

重磅推荐：Visual-RFT——视觉强化微调开源项目，赋能视觉语言模型！

視覺強化微調！ DeepSeek R1技術成功遷移到多模態領域，全面開源

AIxiv专栏持续关注全球顶尖AI研究，已发布2000余篇学术技术文章。欢迎投稿分享您的优秀成果！投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

Visual-RFT (Visual Reinforcement Fine-Tuning) 项目，将基于规则奖励的强化学习与强化微调（RFT）范式成功应用于视觉语言大模型（LVLM），突破了以往方法仅限于文本、数学等领域的局限。通过为视觉细分类、目标检测等任务设计特定规则奖励，Visual-RFT 为LVLM训练提供了全新思路！

图1展示了Visual-RFT的强大泛化能力：模型仅需少量数据，便能准确识别視覺強化微調！ DeepSeek R1技術成功遷移到多模態領域，全面開源中特定宝可梦并定位其坐标。

視覺強化微調！ DeepSeek R1技術成功遷移到多模態領域，全面開源

^{图 1. Visual-RFT 将强化微调扩展到多模态，只需10-1000条数据即可显著提升模型性能。}

从RFT到Visual-RFT：强化学习在多模态领域的突破

OpenAI的强化微调技术，只需少量样本即可实现模型能力迁移。DeepSeek-R1揭示了其强大的推理能力源于基于可验证奖励的强化学习策略。然而，该策略此前主要应用于文本、数学等领域。Visual-RFT将此策略成功拓展至视觉领域，通过构建可验证规则奖励，解决了传统方法在视觉领域的局限性，实现高效、高泛化性的视觉理解与推理。

传统的视觉指令微调（SFT）需要大量数据，而Visual-RFT的少样本学习能力使其在数据稀缺场景下更具优势。

为了验证Visual-RFT的泛化能力，研究团队在目标检测、分类、 grounding等多个视觉任务上进行了测试。结果显示，Visual-RFT在开放词汇、少样本学习等设定下，仅需少量数据即可实现显著性能提升，并优于SFT方法。尤其在推理定位任务中，Visual-RFT展现出卓越的视觉推理能力。（详见论文）

視覺強化微調！ DeepSeek R1技術成功遷移到多模態領域，全面開源

^{图 2. Visual-RFT在多个视觉任务上显著超越SFT。}

視覺強化微調！ DeepSeek R1技術成功遷移到多模態領域，全面開源

^{图 3. Visual-RFT框架图，利用IoU和cls奖励以及强化学习策略更新模型参数。}

研究团队使用基于IoU的可验证奖励用于检测和grounding任务，使用基于分类正确性的cls奖励用于分类任务。（如图3所示）

視覺強化微調！ DeepSeek R1技術成功遷移到多模態領域，全面開源

^{图 4. 推理定位结果展示，Visual-RFT超越SFT，更精准地定位物体。}

視覺強化微調！ DeepSeek R1技術成功遷移到多模態領域，全面開源

^{图 5. 推理细粒度分类结果展示，Visual-RFT超越SFT，更精准地定位物体。}

图4和图5展示了模型输出结果，Visual-RFT通过强化学习策略，进行深入的推理分析，取得了优于SFT的性能。

Visual-RFT实验结果

基于QWen2-VL 2B/7B模型，Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上全面超越SFT。实验数据涵盖COCO、LVIS等通用场景和互联网卡通人物等开放场景。仅需少量数据，Visual-RFT即可实现能力迁移，展现出卓越的性能和鲁棒性。

視覺強化微調！ DeepSeek R1技術成功遷移到多模態領域，全面開源

^{图 5. 部分实验结果展示，Visual-RFT显著超越SFT。}

Visual-RFT已开源！

Visual-RFT项目已开源，包含训练、评估代码和数据。欢迎参与！

项目地址：https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453

以上是視覺強化微調！ DeepSeek R1技術成功遷移到多模態領域，全面開源的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1663

CakePHP 教程

1419

Laravel 教程

1313

PHP教程

1264

C# 教程

1237

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

MySQL批量插入數據的高效方法 Apr 29, 2025 pm 04:18 PM

MySQL批量插入数据的高效方法包括：1.使用INSERTINTO...VALUES语法，2.利用LOADDATAINFILE命令，3.使用事务处理，4.调整批量大小，5.禁用索引，6.使用INSERTIGNORE或INSERT...ONDUPLICATEKEYUPDATE，这些方法能显著提升数据库操作效率。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

deepseek官網是如何實現鼠標滾動事件穿透效果的？ Apr 30, 2025 pm 03:21 PM

如何實現鼠標滾動事件穿透效果？在我們瀏覽網頁時，經常會遇到一些特別的交互設計。比如在deepseek官網上，�...

C 中的字符串流如何使用？ Apr 28, 2025 pm 09:12 PM

C 中使用字符串流的主要步驟和注意事項如下：1.創建輸出字符串流並轉換數據，如將整數轉換為字符串。 2.應用於復雜數據結構的序列化，如將vector轉換為字符串。 3.注意性能問題，避免在處理大量數據時頻繁使用字符串流，可考慮使用std::string的append方法。 4.注意內存管理，避免頻繁創建和銷毀字符串流對象，可以重用或使用std::stringstream。

See all articles

視覺強化微調！ DeepSeek R1技術成功遷移到多模態領域，全面開源

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題