Maison Tutoriel matériel Examen du matériel Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Mar 12, 2025 pm 01:03 PM
git ai 模型 背后 modal DeepSeek o1 sft 显著

Des chercheurs de l'Université de Shanghai Jiaotong, de Shanghai AI Lab et de l'Université chinoise de Hong Kong ont lancé le projet open source visual-RFT (visual d'amélioration), qui ne nécessite qu'une petite quantité de données pour améliorer considérablement les performances des mockups du langage visuel (LVLM). Visual-RFT combine intelligemment l'approche d'apprentissage en renforcement basée sur les règles de Deepseek-R1 avec le paradigme de relâchement de renforcement d'OpenAI (RFT), prolongeant avec succès cette approche du champ de texte au champ visuel.

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

En concevant les récompenses de règles correspondantes pour des tâches telles que la sous-catégorisation visuelle et la détection d'objets, Visual-RFT surmonte les limites de la méthode Deepseek-R1 limitée au texte, au raisonnement mathématique et à d'autres domaines, fournissant une nouvelle façon de formation LVLM.

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Avantages de Visual-RFT:

Par rapport aux méthodes de réglage de réglage des instructions visuelles traditionnelles (SFT), Visual-RFT présente les avantages significatifs suivants:

  • Moins d'échantillons d'apprentissage: seulement 10 à 1000 données peuvent être utilisées pour atteindre un réglage fin efficace.
  • Généralisation plus forte: dans les scénarios avec des données limitées, les performances sont meilleures que SFT.

Les chercheurs ont vérifié la RFT visuelle sur plusieurs tâches de perception visuelle (détection, classification, emplacement, etc.), et les résultats ont montré que le RFT visuel a réalisé des améliorations de performances significatives et facilement un transfert de capacités, même dans les milieux du vocabulaire ouvert et de l'apprentissage de petits échantillons.

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Les chercheurs ont conçu des récompenses vérifiables correspondantes pour différentes tâches: des récompenses basées sur l'IOU sont utilisées pour les tâches de détection et de positionnement, et les récompenses basées sur l'exactitude de la classification sont utilisées pour les tâches de classification.

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Dans la tâche de positionnement d'inférence, Visual-RFT montre de fortes capacités de raisonnement visuel, comme l'identification avec précision de lunettes imperméables que les athlètes doivent porter en images.

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Résultats expérimentaux:

Des expériences basées sur le modèle QWEN2-VL 2B / 7B montrent que Visual-RFT est supérieur à SFT dans la détection d'objets ouverts, la détection de petits échantillons, la classification à grains fins et les tâches de positionnement d'inférence. Même si vous détectez un caractère d'anime spécifique (comme Slime), Visual-RFT peut être réalisé avec juste une petite quantité de données.

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Informations open source:

Le projet Visual-RFT est open source et contient une formation, un code d'évaluation et des données.

Adresse du projet: https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Système de fusion, expliqué
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1666
14
Tutoriel PHP
1273
29
Tutoriel C#
1253
24
Étapes pour ajouter et supprimer les champs aux tables MySQL Étapes pour ajouter et supprimer les champs aux tables MySQL Apr 29, 2025 pm 04:15 PM

Dans MySQL, ajoutez des champs en utilisant alterTableTable_namEaddColumnNew_Columnvarchar (255) AfterExist_Column, supprimez les champs en utilisant alterTableTable_NamedRopColumnColumn_to_drop. Lorsque vous ajoutez des champs, vous devez spécifier un emplacement pour optimiser les performances de la requête et la structure des données; Avant de supprimer les champs, vous devez confirmer que l'opération est irréversible; La modification de la structure de la table à l'aide du DDL en ligne, des données de sauvegarde, de l'environnement de test et des périodes de faible charge est l'optimisation des performances et les meilleures pratiques.

Classement d'échange quantitatif 2025 Top 10 des recommandations pour les applications de trading quantitatif de la monnaie numérique Classement d'échange quantitatif 2025 Top 10 des recommandations pour les applications de trading quantitatif de la monnaie numérique Apr 30, 2025 pm 07:24 PM

Les outils de quantification intégrés de l'échange comprennent: 1. Binance: fournit un module quantitatif à terme Binance Futures, des frais de manutention faible et prend en charge les transactions assistées par l'IA. 2. OKX (OUYI): prend en charge la gestion multi-comptes et le routage des ordres intelligents, et fournit un contrôle des risques au niveau institutionnel. Les plates-formes de stratégie quantitative indépendantes comprennent: 3. 3Commas: générateur de stratégie de glisser-déposer, adapté à l'arbitrage de la couverture multiplateforme. 4. Quadancy: Bibliothèque de stratégie d'algorithme de niveau professionnel, soutenant les seuils de risque personnalisés. 5. Pionex: stratégie prédéfinie intégrée, frais de transaction bas. Les outils de domaine vertical incluent: 6. CryptoPper: plate-forme quantitative basée sur le cloud, prenant en charge 150 indicateurs techniques. 7. Bitsgap:

Comment le site officiel Deepseek réalise-t-il l'effet de l'événement de défilement de souris pénétrant? Comment le site officiel Deepseek réalise-t-il l'effet de l'événement de défilement de souris pénétrant? Apr 30, 2025 pm 03:21 PM

Comment réaliser l'effet de la pénétration des événements de défilement de la souris? Lorsque nous naviguons sur le Web, nous rencontrons souvent des conceptions d'interaction spéciales. Par exemple, sur le site officiel Deepseek, � ...

Un moyen efficace d'inserter les données dans MySQL Un moyen efficace d'inserter les données dans MySQL Apr 29, 2025 pm 04:18 PM

Méthodes efficaces pour les données d'insertion par lots dans MySQL Incluent: 1. Utilisation d'inserto ... Syntaxe des valeurs, 2. Utilisation de la commande chargedatainfile, 3. Utilisation du traitement des transactions, 4. Ajuster la taille du lot, 5. Désactiver l'indexation, 6. Utilisation de l'insertion ou de l'insert ... onduplicatekeyupdate, ces méthodes peuvent améliorer considérablement l'efficacité du fonctionnement de la base de données.

Comment utiliser les fonctions MySQL pour le traitement et le calcul des données Comment utiliser les fonctions MySQL pour le traitement et le calcul des données Apr 29, 2025 pm 04:21 PM

Les fonctions MySQL peuvent être utilisées pour le traitement et le calcul des données. 1. L'utilisation de base comprend le traitement des chaînes, le calcul de la date et les opérations mathématiques. 2. L'utilisation avancée consiste à combiner plusieurs fonctions pour implémenter des opérations complexes. 3. L'optimisation des performances nécessite d'éviter l'utilisation de fonctions dans la clause où et d'utiliser des tables groupby et temporaires.

Les meilleurs packs d'extension de Laravel recommandés: 2024 outils essentiels Les meilleurs packs d'extension de Laravel recommandés: 2024 outils essentiels Apr 30, 2025 pm 02:18 PM

Les packages d'extension Laravel essentiels pour 2024 incluent: 1. Laraveldebugbar, utilisé pour surveiller et déboguer le code; 2. Laraveltelescope, fournissant une surveillance détaillée des applications; 3. Laravelhorizon, gérant les tâches de file d'attente Redis. Ces packs d'extension peuvent améliorer l'efficacité du développement et les performances des applications.

Top 10 des plates-formes de trading de devises numériques: 10 premiers échanges de devises numériques sûrs et fiables Top 10 des plates-formes de trading de devises numériques: 10 premiers échanges de devises numériques sûrs et fiables Apr 30, 2025 pm 04:30 PM

Les 10 principales plates-formes de trading de devises virtuelles numériques sont: 1. Binance, 2. Okx, 3. Coinbase, 4. Kraken, 5. Huobi Global, 6. Bitfinex, 7. Kucoin, 8. Gemini, 9. Bitstamp, 10. Bittrex. Ces plateformes offrent toutes une haute sécurité et une variété d'options de trading, adaptées à différents besoins des utilisateurs.

Easeprotocol.com implémente directement la norme du message ISO 20022 en tant que contrat intelligent blockchain Easeprotocol.com implémente directement la norme du message ISO 20022 en tant que contrat intelligent blockchain Apr 30, 2025 pm 05:06 PM

Ce développement révolutionnaire permettra aux institutions financières de tirer parti de la norme ISO20022 globalement reconnue pour automatiser les processus bancaires à travers différents écosystèmes de blockchain. Le protocole d'assistance est une plate-forme de blockchain au niveau de l'entreprise conçue pour promouvoir une adoption généralisée grâce à des méthodes faciles à utiliser. Il a annoncé aujourd'hui qu'il avait réussi à intégrer la norme de messagerie ISO20022 et l'a incorporé directement dans les contrats intelligents de la blockchain. Cette évolution permettra aux institutions financières d'automatiser facilement les processus bancaires dans différents écosystèmes de blockchain en utilisant la norme ISO20022 reconnue globalement, qui remplace le système de messagerie rapide. Ces fonctionnalités seront bientôt essayées sur "Easetestnet". Easeprotocolarchitecteddou

See all articles