Maison développement back-end C++ Pourquoi le Popcount 64 bits est-il plus lent que 32 bits sur les processeurs Intel en raison de fausses dépendances de données ?

Pourquoi le Popcount 64 bits est-il plus lent que 32 bits sur les processeurs Intel en raison de fausses dépendances de données ?

Dec 09, 2024 pm 10:19 PM

Why is 64-bit Popcount Slower Than 32-bit on Intel CPUs Due to False Data Dependencies?

Une fausse dépendance aux données a un impact sur les performances du Popcount sur les processeurs Intel

Problème :

Vous avez observé des écarts de performances entre l'utilisation d'un compteur de boucles 32 bits et 64 bits pour les opérations de comptage pop-up sur les processeurs Intel. Les performances ont chuté de 50 % lors de l'utilisation d'un compteur 64 bits, initialement attribuées à un bug du compilateur.

Explication : fausse dépendance des données

Les processeurs Intel ont une fausse dépendance sur le registre de destination dans les instructions popcnt, ce qui affecte plusieurs itérations d'une boucle serrée. Cette dépendance bloque l'instruction jusqu'à ce que le registre de destination soit disponible. Le nombre d'instructions affectées par cette dépendance dépend de la localité de la boucle, entraînant des variations de performances.

Conséquences de la dépendance :

  • Différents registres : Lorsque la boucle utilise différents registres pour les opérations popcnt successives, la dépendance est répartie sur les itérations de la boucle, ce qui a un impact significatif performances.
  • Même registre : Si toutes les opérations popcnt utilisent le même registre, la dépendance reste au sein d'une seule itération, réduisant ainsi l'impact sur les performances.
  • Dépendance brisée Chaîne : Rompre la dépendance en introduisant une instruction sans rapport (par exemple, xor) améliore les performances en permettant au processeur de paralléliser la boucle itérations.

Comportement du compilateur :

Ni GCC ni Visual Studio ne sont conscients de cette fausse dépendance, conduisant à des performances imprévisibles basées sur l'allocation des registres. D'autres compilateurs, tels que Clang et ICC, manquent également de ces connaissances.

Performances AMD :

Les processeurs AMD ne semblent pas avoir cette fausse dépendance, contribuant à leur plus grande performances en popcount opérations.

Atténuations :

  • Assemblage en ligne : L'optimisation manuelle du code d'assemblage à l'aide de l'assemblage en ligne peut contourner la méconnaissance de la dépendance par le compilateur .
  • Briser la dépendance Chaîne : L'insertion d'une instruction sans rapport après chaque opération popcnt rompt la fausse dépendance et améliore les performances.
  • Utilisation de différents registres : L'attribution de registres différents pour des opérations popcnt consécutives peut atténuer le problème, mais peut pas toujours possible.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
Nordhold: Système de fusion, expliqué
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1674
14
Tutoriel PHP
1278
29
Tutoriel C#
1257
24
C # vs C: Histoire, évolution et perspectives d'avenir C # vs C: Histoire, évolution et perspectives d'avenir Apr 19, 2025 am 12:07 AM

L'histoire et l'évolution de C # et C sont uniques, et les perspectives d'avenir sont également différentes. 1.C a été inventé par Bjarnestrousstrup en 1983 pour introduire une programmation orientée objet dans le langage C. Son processus d'évolution comprend plusieurs normalisations, telles que C 11, introduisant des mots clés automobiles et des expressions de lambda, C 20 introduisant les concepts et les coroutines, et se concentrera sur les performances et la programmation au niveau du système à l'avenir. 2.C # a été publié par Microsoft en 2000. Combinant les avantages de C et Java, son évolution se concentre sur la simplicité et la productivité. Par exemple, C # 2.0 a introduit les génériques et C # 5.0 a introduit la programmation asynchrone, qui se concentrera sur la productivité et le cloud computing des développeurs à l'avenir.

C # vs C: courbes d'apprentissage et expérience du développeur C # vs C: courbes d'apprentissage et expérience du développeur Apr 18, 2025 am 12:13 AM

Il existe des différences significatives dans les courbes d'apprentissage de l'expérience C # et C et du développeur. 1) La courbe d'apprentissage de C # est relativement plate et convient au développement rapide et aux applications au niveau de l'entreprise. 2) La courbe d'apprentissage de C est raide et convient aux scénarios de contrôle haute performance et de bas niveau.

Qu'est-ce que l'analyse statique en C? Qu'est-ce que l'analyse statique en C? Apr 28, 2025 pm 09:09 PM

L'application de l'analyse statique en C comprend principalement la découverte de problèmes de gestion de la mémoire, la vérification des erreurs de logique de code et l'amélioration de la sécurité du code. 1) L'analyse statique peut identifier des problèmes tels que les fuites de mémoire, les doubles versions et les pointeurs non initialisés. 2) Il peut détecter les variables inutilisées, le code mort et les contradictions logiques. 3) Les outils d'analyse statique tels que la couverture peuvent détecter le débordement de tampon, le débordement entier et les appels API dangereux pour améliorer la sécurité du code.

C et XML: Explorer la relation et le soutien C et XML: Explorer la relation et le soutien Apr 21, 2025 am 12:02 AM

C interagit avec XML via des bibliothèques tierces (telles que TinyXML, PUGIXML, XERCES-C). 1) Utilisez la bibliothèque pour analyser les fichiers XML et les convertir en structures de données propices à C. 2) Lors de la génération de XML, convertissez la structure des données C au format XML. 3) Dans les applications pratiques, le XML est souvent utilisé pour les fichiers de configuration et l'échange de données afin d'améliorer l'efficacité du développement.

Comment utiliser la bibliothèque Chrono en C? Comment utiliser la bibliothèque Chrono en C? Apr 28, 2025 pm 10:18 PM

L'utilisation de la bibliothèque Chrono en C peut vous permettre de contrôler plus précisément les intervalles de temps et de temps. Explorons le charme de cette bibliothèque. La bibliothèque Chrono de C fait partie de la bibliothèque standard, qui fournit une façon moderne de gérer les intervalles de temps et de temps. Pour les programmeurs qui ont souffert de temps et ctime, Chrono est sans aucun doute une aubaine. Il améliore non seulement la lisibilité et la maintenabilité du code, mais offre également une précision et une flexibilité plus élevées. Commençons par les bases. La bibliothèque Chrono comprend principalement les composants clés suivants: std :: chrono :: system_clock: représente l'horloge système, utilisée pour obtenir l'heure actuelle. std :: chron

L'avenir de C: adaptations et innovations L'avenir de C: adaptations et innovations Apr 27, 2025 am 12:25 AM

L'avenir de C se concentrera sur l'informatique parallèle, la sécurité, la modularisation et l'apprentissage AI / Machine: 1) L'informatique parallèle sera améliorée par des fonctionnalités telles que les coroutines; 2) La sécurité sera améliorée par le biais de mécanismes de vérification et de gestion de la mémoire plus stricts; 3) La modulation simplifiera l'organisation et la compilation du code; 4) L'IA et l'apprentissage automatique inviteront C à s'adapter à de nouveaux besoins, tels que l'informatique numérique et le support de programmation GPU.

C: Est-ce que je meure ou est simplement en évolution? C: Est-ce que je meure ou est simplement en évolution? Apr 24, 2025 am 12:13 AM

C isnotdying; il se révolte.1) C reste réévèreurtoitSversatity et effecciation en termes

C # vs C: Gestion de la mémoire et collecte des ordures C # vs C: Gestion de la mémoire et collecte des ordures Apr 15, 2025 am 12:16 AM

C # utilise le mécanisme de collecte automatique des ordures, tandis que C utilise la gestion manuelle de la mémoire. 1. Le collecteur des ordures de C # gère automatiquement la mémoire pour réduire le risque de fuite de mémoire, mais peut entraîner une dégradation des performances. 2.C fournit un contrôle de mémoire flexible, adapté aux applications qui nécessitent une gestion des beaux, mais doivent être manipulées avec prudence pour éviter les fuites de mémoire.

See all articles