Rumah pembangunan bahagian belakang C++ Bagaimanakah AVX2 Boleh Digunakan Paling Cekap untuk Pembungkusan Kiri dengan Topeng?

Bagaimanakah AVX2 Boleh Digunakan Paling Cekap untuk Pembungkusan Kiri dengan Topeng?

Dec 22, 2024 pm 04:39 PM

How Can AVX2 Be Used Most Efficiently for Left Packing with a Mask?

Masalah Pembungkusan Kiri

Pertimbangkan senario di mana terdapat tatasusunan input dan tatasusunan output, tetapi hanya elemen tertentu yang memenuhi syarat perlu ditulis pada tatasusunan output. Apakah pendekatan yang paling berkesan untuk mencapai ini menggunakan AVX2?

Pendekatan SSE

Pendekatan SSE melibatkan penggunaan _mm_movemask_ps untuk mengekstrak topeng 4-bit daripada topeng input, dan kemudian menggunakan topeng ini untuk menjana data kawalan shuffle dengan _mm_load_si128. Akhir sekali, _mm_shuffle_epi8 digunakan untuk mengubah suai nilai untuk menjajarkan elemen yang sah di hadapan daftar SIMD. Pendekatan ini berfungsi dengan baik untuk vektor SSE 4 lebar dengan jadual carian (LUT) 16 entri.

Penghadan AVX

Walau bagaimanapun, untuk AVX 8 lebar vektor, LUT memerlukan bilangan entri yang jauh lebih besar (256), setiap satu dengan 32 bait, menghasilkan 8k memori penggunaan. Adalah menghairankan bahawa AVX tidak menawarkan arahan untuk memudahkan proses ini, seperti kedai bertopeng dengan pembungkusan.

Penyelesaian AVX2

Walaupun kekurangan arahan khusus , adalah mungkin untuk mencapai pembungkusan kiri yang cekap dalam AVX2 menggunakan gabungan teknik:

  • Gunakan vpermps untuk pembolehubah-shuffle: _mm256_permutevar8x32_ps boleh digunakan untuk melakukan kocok pembolehubah lintasan lorong, membenarkan data dibungkus berdasarkan topeng.
  • Jana topeng pada fly: BMI2 menyediakan arahan pext (Ekstrak Bit Selari), yang boleh digunakan untuk mengekstrak bit daripada topeng input dan menjana data kawalan shuffle.
  • Elakkan pdep/pext pada CPU AMD : CPU AMD sebelum Zen 3 mempunyai kependaman yang jauh lebih tinggi untuk pdep dan pext, jadi pendekatan alternatif mungkin diperlukan untuk optimum prestasi.

Algoritma

Algoritma untuk pembungkusan kiri dalam AVX2 melibatkan langkah berikut:

  1. Ekstrak indeks daripada input topeng menggunakan pext.
  2. Buka bungkusan indeks untuk menjana shuffle mask.
  3. Gunakan vpermps untuk mengocok data input mengikut topeng shuffle.

Kesimpulan

Pendekatan ini menyediakan penyelesaian yang sangat cekap untuk pembungkusan kiri dalam AVX2. Dengan menggunakan vpermp, pext dan arahan BMI2 yang lain, adalah mungkin untuk membungkus data berdasarkan topeng dengan overhed dan kependaman minimum.

Atas ialah kandungan terperinci Bagaimanakah AVX2 Boleh Digunakan Paling Cekap untuk Pembungkusan Kiri dengan Topeng?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial Java
1660
14
Tutorial PHP
1261
29
Tutorial C#
1234
24
C# vs C: Sejarah, evolusi, dan prospek masa depan C# vs C: Sejarah, evolusi, dan prospek masa depan Apr 19, 2025 am 12:07 AM

Sejarah dan evolusi C# dan C adalah unik, dan prospek masa depan juga berbeza. 1.C dicipta oleh BjarnestroustRup pada tahun 1983 untuk memperkenalkan pengaturcaraan berorientasikan objek ke dalam bahasa C. Proses evolusinya termasuk pelbagai standardisasi, seperti C 11 memperkenalkan kata kunci auto dan ekspresi Lambda, C 20 memperkenalkan konsep dan coroutin, dan akan memberi tumpuan kepada pengaturcaraan prestasi dan sistem pada masa akan datang. 2.C# telah dikeluarkan oleh Microsoft pada tahun 2000. Menggabungkan kelebihan C dan Java, evolusinya memberi tumpuan kepada kesederhanaan dan produktiviti. Sebagai contoh, C#2.0 memperkenalkan generik dan C#5.0 memperkenalkan pengaturcaraan tak segerak, yang akan memberi tumpuan kepada produktiviti pemaju dan pengkomputeran awan pada masa akan datang.

C dan Pengaturcaraan Sistem: Kawalan Rendah dan Interaksi Perkakasan C dan Pengaturcaraan Sistem: Kawalan Rendah dan Interaksi Perkakasan Apr 06, 2025 am 12:06 AM

C sesuai untuk pengaturcaraan sistem dan interaksi perkakasan kerana ia menyediakan keupayaan kawalan dekat dengan perkakasan dan ciri-ciri kuat pengaturcaraan berorientasikan objek. 1) C melalui ciri-ciri peringkat rendah seperti penunjuk, pengurusan memori dan operasi bit, operasi peringkat sistem yang cekap dapat dicapai. 2) Interaksi perkakasan dilaksanakan melalui pemacu peranti, dan C boleh menulis pemandu ini untuk mengendalikan komunikasi dengan peranti perkakasan.

Masa Depan C dan XML: Trend dan Teknologi Muncul Masa Depan C dan XML: Trend dan Teknologi Muncul Apr 10, 2025 am 09:28 AM

Trend pembangunan masa depan C dan XML adalah: 1) C akan memperkenalkan ciri -ciri baru seperti modul, konsep dan coroutin melalui piawaian C 20 dan C 23 untuk meningkatkan kecekapan dan keselamatan pengaturcaraan; 2) XML akan terus menduduki kedudukan penting dalam pertukaran data dan fail konfigurasi, tetapi akan menghadapi cabaran JSON dan YAML, dan akan berkembang dengan lebih ringkas dan mudah untuk menghuraikan arahan, seperti penambahbaikan XMLSChema1.1 dan XPath3.1.

Penggunaan berterusan C: Sebab -sebab ketahanannya Penggunaan berterusan C: Sebab -sebab ketahanannya Apr 11, 2025 am 12:02 AM

C Alasan penggunaan berterusan termasuk prestasi tinggi, aplikasi luas dan ciri -ciri yang berkembang. 1) Prestasi kecekapan tinggi: C melaksanakan dengan baik dalam pengaturcaraan sistem dan pengkomputeran berprestasi tinggi dengan terus memanipulasi memori dan perkakasan. 2) Digunakan secara meluas: bersinar dalam bidang pembangunan permainan, sistem tertanam, dan lain -lain. 3) Evolusi berterusan: Sejak pembebasannya pada tahun 1983, C terus menambah ciri -ciri baru untuk mengekalkan daya saingnya.

C multithreading and concurrency: Menguasai pengaturcaraan selari C multithreading and concurrency: Menguasai pengaturcaraan selari Apr 08, 2025 am 12:10 AM

C Konsep teras pengaturcaraan multithreading dan serentak termasuk penciptaan dan pengurusan thread, penyegerakan dan pengecualian bersama, pembolehubah bersyarat, penyatuan thread, pengaturcaraan tak segerak, kesilapan umum dan teknik debugging, dan pengoptimuman prestasi dan amalan terbaik. 1) Buat benang menggunakan kelas STD :: Thread. Contohnya menunjukkan cara membuat dan menunggu benang selesai. 2) Segerakkan dan pengecualian bersama untuk menggunakan std :: mutex dan std :: lock_guard untuk melindungi sumber bersama dan mengelakkan persaingan data. 3) Pemboleh ubah keadaan menyedari komunikasi dan penyegerakan antara benang melalui std :: condition_variable. 4) Contoh kolam benang menunjukkan cara menggunakan kelas threadpool untuk memproses tugas selari untuk meningkatkan kecekapan. 5) Pengaturcaraan Asynchronous menggunakan std :: as

C dan XML: Meneroka hubungan dan sokongan C dan XML: Meneroka hubungan dan sokongan Apr 21, 2025 am 12:02 AM

C Berinteraksi dengan XML melalui perpustakaan pihak ketiga (seperti TinyXML, PugixML, Xerces-C). 1) Gunakan perpustakaan untuk menghuraikan fail XML dan menukarnya ke dalam struktur data C-diproses. 2) Apabila menjana XML, tukar struktur data C ke format XML. 3) Dalam aplikasi praktikal, XML sering digunakan untuk fail konfigurasi dan pertukaran data untuk meningkatkan kecekapan pembangunan.

C Dive Deep: Menguasai Pengurusan Memori, Poin, dan Templat C Dive Deep: Menguasai Pengurusan Memori, Poin, dan Templat Apr 07, 2025 am 12:11 AM

Pengurusan memori C, petunjuk dan templat adalah ciri teras. 1. Pengurusan memori secara manual memperuntukkan dan melepaskan memori melalui baru dan memadam, dan memberi perhatian kepada perbezaan antara timbunan dan timbunan. 2. Pointers membenarkan operasi langsung alamat memori, dan gunakannya dengan berhati -hati. Penunjuk pintar dapat memudahkan pengurusan. 3.

Komuniti C: Sumber, Sokongan, dan Pembangunan Komuniti C: Sumber, Sokongan, dan Pembangunan Apr 13, 2025 am 12:01 AM

C Pelajar dan pemaju boleh mendapatkan sumber dan sokongan dari StackOverflow, Komuniti R/CPP Reddit, Coursera dan EDX, Projek Sumber Terbuka di GitHub, Perkhidmatan Perundingan Profesional, dan CPPCON. 1. StackOverflow memberikan jawapan kepada soalan teknikal; 2. Komuniti R/CPP Reddit berkongsi berita terkini; 3. Coursera dan EDX menyediakan kursus f rasmi; 4. Projek sumber terbuka pada GitHub seperti LLVM dan meningkatkan kemahiran meningkatkan; 5. Perkhidmatan perundingan profesional seperti jetbrains dan perforce menyediakan sokongan teknikal; 6. CPPCON dan persidangan lain membantu kerjaya

See all articles