DECO: Pengesan Berasaskan Pertanyaan konvolusi tulen mengatasi DETR!-AI-php.cn

Jadual Kandungan

Pengenalan

Kaedah

Seni Bina Rangkaian

Pengekod

Dekoder

Ciri berbilang skala

Eksperimen

Ringkasan

Rumah

Peranti teknologi

DECO: Pengesan Berasaskan Pertanyaan konvolusi tulen mengatasi DETR!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 19, 2024 pm 04:22 PM

bingkai hujung ke hujung susunan overflow

DECO: 纯卷积Query-Based检测器超越DETR！

Tajuk: DECO: Pengesanan Objek Hujung-ke-Hujung Berasaskan Pertanyaan dengan ConvNets

Kertas: https://arxiv.org/pdf/2312.13735.pdf

Kod sumber: https://github.com / xinghaochen/DECO

Teks asal: https://zhuanlan.zhihu.com/p/686011746@王云河

Pengenalan

Selepas pengenalan Pengesanan Transformer (DETR), terdapat pengesanan sasaran , dan banyak kajian seterusnya memfokuskan kepada ketepatan Penambahbaikan telah dibuat berbanding DETR asal dari segi kelajuan dan kelajuan. Walau bagaimanapun, perbincangan diteruskan sama ada Transformers boleh menguasai sepenuhnya bidang visual. Beberapa kajian seperti ConvNeXt dan RepLKNet menunjukkan bahawa struktur CNN masih mempunyai potensi besar dalam bidang penglihatan.

DECO: 纯卷积Query-Based检测器超越DETR！

Apa yang kami terokai dalam kerja ini ialah cara menggunakan seni bina konvolusi tulen untuk mendapatkan pengesan rangka kerja seperti DETR dengan prestasi tinggi. Sebagai penghormatan kepada DETR, kami memanggil pendekatan kami DECO (Detection ConvNets). Menggunakan tetapan struktur yang serupa dengan DETR dan menggunakan Tulang Belakang yang berbeza, DECO mencapai 38.6% dan 40.8% AP pada COCO dan 35 FPS dan 28 FPS pada V100, mencapai prestasi yang lebih baik daripada DETR. Dipasangkan dengan modul seperti ciri berbilang skala yang serupa dengan RT-DETR, DECO mencapai kelajuan 47.8% AP dan 34 FPS Prestasi keseluruhan mempunyai kelebihan yang baik berbanding dengan banyak kaedah peningkatan DETR.

Kaedah

Seni Bina Rangkaian

DECO: 纯卷积Query-Based检测器超越DETR！

Ciri utama DETR ialah menggunakan struktur Transformer Encoder-Decoder untuk berinteraksi dengan imej input menggunakan satu set Pertanyaan untuk berinteraksi dengan ciri imej, dan boleh terus mengeluarkan yang ditentukan bilangan bingkai pengesanan Ini menghapuskan pergantungan pada operasi pasca pemprosesan seperti NMS. Keseluruhan seni bina DECO yang kami cadangkan adalah serupa dengan DETR Ia juga termasuk Backbone untuk pengekstrakan ciri imej, struktur Pengekod-Penyahkod untuk berinteraksi dengan Pertanyaan, dan akhirnya menghasilkan bilangan hasil pengesanan tertentu. Satu-satunya perbezaan ialah Pengekod dan Penyahkod DECO adalah struktur konvolusi semata-mata, jadi DECO ialah pengesan hujung-ke-hujung Berdasarkan Pertanyaan yang terdiri daripada lilitan tulen.

Pengekod

Penggantian struktur Pengekod DETR agak mudah Kami memilih untuk menggunakan 4 Blok ConvNeXt untuk membentuk struktur Pengekod. Secara khusus, setiap lapisan Pengekod dilaksanakan dengan menyusun lilitan kedalaman 7x7, lapisan LayerNorm, lilitan 1x1, fungsi pengaktifan GELU dan satu lagi lilitan 1x1. Di samping itu, dalam DETR, kerana seni bina Transformer mempunyai invarian permutasi pada input, pengekodan kedudukan perlu ditambah pada input setiap lapisan pengekod, tetapi untuk Pengekod yang terdiri daripada konvolusi, tidak perlu menambah sebarang pengekodan kedudukan

Dekoder

Sebagai perbandingan, penggantian Dekoder adalah jauh lebih rumit. Fungsi utama Dekoder adalah untuk berinteraksi sepenuhnya dengan ciri imej dan Pertanyaan, supaya Pertanyaan dapat melihat sepenuhnya maklumat ciri imej dan dengan itu meramalkan koordinat dan kategori sasaran dalam imej. Penyahkod terutamanya merangkumi dua input: output ciri Pengekod dan satu set vektor pertanyaan yang boleh dipelajari (Pertanyaan). Kami membahagikan struktur utama Penyahkod kepada dua modul: Modul Interaksi Kendiri (SIM) dan Modul Interaksi Silang (CIM).

DECO: 纯卷积Query-Based检测器超越DETR！

Di sini, modul SIM menyepadukan terutamanya output Pertanyaan dan lapisan Penyahkod atas Bahagian struktur ini boleh terdiri daripada beberapa lapisan konvolusi, menggunakan lilitan mendalam 9x9 dan lilitan 1x1 dalam dimensi ruang dan dimensi saluran. Lakukan pertukaran maklumat untuk mendapatkan sepenuhnya maklumat sasaran yang diperlukan dan hantar ke modul CIM seterusnya untuk pengekstrakan ciri pengesanan sasaran selanjutnya. Pertanyaan ialah satu set vektor yang dimulakan secara rawak Nombor ini menentukan bilangan bingkai pengesanan yang akhirnya dikeluarkan oleh pengesan nilai khususnya boleh dilaraskan mengikut keperluan sebenar. Untuk DECO, kerana semua struktur terdiri daripada konvolusi, kami menukar Pertanyaan kepada dua dimensi Contohnya, 100 Pertanyaan boleh menjadi 10x10 dimensi.

Fungsi utama modul CIM adalah untuk berinteraksi sepenuhnya antara ciri imej dan Pertanyaan, supaya Pertanyaan dapat melihat sepenuhnya maklumat ciri imej dan dengan itu meramalkan koordinat dan kategori sasaran dalam imej. Untuk struktur Transformer, adalah mudah untuk mencapai matlamat ini dengan menggunakan mekanisme perhatian silang, tetapi untuk struktur lilitan, cara berinteraksi sepenuhnya dengan kedua-dua ciri adalah kesukaran terbesar.

Untuk menggabungkan ciri global keluaran SIM dan keluaran pengekod dengan saiz yang berbeza, kami mesti menjajarkan kedua-duanya secara spatial dan kemudian menggabungkannya Pertama, kami melakukan pensampelan jiran terdekat pada keluaran SIM:

DECO: 纯卷积Query-Based检测器超越DETR！

supaya selepas peningkatan. Ciri-ciri mempunyai saiz yang sama seperti ciri global yang dikeluarkan oleh Pengekod, dan kemudian ciri-ciri yang telah dicontohi digabungkan dengan ciri-ciri global yang dikeluarkan oleh pengekod, dan kemudian memasuki lilitan mendalam untuk interaksi ciri dan kemudian menambah input baki:

DECO: 纯卷积Query-Based检测器超越DETR！

Akhirnya ciri yang berinteraksi ditukar untuk maklumat saluran melalui FNN, dan kemudian dikumpulkan ke nombor sasaran untuk mendapatkan pembenaman output penyahkod:

DECO: 纯卷积Query-Based检测器超越DETR！

Akhir sekali, kami menghantar pembenaman output yang diperoleh ke kepala pengesanan untuk pengelasan seterusnya dan regresi.

Ciri berbilang skala

Seperti DETR asal, DECO yang diperolehi oleh rangka kerja di atas mempunyai kelemahan biasa, iaitu kekurangan ciri berbilang skala, yang memberi impak yang besar pada pengesanan sasaran ketepatan tinggi. DETR boleh ubah bentuk menyepadukan ciri skala berbeza dengan menggunakan modul perhatian boleh ubah bentuk berbilang skala, tetapi kaedah ini digandingkan dengan kuat dengan pengendali Perhatian, jadi ia tidak boleh digunakan terus pada DECO kami. Untuk membolehkan DECO mengendalikan ciri berbilang skala, kami menggunakan modul gabungan ciri berskala silang yang dicadangkan oleh RT-DETR selepas keluaran ciri oleh Penyahkod. Malah, satu siri kaedah penambahbaikan telah diperolehi selepas kelahiran DETR Kami percaya bahawa banyak strategi juga boleh digunakan untuk DECO, dan kami berharap orang yang berminat dapat membincangkannya bersama.

Eksperimen

Kami menjalankan eksperimen pada COCO dan membandingkan DECO dan DETR sambil mengekalkan seni bina utama tidak berubah, seperti memastikan bilangan Pertanyaan konsisten, mengekalkan bilangan lapisan Penyahkod tidak berubah, dsb., dan hanya menukar Transformer dalam DETR The struktur digantikan oleh struktur konvolusi kami seperti yang diterangkan di atas. Dapat dilihat bahawa DECO telah mencapai ketepatan yang lebih baik dan pertukaran yang lebih cepat daripada DETR.

DECO: 纯卷积Query-Based检测器超越DETR！

Kami juga membandingkan DECO dengan ciri berbilang skala dan lebih banyak kaedah pengesanan sasaran, termasuk banyak varian DETR Seperti yang anda boleh lihat daripada rajah di bawah, DECO telah mencapai keputusan yang sangat baik, mencapai prestasi yang lebih baik daripada banyak pengesan sebelumnya .

DECO: 纯卷积Query-Based检测器超越DETR！

Struktur DECO dalam artikel telah menjalani banyak eksperimen dan visualisasi ablasi, termasuk strategi gabungan khusus (penambahan, pendaraban titik, Concat) yang dipilih dalam Penyahkod dan cara menetapkan dimensi Pertanyaan untuk mencapai hasil yang optimum. dan lain-lain, terdapat juga beberapa penemuan menarik Untuk hasil dan perbincangan yang lebih terperinci, sila rujuk artikel asal.

Ringkasan

Kertas ini bertujuan untuk mengkaji sama ada adalah mungkin untuk membina rangka kerja pengesanan objek hujung ke hujung berasaskan pertanyaan tanpa menggunakan seni bina Transformer yang kompleks. Rangka kerja pengesanan baharu yang dipanggil Detection ConvNet (DECO) dicadangkan, termasuk rangkaian tulang belakang dan struktur penyahkod-pengekod konvolusi. Dengan mereka bentuk pengekod DECO dengan teliti dan memperkenalkan mekanisme baru, penyahkod DECO dapat mencapai interaksi antara pertanyaan sasaran dan ciri imej melalui lapisan konvolusi. Perbandingan dibuat dengan pengesan sebelumnya pada penanda aras COCO, dan walaupun mudah, DECO mencapai prestasi kompetitif dari segi ketepatan pengesanan dan kelajuan larian. Khususnya, menggunakan tulang belakang ResNet-50 dan ConvNeXt-Tiny, DECO mencapai 38.6% dan 40.8% AP pada set pengesahan COCO masing-masing pada 35 dan 28 FPS, mengatasi prestasi model DET. Diharapkan DECO memberikan perspektif baharu dalam mereka bentuk rangka kerja pengesanan objek.

Atas ialah kandungan terperinci DECO: Pengesan Berasaskan Pertanyaan konvolusi tulen mengatasi DETR!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

4 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

4 minggu yang lalu By DDD

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

3 minggu yang lalu By DDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Java

1664

Tutorial CakePHP

1423

Tutorial Laravel

1317

Tutorial PHP

1268

Tutorial C#

1245

Tunjukkan Lagi

Related knowledge

Adakah saya perlu menggunakan Flexbox di tengah gambar bootstrap? Apr 07, 2025 am 09:06 AM

Terdapat banyak cara untuk memusatkan gambar bootstrap, dan anda tidak perlu menggunakan Flexbox. Jika anda hanya perlu berpusat secara mendatar, kelas pusat teks sudah cukup; Jika anda perlu memusatkan elemen secara menegak atau berganda, Flexbox atau Grid lebih sesuai. Flexbox kurang serasi dan boleh meningkatkan kerumitan, manakala grid lebih berkuasa dan mempunyai kos pengajian yang lebih tinggi. Apabila memilih kaedah, anda harus menimbang kebaikan dan keburukan dan memilih kaedah yang paling sesuai mengikut keperluan dan keutamaan anda.

Adakah pengeluaran halaman H5 adalah pembangunan front-end? Apr 05, 2025 pm 11:42 PM

Ya, pengeluaran halaman H5 adalah kaedah pelaksanaan penting untuk pembangunan front-end, yang melibatkan teknologi teras seperti HTML, CSS dan JavaScript. Pemaju membina halaman H5 yang dinamik dan berkuasa dengan bijak menggabungkan teknologi ini, seperti menggunakan & lt; kanvas & gt; Tag untuk menarik grafik atau menggunakan JavaScript untuk mengawal tingkah laku interaksi.

Cara Melaraskan Senarai Artikel WordPress Apr 20, 2025 am 10:48 AM

Terdapat empat cara untuk menyesuaikan senarai artikel WordPress: Gunakan pilihan tema, gunakan plugin (seperti pesanan jenis pos, senarai pos WP, barangan boxy), gunakan kod (tambah tetapan dalam fail fungsi.php), atau ubah suai pangkalan data WordPress secara langsung.

Bagaimana untuk mengawal bahagian atas dan akhir halaman dalam tetapan percetakan penyemak imbas melalui JavaScript atau CSS? Apr 05, 2025 pm 10:39 PM

Cara menggunakan JavaScript atau CSS untuk mengawal bahagian atas dan akhir halaman dalam tetapan percetakan penyemak imbas. Dalam tetapan percetakan penyemak imbas, ada pilihan untuk mengawal sama ada paparan ...

Bagaimana untuk menyesuaikan simbol saiz semula melalui CSS dan menjadikannya seragam dengan warna latar belakang? Apr 05, 2025 pm 02:30 PM

Kaedah penyesuaian simbol saiz semula dalam CSS bersatu dengan warna latar belakang. Dalam perkembangan harian, kita sering menghadapi situasi di mana kita perlu menyesuaikan butiran antara muka pengguna, seperti menyesuaikan ...

Bagaimana dengan elegan menyelesaikan masalah jarak yang terlalu kecil dari tag span selepas rehat garis? Apr 05, 2025 pm 06:00 PM

Cara dengan elegan mengendalikan jarak tag span selepas garis baru dalam susun atur laman web, anda sering memenuhi keperluan untuk mengatur pelbagai rentang secara mendatar ...

Cara memusatkan gambar dalam bekas untuk bootstrap Apr 07, 2025 am 09:12 AM

Gambaran Keseluruhan: Terdapat banyak cara untuk memusatkan imej menggunakan Bootstrap. Kaedah Asas: Gunakan kelas MX-AUTO ke pusat secara mendatar. Gunakan kelas IMG-cecair untuk menyesuaikan diri dengan bekas induk. Gunakan kelas D-block untuk menetapkan imej ke elemen peringkat blok (pusat menegak). Kaedah Lanjutan: Susun atur Flexbox: Gunakan sifat-Center-Center-Center dan Align-Items-Center. Susun atur Grid: Gunakan Tempat-Item: Properti Pusat. Amalan terbaik: Elakkan bersarang dan gaya yang tidak perlu. Pilih kaedah terbaik untuk projek ini. Perhatikan pemeliharaan kod dan elakkan mengorbankan kualiti kod untuk meneruskan kegembiraan

Penyataan Pilih SQL Master: Panduan Komprehensif Apr 08, 2025 pm 06:39 PM

Pernyataan SQLSelect Penjelasan Terperinci Penjelasan Pilih adalah arahan yang paling asas dan biasa digunakan dalam SQL, yang digunakan untuk mengekstrak data dari jadual pangkalan data. Data yang diekstrak dibentangkan sebagai set hasil. Pilih Penyataan Syntax SelectColumn1, Column2, ... FROMTABLE_NAMEWHERECONDITIONORDERByColumn_name [asc | desc]; Pilih Klausa Pemilihan Komponen Penyata (Pilih): Tentukan lajur yang akan diambil. Gunakan * untuk memilih semua lajur. Sebagai contoh: selectfirst_name, last_namefromemployees; Klausa sumber (fr

See all articles