Adakah data sintetik akan memacu masa depan latihan AI/ML?-AI-php.cn

Jadual Kandungan

Tetapi apakah itu data sintetik?

Faedah (Tidak Ketara)

Rumah

Peranti teknologi

Adakah data sintetik akan memacu masa depan latihan AI/ML?

王林

Apr 14, 2023 am 09:52 AM

ai data sintetik ml

合成数据会推动 AI/ML 训练的未来吗？

Tidak dinafikan bahawa mengumpul data sebenar untuk melatih kecerdasan buatan atau pembelajaran mesin (AI/ML) memakan masa dan mahal. Dan, banyak kali ia penuh dengan risiko, tetapi masalah yang lebih biasa ialah terlalu sedikit data atau data berat sebelah boleh menyesatkan organisasi. Tetapi bagaimana jika anda boleh menjana data baharu, yang dipanggil data sintetik?

Kedengarannya tidak mungkin, tetapi itulah yang Synthesis AI merancang untuk meningkatkan daripada firma modal teroka termasuk 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital dan Kubera Venture Capital of $17 juta dalam pembiayaan Siri A.

Ini adalah bukti yang sangat boleh dipercayai. Syarikat itu merancang untuk menggunakan pembiayaan untuk mengembangkan penyelidikan dan pembangunannya dalam bidang pencampuran data sebenar dan sintetik.

Yashar Behzadi, Ketua Pegawai Eksekutif Synthesis AI, berkata dalam satu kenyataan: "Data sintetik berada pada titik perubahan dalam penerimaan, dan matlamat kami adalah untuk membangunkan lagi teknologi dan memacu anjakan paradigma dalam cara sistem penglihatan komputer Dibina. Industri tidak lama lagi akan mereka bentuk dan melatih model penglihatan komputer sepenuhnya dalam dunia maya, membolehkan kecerdasan buatan yang lebih maju dan beretika.”

Tetapi apakah itu data sintetik?

Data sintetik dicipta oleh manusia dan bukannya dikumpulkan dari dunia nyata. Pada masa ini, banyak aplikasi menumpukan pada data visual, seperti data yang dikumpul daripada sistem penglihatan komputer. Namun, tiada sebab praktikal mengapa data sintetik tidak boleh dibuat untuk kes penggunaan lain, seperti menguji aplikasi atau memperbaik algoritma untuk mengesan penipuan. Mereka agak seperti kembar digital rekod fizikal yang sangat berstruktur.

Dengan menyediakan set data dunia nyata yang besar-besaran pada skala, saintis data dan penganalisis secara teori boleh melangkau proses pengumpulan data dan terus ke ujian atau latihan.

Ini kerana sebahagian besar kos untuk mencipta set data dunia sebenar melangkaui hanya mengumpul data mentah. Ambil penglihatan komputer dan kereta pandu sendiri sebagai contoh Pembuat dan penyelidik boleh melampirkan pelbagai kamera, radar dan penderia lidar pada kenderaan untuk mengumpulnya, tetapi data mentah tidak bermakna apa-apa kepada algoritma AI/ML. Cabaran yang sama menakutkan ialah menandai data secara manual dengan maklumat kontekstual untuk membantu sistem membuat keputusan yang lebih baik.

Mari kita lihat konteks cabaran ini: Bayangkan anda memandu jarak dekat dengan kerap, dengan semua papan tanda berhenti, persimpangan, kereta yang diletakkan, pejalan kaki, dsb., dan kemudian bayangkan bahawa, diberi Pelabelan setiap potensi bahaya adalah satu tugas yang sukar.

Kelebihan teras data sintetik ialah, secara teori, ia boleh mencipta set data berlabel sempurna yang cukup besar untuk melatih aplikasi AI/ML dengan betul, bermakna saintis data tiba-tiba boleh menguji algoritma mereka di sejumlah besar tempat baharu , dan kemudian hanya data dunia boleh benar-benar dilaksanakan atau dalam situasi di mana ia sukar diperoleh. Meneruskan contoh kereta pandu sendiri, saintis data boleh mencipta data sintetik untuk melatih kereta memandu dalam keadaan yang teruk, seperti jalan yang dilitupi salji, tanpa perlu menghantar pemandu ke utara atau ke pergunungan untuk mengumpul data secara manual.

Kelebihan teras data sintetik ialah ia secara teorinya boleh mencipta set data berlabel sempurna pada skala yang diperlukan untuk melatih aplikasi AI/ML dengan betul, bermakna saintis data boleh mencipta data sebelum data sebenar tersedia atau secara tiba-tiba menguji algoritma mereka di banyak tempat baharu apabila data sukar diperoleh. Masih dengan contoh kereta pandu sendiri, saintis data boleh mencipta data sintetik untuk melatih kereta memandu dalam keadaan buruk, seperti jalan yang dilitupi salji, tanpa perlu pemandu pergi ke utara atau ke pergunungan untuk mengumpul data secara manual.

Walau bagaimanapun, terdapat masalah ayam-dan-telur dengan data sintetik, kerana ia hanya boleh dibuat menggunakan... lebih banyak data dan lebih banyak algoritma AI/ML. Mulakan dengan set data "benih" dan kemudian gunakannya sebagai garis dasar untuk ciptaan sintetik anda, bermakna ia hanya akan sebaik data yang anda mulakan.

Faedah (Tidak Ketara)

Apakah saintis atau penyelidik data yang tidak akan mendapat manfaat daripada bekalan penjana data yang kelihatan tidak berkesudahan Manfaat teras – keupayaan untuk mengelak daripada mengumpul data dunia sebenar secara manual – hanya salah satu cara data sintetik boleh mempercepatkan aplikasi AI/ML.

Oleh kerana penganalisis dan saintis data boleh mengawal data benih dengan ketat dan juga membuat usaha tambahan untuk menggabungkan kepelbagaian, atau bekerjasama dengan perunding luar untuk mendedahkan dan menyahkod berat sebelah, mereka boleh mengekalkan standard yang lebih tinggi. Synthesis AI, sebagai contoh, sedang membangunkan sistem yang memantau status pemandu dan menyertakan wajah yang berbeza dengan teliti dalam set data sintetik yang dijana komputer mereka untuk memastikan aplikasi dunia sebenar berfungsi untuk semua orang.

Privasi ialah satu lagi potensi kemenangan. Jika syarikat menghabiskan berjuta-juta batu mengumpul data dunia sebenar untuk kereta pandu sendiri mereka, mereka mengumpul banyak data yang dianggap oleh ramai orang peribadi - terutamanya wajah mereka. Syarikat besar seperti Google dan Apple telah menemui cara untuk mengelakkan jenis masalah ini dalam perisian pemetaan mereka, tetapi laluan mereka tidak sesuai untuk pasukan AI/ML kecil yang ingin menguji algoritma mereka.

"Syarikat juga bergelut dengan isu etika yang berkaitan dengan berat sebelah model dan privasi pengguna dalam produk berpusatkan manusia Jelas sekali bahawa membina wawasan komputer generasi seterusnya memerlukan paradigma baharu," Ketua Pegawai Eksekutif dan pengasas syarikat Yashar Behzadi. berkata kepada media.

Walaupun data sintetik bergantung pada benih untuk bermula, ia boleh disesuaikan dan diubah suai untuk membantu melatih aplikasi AI/ML dalam kes tepi yang sukar atau berbahaya untuk ditangkap dalam kehidupan sebenar. Syarikat di sebalik kereta pandu sendiri berharap dapat mengenal pasti objek atau orang yang hanya sebahagiannya kelihatan, seperti tanda berhenti yang tersembunyi di belakang trak atau pejalan kaki yang berdiri di antara dua kereta yang melesat ke jalan raya.

Memandangkan kemenangan ini, dan walaupun terdapat kebimbangan mengenai masalah ayam-dan-telur pengekodan berat sebelah ke dalam data sintetik, Gartnermeramalkan bahawa menjelang 2024 60% daripada data yang digunakan untuk membangunkan AI dan produk analitik akan dihasilkan secara sintetik. Mereka meramalkan bahawa kebanyakan data baharu akan menumpukan pada membetulkan model ramalan apabila data sejarah yang menjadi asasnya kehilangan perkaitan atau andaian berdasarkan pengalaman lalu rosak.

Tetapi sentiasa ada keperluan untuk mengumpul beberapa data dunia sebenar, jadi kami masih jauh daripada ketinggalan sepenuhnya oleh avatar diri kami yang generik dan tidak berat sebelah.

Atas ialah kandungan terperinci Adakah data sintetik akan memacu masa depan latihan AI/ML?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

3 minggu yang lalu By DDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

3 minggu yang lalu By DDD

Nordhold: Sistem Fusion, dijelaskan

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Java

1666

Tutorial CakePHP

1425

Tutorial Laravel

1324

Tutorial PHP

1272

Tutorial C#

1251

Tunjukkan Lagi

Related knowledge

Bagaimana cara menggunakan Perpustakaan Chrono di C? Apr 28, 2025 pm 10:18 PM

Menggunakan perpustakaan Chrono di C membolehkan anda mengawal selang masa dan masa dengan lebih tepat. Mari kita meneroka pesona perpustakaan ini. Perpustakaan Chrono C adalah sebahagian daripada Perpustakaan Standard, yang menyediakan cara moden untuk menangani selang waktu dan masa. Bagi pengaturcara yang telah menderita dari masa. H dan CTime, Chrono tidak diragukan lagi. Ia bukan sahaja meningkatkan kebolehbacaan dan mengekalkan kod, tetapi juga memberikan ketepatan dan fleksibiliti yang lebih tinggi. Mari kita mulakan dengan asas -asas. Perpustakaan Chrono terutamanya termasuk komponen utama berikut: STD :: Chrono :: System_Clock: Mewakili jam sistem, yang digunakan untuk mendapatkan masa semasa. Std :: Chron

Bagaimana untuk memahami operasi DMA di C? Apr 28, 2025 pm 10:09 PM

DMA di C merujuk kepada DirectMemoryAccess, teknologi akses memori langsung, yang membolehkan peranti perkakasan secara langsung menghantar data ke memori tanpa campur tangan CPU. 1) Operasi DMA sangat bergantung kepada peranti perkakasan dan pemacu, dan kaedah pelaksanaan berbeza dari sistem ke sistem. 2) Akses langsung ke memori boleh membawa risiko keselamatan, dan ketepatan dan keselamatan kod mesti dipastikan. 3) DMA boleh meningkatkan prestasi, tetapi penggunaan yang tidak wajar boleh menyebabkan kemerosotan prestasi sistem. Melalui amalan dan pembelajaran, kita dapat menguasai kemahiran menggunakan DMA dan memaksimumkan keberkesanannya dalam senario seperti penghantaran data berkelajuan tinggi dan pemprosesan isyarat masa nyata.

Bagaimana untuk mengendalikan paparan DPI yang tinggi di C? Apr 28, 2025 pm 09:57 PM

Mengendalikan paparan DPI yang tinggi di C boleh dicapai melalui langkah -langkah berikut: 1) Memahami DPI dan skala, gunakan API Sistem Operasi untuk mendapatkan maklumat DPI dan menyesuaikan output grafik; 2) Mengendalikan keserasian silang platform, gunakan perpustakaan grafik silang platform seperti SDL atau QT; 3) Melaksanakan pengoptimuman prestasi, meningkatkan prestasi melalui cache, pecutan perkakasan, dan pelarasan dinamik tahap butiran; 4) Selesaikan masalah biasa, seperti teks kabur dan elemen antara muka terlalu kecil, dan selesaikan dengan betul menggunakan skala DPI.

Apakah pengaturcaraan sistem operasi masa nyata di C? Apr 28, 2025 pm 10:15 PM

C berfungsi dengan baik dalam pengaturcaraan sistem operasi masa nyata (RTOS), menyediakan kecekapan pelaksanaan yang cekap dan pengurusan masa yang tepat. 1) C memenuhi keperluan RTO melalui operasi langsung sumber perkakasan dan pengurusan memori yang cekap. 2) Menggunakan ciri berorientasikan objek, C boleh merancang sistem penjadualan tugas yang fleksibel. 3) C menyokong pemprosesan gangguan yang cekap, tetapi peruntukan memori dinamik dan pemprosesan pengecualian mesti dielakkan untuk memastikan masa nyata. 4) Pemrograman templat dan fungsi sebaris membantu dalam pengoptimuman prestasi. 5) Dalam aplikasi praktikal, C boleh digunakan untuk melaksanakan sistem pembalakan yang cekap.

Bagaimana untuk mengukur prestasi benang di C? Apr 28, 2025 pm 10:21 PM

Mengukur prestasi thread di C boleh menggunakan alat masa, alat analisis prestasi, dan pemasa tersuai di perpustakaan standard. 1. Gunakan perpustakaan untuk mengukur masa pelaksanaan. 2. Gunakan GPROF untuk analisis prestasi. Langkah -langkah termasuk menambah pilihan -pg semasa penyusunan, menjalankan program untuk menghasilkan fail gmon.out, dan menghasilkan laporan prestasi. 3. Gunakan modul Callgrind Valgrind untuk melakukan analisis yang lebih terperinci. Langkah -langkah termasuk menjalankan program untuk menghasilkan fail callgrind.out dan melihat hasil menggunakan kcachegrind. 4. Pemasa tersuai secara fleksibel dapat mengukur masa pelaksanaan segmen kod tertentu. Kaedah ini membantu memahami sepenuhnya prestasi benang dan mengoptimumkan kod.

Langkah -langkah untuk menambah dan memadam medan ke jadual mysql Apr 29, 2025 pm 04:15 PM

Di MySQL, tambah medan menggunakan alterTabletable_nameaddcolumnnew_columnvarchar (255) afterexisting_column, memadam medan menggunakan altertabletable_namedropcolumncolumn_to_drop. Apabila menambah medan, anda perlu menentukan lokasi untuk mengoptimumkan prestasi pertanyaan dan struktur data; Sebelum memadam medan, anda perlu mengesahkan bahawa operasi itu tidak dapat dipulihkan; Mengubah struktur jadual menggunakan DDL dalam talian, data sandaran, persekitaran ujian, dan tempoh masa beban rendah adalah pengoptimuman prestasi dan amalan terbaik.

Kedudukan Pertukaran Kuantitatif 2025 Cadangan Top 10 untuk Aplikasi Perdagangan Kuantitatif Mata Wang Digital Apr 30, 2025 pm 07:24 PM

Alat kuantisasi terbina dalam pertukaran termasuk: 1. Binance: Menyediakan modul kuantitatif niaga hadapan Binance, yuran pengendalian yang rendah, dan menyokong urus niaga AI-dibantu. 2. OKX (OUYI): Menyokong Pengurusan Multi Akaun dan Routing Pesanan Pintar, dan menyediakan kawalan risiko peringkat institusi. Platform strategi kuantitatif bebas termasuk: 3. 4. Kuadensi: Perpustakaan Strategi Algoritma Tahap Profesional, menyokong ambang risiko yang disesuaikan. 5. PionEx: Strategi Preset 16 terbina dalam, yuran transaksi yang rendah. Alat domain menegak termasuk: 6. Cryptohopper: platform kuantitatif berasaskan awan, menyokong 150 petunjuk teknikal. 7. Bitsgap:

Bagaimana cara menggunakan aliran rentetan di C? Apr 28, 2025 pm 09:12 PM

Langkah -langkah utama dan langkah berjaga -jaga untuk menggunakan aliran rentetan dalam C adalah seperti berikut: 1. Buat aliran rentetan output dan tukar data, seperti menukar integer ke dalam rentetan. 2. Memohon untuk berseri struktur data kompleks, seperti menukar vektor ke dalam rentetan. 3. Beri perhatian kepada isu -isu prestasi dan mengelakkan penggunaan aliran rentetan yang kerap apabila memproses sejumlah besar data. Anda boleh mempertimbangkan menggunakan kaedah tambahan std :: string. 4. Perhatikan pengurusan ingatan dan elakkan penciptaan dan pemusnahan objek stream rentetan yang kerap. Anda boleh menggunakan semula atau menggunakan std :: stringstream.

See all articles