Selain LLM: Inilah Sebabnya Model Bahasa Kecil Adalah Masa Depan AI
Pautan Pantas
Ringkasan
- Syarikat besar seperti Open AI, Google, Microsoft dan Meta sedang melabur dalam SLM.
- SLM semakin popular di seluruh industri dan diletakkan lebih baik sebagai AI masa depan.
- Contoh SLM termasuk Google Nano, Phi-3 Microsoft dan mini GPT-4o Open AI.
Model bahasa besar (LLM) muncul dengan keluaran Open AI's ChatGPT. Sejak itu, beberapa syarikat juga telah melancarkan LLM mereka, tetapi lebih banyak syarikat kini cenderung kepada model bahasa kecil (SLM).
SLM semakin mendapat momentum, tetapi apakah itu, dan bagaimana ia berbeza daripada LLM?
Apakah Model Bahasa Kecil?
Model bahasa kecil (SLM) ialah sejenis model kecerdasan buatan dengan parameter yang lebih sedikit (anggap ini sebagai nilai dalam model yang dipelajari semasa latihan). Seperti rakan sejawat mereka yang lebih besar, SLM boleh menjana teks dan melaksanakan tugas lain. Walau bagaimanapun, SLM menggunakan lebih sedikit set data untuk latihan, mempunyai parameter yang lebih sedikit dan memerlukan kurang kuasa pengiraan untuk melatih dan menjalankan.
SLM memfokuskan pada fungsi utama, dan jejak kecilnya bermakna ia boleh digunakan pada peranti yang berbeza, termasuk peranti tersebut yang tidak mempunyai perkakasan mewah seperti peranti mudah alih. Contohnya, Nano Google ialah SLM pada peranti yang dibina dari bawah ke atas yang berjalan pada peranti mudah alih. Oleh kerana saiznya yang kecil, Nano boleh berjalan secara tempatan dengan atau tanpa sambungan rangkaian, menurut syarikat itu.
Pilihan lain juga tersedia, yang mungkin anda anggap sebagai LLM tetapi SLM. Ini benar terutamanya memandangkan kebanyakan syarikat mengambil pendekatan berbilang model untuk mengeluarkan lebih daripada satu model bahasa dalam portfolio mereka, menawarkan kedua-dua LLM dan SLM. Satu contoh ialah GPT-4, yang mempunyai pelbagai model, termasuk
GPT-4, GPT-4o (Omni) dan GPT-4o mini.
Model Bahasa Kecil lwn. Model Bahasa Besar
Semasa membincangkan SLM, kita tidak boleh mengabaikan rakan sejawat besar mereka: LLM. Kunci perbezaan antara SLM dan LLM ialah saiz model, yang diukur dari segi parameter.
Sehingga artikel ini ditulis, tiada konsensus dalam industri AI mengenai bilangan maksimum daripada parameter model tidak boleh melebihi untuk dianggap sebagai SLM atau bilangan minimum yang diperlukan untuk dianggap sebagai LLM. Walau bagaimanapun, SLM biasanya mempunyai berjuta-juta hingga beberapa bilion parameter, manakala LLM mempunyai lebih banyak, mencecah setinggi trilion.
Sebagai contoh, GPT-3, yang dikeluarkan pada 2020, mempunyai 175 bilion parameter (dan Model GPT-4 dikhabarkan mempunyai sekitar 1.76 trilion), manakala 2024 Phi-3-mini Microsoft, Phi-3-small dan Phi-3-medium SLM masing-masing mengukur 3.8, 7 dan 14 bilion parameter.

Satu lagi faktor pembezaan antara SLM dan LLM ialah jumlah data yang digunakan untuk latihan. SLM dilatih pada jumlah data yang lebih kecil, manakala LLM menggunakan set data yang besar. Perbezaan ini juga mempengaruhi keupayaan model untuk menyelesaikan tugas yang rumit.
Disebabkan oleh data yang besar yang digunakan dalam latihan, LLM lebih sesuai untuk menyelesaikan pelbagai jenis tugasan kompleks yang memerlukan penaakulan lanjutan, manakala SLM lebih sesuai untuk lebih mudah. tugasan. Tidak seperti LLM, SLM menggunakan kurang data latihan, tetapi data yang digunakan mestilah berkualiti tinggi untuk mencapai banyak keupayaan yang terdapat dalam LLM dalam pakej yang kecil.
Mengapa Model Bahasa Kecil Adalah Masa Depan
Bagi kebanyakan kes penggunaan, SLM berada pada kedudukan yang lebih baik untuk menjadi model arus perdana yang digunakan oleh syarikat dan pengguna untuk melaksanakan pelbagai jenis tugas. Pasti, LLM mempunyai kelebihannya dan lebih sesuai untuk kes penggunaan tertentu, seperti menyelesaikan tugas yang rumit. Walau bagaimanapun, SLM adalah masa depan untuk kebanyakan kes penggunaan disebabkan oleh sebab berikut.
1. Kos Latihan dan Penyelenggaraan yang Lebih Rendah

SLM memerlukan lebih sedikit data untuk latihan berbanding LLM, yang menjadikannya pilihan paling berdaya maju untuk individu dan syarikat kecil hingga sederhana dengan data latihan, kewangan atau kedua-duanya terhad. LLM memerlukan sejumlah besar data latihan dan, secara lanjutan, memerlukan sumber pengiraan yang besar untuk melatih dan menjalankan.
Untuk meletakkan ini dalam perspektif, Ketua Pegawai Eksekutif OpenAI, Sam Altman, mengesahkan mereka mengambil masa lebih daripada $100 juta untuk berlatih GPT-4 semasa bercakap pada acara di MIT (seperti Berwayar). Contoh lain ialah OPT-175B LLM Meta. Meta berkata ia telah dilatih menggunakan 992 NVIDIA A100 80GB GPU, yang berharga kira-kira $10,000 seunit, mengikut CNBC. Ini menjadikan kos kira-kira $9 juta, tanpa memasukkan perbelanjaan lain seperti tenaga, gaji dan banyak lagi.
Dengan angka sedemikian, syarikat kecil dan sederhana tidak berdaya maju untuk melatih LLM. Sebaliknya, SLM mempunyai halangan yang lebih rendah untuk kemasukan dari segi sumber dan kos yang lebih rendah untuk dijalankan, dan oleh itu, lebih banyak syarikat akan menerimanya.
2. Prestasi Lebih Baik

Prestasi ialah satu lagi bidang di mana SLM mengalahkan LLM kerana saiznya yang padat. SLM mempunyai kurang kependaman dan lebih sesuai untuk senario yang memerlukan respons yang lebih pantas, seperti dalam aplikasi masa nyata. Sebagai contoh, respons yang lebih pantas diutamakan dalam sistem respons suara seperti pembantu digital.
Menjalankan pada peranti (lebih lanjut mengenai perkara ini kemudian) juga bermakna permintaan anda tidak perlu membuat perjalanan ke pelayan dalam talian dan kembali ke balas pertanyaan anda, yang membawa kepada respons yang lebih pantas.
3. Lebih Tepat

SLM juga boleh diperhalusi lagi dengan latihan tertumpu pada tugas atau domain tertentu, yang membawa kepada ketepatan yang lebih baik dalam kawasan berbanding model yang lebih besar dan lebih umum.
4. Boleh Jalankan Pada Peranti

SLM memerlukan kurang kuasa pengiraan berbanding LLM dan oleh itu sesuai untuk kes pengkomputeran tepi. Ia boleh digunakan pada peranti tepi seperti telefon pintar dan kenderaan autonomi, yang tidak mempunyai kuasa atau sumber pengiraan yang besar. Model Nano Google boleh dijalankan pada peranti, membolehkan ia berfungsi walaupun anda tidak mempunyai sambungan internet yang aktif.
Keupayaan ini memberikan situasi menang-menang untuk kedua-dua syarikat dan pengguna. Pertama, ini adalah kemenangan untuk privasi kerana data pengguna diproses secara tempatan dan bukannya dihantar ke awan, yang penting kerana lebih banyak AI disepadukan ke dalam telefon pintar kami, yang mengandungi hampir setiap butiran tentang kami. Ia juga merupakan satu kemenangan bagi syarikat kerana mereka tidak perlu menggunakan dan menjalankan pelayan yang besar untuk mengendalikan tugas AI.
SLM semakin mendapat momentum, dengan pemain industri terbesar, seperti Open AI, Google, Microsoft, Anthropic, dan Meta, mengeluarkan model sedemikian. Model-model ini lebih sesuai untuk tugasan yang lebih mudah, yang mana kebanyakan kita menggunakan LLM; oleh itu, mereka adalah masa depan.
Tetapi LLM tidak akan ke mana-mana. Sebaliknya, ia akan digunakan untuk aplikasi lanjutan yang menggabungkan maklumat merentas domain yang berbeza untuk mencipta sesuatu yang baharu, seperti dalam penyelidikan perubatan.
Atas ialah kandungan terperinci Selain LLM: Inilah Sebabnya Model Bahasa Kecil Adalah Masa Depan AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Artikel ini mengkaji semula penjana seni AI atas, membincangkan ciri -ciri mereka, kesesuaian untuk projek kreatif, dan nilai. Ia menyerlahkan Midjourney sebagai nilai terbaik untuk profesional dan mengesyorkan Dall-E 2 untuk seni berkualiti tinggi dan disesuaikan.

Meta's Llama 3.2: Lompat ke hadapan dalam Multimodal dan Mobile AI META baru -baru ini melancarkan Llama 3.2, kemajuan yang ketara dalam AI yang memaparkan keupayaan penglihatan yang kuat dan model teks ringan yang dioptimumkan untuk peranti mudah alih. Membina kejayaan o

Artikel ini membandingkan chatbots AI seperti Chatgpt, Gemini, dan Claude, yang memberi tumpuan kepada ciri -ciri unik mereka, pilihan penyesuaian, dan prestasi dalam pemprosesan bahasa semula jadi dan kebolehpercayaan.

Hei ada, pengekodan ninja! Apa tugas yang berkaitan dengan pengekodan yang anda telah merancang untuk hari itu? Sebelum anda menyelam lebih jauh ke dalam blog ini, saya ingin anda memikirkan semua kesengsaraan yang berkaitan dengan pengekodan anda-lebih jauh menyenaraikan mereka. Selesai? - Let ’

Artikel ini membincangkan pembantu penulisan AI terkemuka seperti Grammarly, Jasper, Copy.ai, WriteSonic, dan Rytr, yang memberi tumpuan kepada ciri -ciri unik mereka untuk penciptaan kandungan. Ia berpendapat bahawa Jasper cemerlang dalam pengoptimuman SEO, sementara alat AI membantu mengekalkan nada terdiri

Landskap AI minggu ini: Badai kemajuan, pertimbangan etika, dan perdebatan pengawalseliaan. Pemain utama seperti Openai, Google, Meta, dan Microsoft telah melepaskan kemas kini, dari model baru yang terobosan ke peralihan penting di LE

Memo CEO Shopify Tobi Lütke baru -baru ini dengan berani mengisytiharkan penguasaan AI sebagai harapan asas bagi setiap pekerja, menandakan peralihan budaya yang signifikan dalam syarikat. Ini bukan trend seketika; Ini adalah paradigma operasi baru yang disatukan ke p

Pengenalan Bayangkan berjalan melalui galeri seni, dikelilingi oleh lukisan dan patung yang terang. Sekarang, bagaimana jika anda boleh bertanya setiap soalan dan mendapatkan jawapan yang bermakna? Anda mungkin bertanya, "Kisah apa yang anda ceritakan?
