Selain LLM: Inilah Sebabnya Model Bahasa Kecil Adalah Masa Depan AI-AI-php.cn

Syarikat besar seperti Open AI, Google, Microsoft dan Meta sedang melabur dalam SLM.
SLM semakin popular di seluruh industri dan diletakkan lebih baik sebagai AI masa depan.
Contoh SLM termasuk Google Nano, Phi-3 Microsoft dan mini GPT-4o Open AI.

Model bahasa besar (LLM) muncul dengan keluaran Open AI's ChatGPT. Sejak itu, beberapa syarikat juga telah melancarkan LLM mereka, tetapi lebih banyak syarikat kini cenderung kepada model bahasa kecil (SLM).

SLM semakin mendapat momentum, tetapi apakah itu, dan bagaimana ia berbeza daripada LLM?

Apakah Model Bahasa Kecil?

Model bahasa kecil (SLM) ialah sejenis model kecerdasan buatan dengan parameter yang lebih sedikit (anggap ini sebagai nilai dalam model yang dipelajari semasa latihan). Seperti rakan sejawat mereka yang lebih besar, SLM boleh menjana teks dan melaksanakan tugas lain. Walau bagaimanapun, SLM menggunakan lebih sedikit set data untuk latihan, mempunyai parameter yang lebih sedikit dan memerlukan kurang kuasa pengiraan untuk melatih dan menjalankan.

SLM memfokuskan pada fungsi utama, dan jejak kecilnya bermakna ia boleh digunakan pada peranti yang berbeza, termasuk peranti tersebut yang tidak mempunyai perkakasan mewah seperti peranti mudah alih. Contohnya, Nano Google ialah SLM pada peranti yang dibina dari bawah ke atas yang berjalan pada peranti mudah alih. Oleh kerana saiznya yang kecil, Nano boleh berjalan secara tempatan dengan atau tanpa sambungan rangkaian, menurut syarikat itu.

small language model gemini nano use examples — Google

🎜>

Selain Nano, ada banyak lagi SLM daripada syarikat terkemuka dan akan datang dalam ruang AI. Beberapa SLM yang popular termasuk Microsoft Phi-3, OpenAI's GPT-4o mini, Anthropic's Claude 3 Haiku, Meta's Llama 3 dan Mistral AI's Mixtral 8x7B.

Pilihan lain juga tersedia, yang mungkin anda anggap sebagai LLM tetapi SLM. Ini benar terutamanya memandangkan kebanyakan syarikat mengambil pendekatan berbilang model untuk mengeluarkan lebih daripada satu model bahasa dalam portfolio mereka, menawarkan kedua-dua LLM dan SLM. Satu contoh ialah GPT-4, yang mempunyai pelbagai model, termasuk

GPT-4, GPT-4o (Omni) dan GPT-4o mini.

Model Bahasa Kecil lwn. Model Bahasa Besar

Semasa membincangkan SLM, kita tidak boleh mengabaikan rakan sejawat besar mereka: LLM. Kunci perbezaan antara SLM dan LLM ialah saiz model, yang diukur dari segi parameter.

Sehingga artikel ini ditulis, tiada konsensus dalam industri AI mengenai bilangan maksimum daripada parameter model tidak boleh melebihi untuk dianggap sebagai SLM atau bilangan minimum yang diperlukan untuk dianggap sebagai LLM. Walau bagaimanapun, SLM biasanya mempunyai berjuta-juta hingga beberapa bilion parameter, manakala LLM mempunyai lebih banyak, mencecah setinggi trilion.

Sebagai contoh, GPT-3, yang dikeluarkan pada 2020, mempunyai 175 bilion parameter (dan Model GPT-4 dikhabarkan mempunyai sekitar 1.76 trilion), manakala 2024 Phi-3-mini Microsoft, Phi-3-small dan Phi-3-medium SLM masing-masing mengukur 3.8, 7 dan 14 bilion parameter.

small language models versus large language models chart — Microsoft

Satu lagi faktor pembezaan antara SLM dan LLM ialah jumlah data yang digunakan untuk latihan. SLM dilatih pada jumlah data yang lebih kecil, manakala LLM menggunakan set data yang besar. Perbezaan ini juga mempengaruhi keupayaan model untuk menyelesaikan tugas yang rumit.

Disebabkan oleh data yang besar yang digunakan dalam latihan, LLM lebih sesuai untuk menyelesaikan pelbagai jenis tugasan kompleks yang memerlukan penaakulan lanjutan, manakala SLM lebih sesuai untuk lebih mudah. tugasan. Tidak seperti LLM, SLM menggunakan kurang data latihan, tetapi data yang digunakan mestilah berkualiti tinggi untuk mencapai banyak keupayaan yang terdapat dalam LLM dalam pakej yang kecil.

Mengapa Model Bahasa Kecil Adalah Masa Depan

Bagi kebanyakan kes penggunaan, SLM berada pada kedudukan yang lebih baik untuk menjadi model arus perdana yang digunakan oleh syarikat dan pengguna untuk melaksanakan pelbagai jenis tugas. Pasti, LLM mempunyai kelebihannya dan lebih sesuai untuk kes penggunaan tertentu, seperti menyelesaikan tugas yang rumit. Walau bagaimanapun, SLM adalah masa depan untuk kebanyakan kes penggunaan disebabkan oleh sebab berikut.

1. Kos Latihan dan Penyelenggaraan yang Lebih Rendah

server raid configurations feature — Timofeev Vladimir/Shutterstock

SLM memerlukan lebih sedikit data untuk latihan berbanding LLM, yang menjadikannya pilihan paling berdaya maju untuk individu dan syarikat kecil hingga sederhana dengan data latihan, kewangan atau kedua-duanya terhad. LLM memerlukan sejumlah besar data latihan dan, secara lanjutan, memerlukan sumber pengiraan yang besar untuk melatih dan menjalankan.

Untuk meletakkan ini dalam perspektif, Ketua Pegawai Eksekutif OpenAI, Sam Altman, mengesahkan mereka mengambil masa lebih daripada $100 juta untuk berlatih GPT-4 semasa bercakap pada acara di MIT (seperti Berwayar). Contoh lain ialah OPT-175B LLM Meta. Meta berkata ia telah dilatih menggunakan 992 NVIDIA A100 80GB GPU, yang berharga kira-kira $10,000 seunit, mengikut CNBC. Ini menjadikan kos kira-kira $9 juta, tanpa memasukkan perbelanjaan lain seperti tenaga, gaji dan banyak lagi.

Dengan angka sedemikian, syarikat kecil dan sederhana tidak berdaya maju untuk melatih LLM. Sebaliknya, SLM mempunyai halangan yang lebih rendah untuk kemasukan dari segi sumber dan kos yang lebih rendah untuk dijalankan, dan oleh itu, lebih banyak syarikat akan menerimanya.

2. Prestasi Lebih Baik

A person talking to their phone with the ChatGPT icon hovering over the screen. — GBJSTOCK / S 🎜>

Prestasi ialah satu lagi bidang di mana SLM mengalahkan LLM kerana saiznya yang padat. SLM mempunyai kurang kependaman dan lebih sesuai untuk senario yang memerlukan respons yang lebih pantas, seperti dalam aplikasi masa nyata. Sebagai contoh, respons yang lebih pantas diutamakan dalam sistem respons suara seperti pembantu digital.

Menjalankan pada peranti (lebih lanjut mengenai perkara ini kemudian) juga bermakna permintaan anda tidak perlu membuat perjalanan ke pelayan dalam talian dan kembali ke balas pertanyaan anda, yang membawa kepada respons yang lebih pantas.

3. Lebih Tepat

ZinetroN / Shutterstock

Mengenai AI generatif, satu perkara kekal: sampah masuk, sampah keluar. LLM semasa telah dilatih menggunakan set data besar data internet mentah. Oleh itu, mereka mungkin tidak tepat dalam semua keadaan. Ini adalah salah satu daripada masalah dengan ChatGPT dan model yang serupa dan mengapa anda tidak sepatutnya mempercayai semua yang dikatakan oleh chatbot AI. Sebaliknya, SLM dilatih menggunakan data berkualiti lebih tinggi daripada LLM dan dengan itu mempunyai ketepatan yang lebih tinggi.

SLM juga boleh diperhalusi lagi dengan latihan tertumpu pada tugas atau domain tertentu, yang membawa kepada ketepatan yang lebih baik dalam kawasan berbanding model yang lebih besar dan lebih umum.

4. Boleh Jalankan Pada Peranti

small language model mockup on smartphone — Pete Hansen/Shutterstock

SLM memerlukan kurang kuasa pengiraan berbanding LLM dan oleh itu sesuai untuk kes pengkomputeran tepi. Ia boleh digunakan pada peranti tepi seperti telefon pintar dan kenderaan autonomi, yang tidak mempunyai kuasa atau sumber pengiraan yang besar. Model Nano Google boleh dijalankan pada peranti, membolehkan ia berfungsi walaupun anda tidak mempunyai sambungan internet yang aktif.

Keupayaan ini memberikan situasi menang-menang untuk kedua-dua syarikat dan pengguna. Pertama, ini adalah kemenangan untuk privasi kerana data pengguna diproses secara tempatan dan bukannya dihantar ke awan, yang penting kerana lebih banyak AI disepadukan ke dalam telefon pintar kami, yang mengandungi hampir setiap butiran tentang kami. Ia juga merupakan satu kemenangan bagi syarikat kerana mereka tidak perlu menggunakan dan menjalankan pelayan yang besar untuk mengendalikan tugas AI.

SLM semakin mendapat momentum, dengan pemain industri terbesar, seperti Open AI, Google, Microsoft, Anthropic, dan Meta, mengeluarkan model sedemikian. Model-model ini lebih sesuai untuk tugasan yang lebih mudah, yang mana kebanyakan kita menggunakan LLM; oleh itu, mereka adalah masa depan.

Tetapi LLM tidak akan ke mana-mana. Sebaliknya, ia akan digunakan untuk aplikasi lanjutan yang menggabungkan maklumat merentas domain yang berbeza untuk mencipta sesuatu yang baharu, seperti dalam penyelidikan perubatan.

Atas ialah kandungan terperinci Selain LLM: Inilah Sebabnya Model Bahasa Kecil Adalah Masa Depan AI. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

4 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

3 minggu yang lalu By DDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

1 bulan yang lalu By DDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

3 minggu yang lalu By DDD

Di mana untuk mencari kunci pejabat tapak di atomfall

1 bulan yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7917

Tutorial Java

1652

Tutorial CakePHP

1411

Tutorial Laravel

1303

Tutorial PHP

1248

Tunjukkan Lagi

Related knowledge

Penjana Seni AI Terbaik (Percuma & amp; Dibayar) untuk projek kreatif Apr 02, 2025 pm 06:10 PM

Artikel ini mengkaji semula penjana seni AI atas, membincangkan ciri -ciri mereka, kesesuaian untuk projek kreatif, dan nilai. Ia menyerlahkan Midjourney sebagai nilai terbaik untuk profesional dan mengesyorkan Dall-E 2 untuk seni berkualiti tinggi dan disesuaikan.

Bermula dengan Meta Llama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta's Llama 3.2: Lompat ke hadapan dalam Multimodal dan Mobile AI META baru -baru ini melancarkan Llama 3.2, kemajuan yang ketara dalam AI yang memaparkan keupayaan penglihatan yang kuat dan model teks ringan yang dioptimumkan untuk peranti mudah alih. Membina kejayaan o

CHATBOTS AI terbaik berbanding (Chatgpt, Gemini, Claude & amp; Lagi) Apr 02, 2025 pm 06:09 PM

Artikel ini membandingkan chatbots AI seperti Chatgpt, Gemini, dan Claude, yang memberi tumpuan kepada ciri -ciri unik mereka, pilihan penyesuaian, dan prestasi dalam pemprosesan bahasa semula jadi dan kebolehpercayaan.

10 Pelanjutan pengekodan AI generatif dalam kod vs yang mesti anda pelajari Apr 13, 2025 am 01:14 AM

Hei ada, pengekodan ninja! Apa tugas yang berkaitan dengan pengekodan yang anda telah merancang untuk hari itu? Sebelum anda menyelam lebih jauh ke dalam blog ini, saya ingin anda memikirkan semua kesengsaraan yang berkaitan dengan pengekodan anda-lebih jauh menyenaraikan mereka. Selesai? - Let &#8217

Pembantu Menulis AI Teratas untuk Meningkatkan Penciptaan Kandungan Anda Apr 02, 2025 pm 06:11 PM

Artikel ini membincangkan pembantu penulisan AI terkemuka seperti Grammarly, Jasper, Copy.ai, WriteSonic, dan Rytr, yang memberi tumpuan kepada ciri -ciri unik mereka untuk penciptaan kandungan. Ia berpendapat bahawa Jasper cemerlang dalam pengoptimuman SEO, sementara alat AI membantu mengekalkan nada terdiri

AV Bytes: Meta ' s llama 3.2, Google's Gemini 1.5, dan banyak lagi Apr 11, 2025 pm 12:01 PM

Landskap AI minggu ini: Badai kemajuan, pertimbangan etika, dan perdebatan pengawalseliaan. Pemain utama seperti Openai, Google, Meta, dan Microsoft telah melepaskan kemas kini, dari model baru yang terobosan ke peralihan penting di LE

Menjual Strategi AI kepada Pekerja: Manifesto CEO Shopify Apr 10, 2025 am 11:19 AM

Memo CEO Shopify Tobi Lütke baru -baru ini dengan berani mengisytiharkan penguasaan AI sebagai harapan asas bagi setiap pekerja, menandakan peralihan budaya yang signifikan dalam syarikat. Ini bukan trend seketika; Ini adalah paradigma operasi baru yang disatukan ke p

Panduan Komprehensif untuk Model Bahasa Visi (VLMS) Apr 12, 2025 am 11:58 AM

Pengenalan Bayangkan berjalan melalui galeri seni, dikelilingi oleh lukisan dan patung yang terang. Sekarang, bagaimana jika anda boleh bertanya setiap soalan dan mendapatkan jawapan yang bermakna? Anda mungkin bertanya, "Kisah apa yang anda ceritakan?

See all articles