Cara Muat Turun dan Pasang Llama 2 Secara Tempatan

Pembaca seperti anda membantu menyokong MUO. Apabila anda membuat pembelian menggunakan pautan di tapak kami, kami mungkin mendapat komisen ahli gabungan. Baca Lagi.

Meta mengeluarkan Llama 2 pada musim panas 2023. Versi baharu Llama diperhalusi dengan 40% lebih token daripada model Llama asal, menggandakan panjang konteksnya dan dengan ketara mengatasi prestasi model sumber terbuka lain yang tersedia. Cara terpantas dan termudah untuk mengakses Llama 2 adalah melalui API melalui platform dalam talian. Walau bagaimanapun, jika anda mahukan pengalaman terbaik, memasang dan memuatkan Llama 2 terus pada komputer anda adalah yang terbaik.

Dengan mengambil kira itu, kami telah mencipta panduan langkah demi langkah tentang cara menggunakan Text-Generation-WebUI untuk memuatkan Llama 2 LLM terkuantisasi secara setempat pada komputer anda.

Mengapa Pasang Llama 2 Secara Tempatan

Terdapat banyak sebab mengapa orang memilih untuk menjalankan Llama 2 secara langsung. Ada yang melakukannya untuk kebimbangan privasi, sesetengahnya untuk penyesuaian dan yang lain untuk keupayaan luar talian. Jika anda sedang menyelidik, memperhalusi atau menyepadukan Llama 2 untuk projek anda, maka mengakses Llama 2 melalui API mungkin bukan untuk anda. Tujuan menjalankan LLM secara tempatan pada PC anda adalah untuk mengurangkan pergantungan pada alat AI pihak ketiga dan gunakan AI pada bila-bila masa, di mana-mana sahaja, tanpa bimbang tentang membocorkan data yang berpotensi sensitif kepada syarikat dan organisasi lain.

Dengan itu, mari kita mulakan dengan panduan langkah demi langkah untuk memasang Llama 2 secara tempatan.

Langkah 1: Pasang Alat Binaan Visual Studio 2019

Untuk memudahkan perkara, kami akan menggunakan pemasang satu klik untuk Text-Generation-WebUI (program yang digunakan untuk memuatkan Llama 2 dengan GUI). Walau bagaimanapun, untuk pemasang ini berfungsi, anda perlu memuat turun Alat Binaan Visual Studio 2019 dan memasang sumber yang diperlukan.

cara mendapatkan windows 10 pada usb

Muat turun: Visual Studio 2019 (Percuma)

Teruskan dan muat turun perisian edisi komuniti.
Sekarang pasang Visual Studio 2019, kemudian buka perisian. Setelah dibuka, tandakan pada kotak Pembangunan desktop dengan C++ dan tekan pasang.

Kini setelah anda mempunyai pembangunan Desktop dengan C++ dipasang, tiba masanya untuk memuat turun pemasang satu klik Text-Generation-WebUI.

Langkah 2: Pasang Text-Generation-WebUI

Pemasang satu klik Text-Generation-WebUI ialah skrip yang mencipta folder yang diperlukan secara automatik dan menyediakan persekitaran Conda dan semua keperluan yang diperlukan untuk menjalankan model AI.

Untuk memasang skrip, muat turun pemasang satu klik dengan mengklik pada Kod > Muat turun ZIP.

Muat turun: Pemasang Teks-Generasi-WebUI (Percuma)

Setelah dimuat turun, ekstrak fail ZIP ke lokasi pilihan anda, kemudian buka folder yang diekstrak.
Dalam folder, tatal ke bawah dan cari program permulaan yang sesuai untuk sistem pengendalian anda. Jalankan program dengan mengklik dua kali pada skrip yang sesuai.
- Jika anda menggunakan Windows, pilih start_windows fail kelompok
- untuk MacOS, pilih start_macos skrip cangkerang
- untuk Linux, start_linux skrip shell.
Anti-virus anda mungkin membuat amaran; ini baik. Gesaan hanyalah sebuah antivirus positif palsu untuk menjalankan fail atau skrip kelompok. Klik pada Lari pula .
Terminal akan dibuka dan memulakan persediaan. Pada awalnya, persediaan akan dijeda dan bertanya kepada anda GPU yang anda gunakan. Pilih jenis GPU yang sesuai dipasang pada komputer anda dan tekan enter. Bagi mereka yang tidak mempunyai kad grafik khusus, pilih Tiada (saya mahu menjalankan model dalam mod CPU) . Perlu diingat bahawa berjalan pada mod CPU adalah lebih perlahan jika dibandingkan dengan menjalankan model dengan GPU khusus.
Setelah persediaan selesai, anda kini boleh melancarkan Text-Generation-WebUI secara tempatan. Anda boleh berbuat demikian dengan membuka pelayar web pilihan anda dan memasukkan alamat IP yang diberikan pada URL.
WebUI kini sedia untuk digunakan.

Walau bagaimanapun, program ini hanya pemuat model. Mari muat turun Llama 2 untuk pemuat model dilancarkan.

selamat untuk dipesan dari aliexpress

Langkah 3: Muat turun Model Llama 2

Terdapat beberapa perkara yang perlu dipertimbangkan semasa memutuskan lelaran Llama 2 yang anda perlukan. Ini termasuk parameter, kuantisasi, pengoptimuman perkakasan, saiz dan penggunaan. Semua maklumat ini akan ditemui dalam nama model.

Parameter: Bilangan parameter yang digunakan untuk melatih model. Parameter yang lebih besar menjadikan model yang lebih berkebolehan tetapi pada kos prestasi.
penggunaan: Boleh sama ada standard atau sembang. Model sembang dioptimumkan untuk digunakan sebagai bot sembang seperti ChatGPT, manakala standard ialah model lalai.
Pengoptimuman Perkakasan: Merujuk kepada perkakasan yang terbaik menjalankan model. GPTQ bermaksud model dioptimumkan untuk dijalankan pada GPU khusus, manakala GGML dioptimumkan untuk dijalankan pada CPU.
Kuantiti: Menandakan ketepatan pemberat dan pengaktifan dalam model. Untuk inferens, ketepatan q4 adalah optimum.
Saiz: Merujuk kepada saiz model tertentu.

Ambil perhatian bahawa sesetengah model mungkin disusun secara berbeza dan mungkin tidak mempunyai jenis maklumat yang sama dipaparkan. Walau bagaimanapun, konvensyen penamaan jenis ini agak biasa dalam MemelukMuka Perpustakaan model, jadi ia masih berbaloi untuk difahami.

Dalam contoh ini, model boleh dikenal pasti sebagai model Llama 2 bersaiz sederhana yang dilatih pada 13 bilion parameter yang dioptimumkan untuk inferens sembang menggunakan CPU khusus.

Bagi mereka yang menggunakan GPU khusus, pilih a GPTQ model, manakala bagi mereka yang menggunakan CPU, pilih GGML . Jika anda ingin bersembang dengan model seperti yang anda lakukan dengan ChatGPT, pilih berbual , tetapi jika anda ingin mencuba model dengan keupayaan penuhnya, gunakan standard model. Bagi parameter, ketahui bahawa menggunakan model yang lebih besar akan memberikan hasil yang lebih baik dengan mengorbankan prestasi. Saya secara peribadi akan mengesyorkan anda mulakan dengan model 7B. Bagi pengkuantitian, gunakan q4, kerana ia hanya untuk membuat inferens.

Muat turun: GGML (Percuma)

Muat turun: GPTQ (Percuma)

Sekarang setelah anda mengetahui lelaran Llama 2 yang anda perlukan, teruskan dan muat turun model yang anda mahukan.

Dalam kes saya, memandangkan saya menjalankan ini pada ultrabook, saya akan menggunakan model GGML yang diperhalusi untuk sembang, call-2-7b-chat-ggmlv3.q4_K_S.bin.

Selepas muat turun selesai, letakkan model itu penjanaan-teks-webui-utama > model .

menu mula dan carian tidak berfungsi

Setelah model anda dimuat turun dan diletakkan dalam folder model, tiba masanya untuk mengkonfigurasi pemuat model.

Langkah 4: Konfigurasikan Text-Generation-WebUI

Sekarang, mari kita mulakan fasa konfigurasi.

Sekali lagi, buka Text-Generation-WebUI dengan menjalankan mula_(OS anda) fail (lihat langkah sebelumnya di atas).
Pada tab yang terletak di atas GUI, klik Model. Klik butang muat semula pada menu lungsur model dan pilih model anda.
Sekarang klik pada menu lungsur turun Pemuat model dan pilih AutoGPTQ bagi mereka yang menggunakan model GTPQ dan ctransformers bagi mereka yang menggunakan model GGML. Akhir sekali, klik pada Muatkan untuk memuatkan model anda.
Untuk menggunakan model, buka tab Sembang dan mula menguji model.

Tahniah, anda telah berjaya memuatkan Llama2 pada komputer tempatan anda!

Cuba LLM Lain

Sekarang setelah anda tahu cara menjalankan Llama 2 secara langsung pada komputer anda menggunakan Text-Generation-WebUI, anda juga sepatutnya dapat menjalankan LLM lain selain Llama. Ingatlah konvensyen penamaan model dan hanya versi model terkuantasi (biasanya ketepatan q4) boleh dimuatkan pada PC biasa. Banyak LLM terkuantisasi tersedia di HuggingFace. Jika anda ingin meneroka model lain, cari TheBloke dalam pustaka model HuggingFace, dan anda harus menemui banyak model yang tersedia.