Kako preuzeti i instalirati Llama 2 lokalno - |Objašnjenje tehnologije|DIY|

Čitatelji poput vas podržavaju MUO. Kada kupite putem poveznica na našoj stranici, možemo zaraditi partnersku proviziju. Čitaj više.

Meta je izdala Llamu 2 u ljeto 2023. Nova verzija Llame fino je podešena s 40% više tokena od izvornog modela Llama, udvostručuje njezinu duljinu konteksta i značajno nadmašuje druge dostupne modele otvorenog koda. Najbrži i najlakši način pristupa Llami 2 je putem API-ja putem online platforme. Međutim, ako želite najbolje iskustvo, najbolje je instalirati i učitati Llama 2 izravno na svoje računalo.

kako igrati rangiran u overwatchu

Imajući to na umu, izradili smo vodič korak po korak o tome kako koristiti Text-Generation-WebUI za učitavanje kvantiziranog Llama 2 LLM lokalno na vašem računalu.

Zašto instalirati Llama 2 lokalno

Mnogo je razloga zašto ljudi odlučuju pokrenuti Llamu 2 izravno. Neki to čine zbog brige o privatnosti, neki zbog prilagodbe, a drugi zbog izvanmrežnih mogućnosti. Ako istražujete, fino podešavate ili integrirate Llamu 2 za svoje projekte, pristup Llami 2 putem API-ja možda nije za vas. Svrha lokalnog pokretanja LLM-a na računalu je smanjenje oslanjanja na AI alati trećih strana i koristite AI bilo kada, bilo gdje, bez brige o curenju potencijalno osjetljivih podataka tvrtkama i drugim organizacijama.

Uz to, započnimo s vodičem korak po korak za lokalnu instalaciju Llame 2.

Korak 1: Instalirajte alat za izradu Visual Studio 2019

Kako bismo pojednostavili stvari, koristit ćemo instalacijski program jednim klikom za Text-Generation-WebUI (program koji se koristi za učitavanje Llame 2 s GUI-jem). Međutim, da bi ovaj instalacijski program radio, trebate preuzeti alat za izradu Visual Studio 2019 i instalirati potrebne resurse.

Preuzimanje datoteka: Visual Studio 2019 (Besplatno)

Samo naprijed i preuzmite zajedničko izdanje softvera.
Sada instalirajte Visual Studio 2019, a zatim otvorite softver. Nakon otvaranja označite kućicu Razvoj stolnog računala s C++ i pritisnite instaliraj.

Sada kada imate instaliran Desktop development sa C++, vrijeme je da preuzmete Text-Generation-WebUI instalacijski program jednim klikom.

Korak 2: Instalirajte Text-Generation-WebUI

Text-Generation-WebUI instalacijski program jednim klikom skripta je koja automatski stvara potrebne mape i postavlja Conda okruženje i sve potrebne zahtjeve za pokretanje AI modela.

Da biste instalirali skriptu, preuzmite instalacijski program jednim klikom klikom na Kodirati > Preuzmite ZIP.

Preuzimanje datoteka: Program za instalaciju WebUI-generacije teksta (Besplatno)

Nakon preuzimanja, izdvojite ZIP datoteku na željenu lokaciju, a zatim otvorite izdvojenu mapu.
Unutar mape pomaknite se prema dolje i potražite odgovarajući startni program za vaš operativni sustav. Pokrenite programe dvostrukim pritiskom na odgovarajuću skriptu.
- Ako ste u sustavu Windows, odaberite početni_prozori skupna datoteka
- za MacOS, odaberite start_macos školjka
- za Linux, start_linux shell skripta.
Vaš antivirusni program mogao bi stvoriti upozorenje; Ovo je u redu. Upit je samo antivirus lažno pozitivan za pokretanje batch datoteke ili skripte. Kliknite na Svejedno bježi .
Otvorit će se terminal i pokrenuti postavljanje. Na početku, postavljanje će se zaustaviti i pitati vas koji GPU koristite. Odaberite odgovarajuću vrstu GPU-a instaliranog na vašem računalu i pritisnite enter. Za one koji nemaju namjensku grafičku karticu, odaberite Ništa (želim pokrenuti modele u CPU modu) . Imajte na umu da je rad u CPU načinu puno sporiji u usporedbi s radom modela s namjenskim GPU-om.
Nakon što je postavljanje dovršeno, sada možete lokalno pokrenuti Text-Generation-WebUI. To možete učiniti tako da otvorite željeni web-preglednik i unesete navedenu IP adresu u URL.
WebUI je sada spreman za upotrebu.

Međutim, program je samo učitavač modela. Preuzmite Llama 2 za pokretanje programa za učitavanje modela.

Korak 3: Preuzmite model Llama 2

Ima dosta stvari koje treba uzeti u obzir kada odlučujete koja vam je iteracija Llame 2 potrebna. To uključuje parametre, kvantizaciju, optimizaciju hardvera, veličinu i upotrebu. Sve ove informacije nalazit će se označene u nazivu modela.

Parametri: Broj parametara korištenih za obuku modela. Veći parametri čine modele sposobnijima, ali po cijenu performansi.
Upotreba: Može biti standardni ili chat. Model chata optimiziran je za korištenje kao chatbot poput ChatGPT-a, dok je standardni zadani model.
Optimizacija hardvera: Odnosi se na hardver koji najbolje pokreće model. GPTQ znači da je model optimiziran za rad na namjenskom GPU-u, dok je GGML optimiziran za rad na CPU-u.
Kvantizacija: Označava preciznost težina i aktivacija u modelu. Za zaključivanje, preciznost od q4 je optimalna.
Veličina: Odnosi se na veličinu određenog modela.

Imajte na umu da neki modeli mogu biti drugačije raspoređeni i možda čak neće imati iste vrste prikazanih informacija. Međutim, ova vrsta konvencije imenovanja prilično je uobičajena u HuggingFace Biblioteka modela, pa je još uvijek vrijedno razumijevanja.

U ovom primjeru, model se može identificirati kao model Llama 2 srednje veličine obučen na 13 milijardi parametara optimiziranih za zaključivanje chata pomoću namjenskog CPU-a.

Za one koji rade na namjenskom GPU-u, odaberite a GPTQ model, dok za one koji koriste CPU odaberite GGML . Ako želite razgovarati s modelom kao što biste razgovarali s ChatGPT-om, odaberite razgovor , ali ako želite eksperimentirati s modelom s njegovim punim mogućnostima, upotrijebite standard model. Što se tiče parametara, znajte da će korištenje većih modela dati bolje rezultate nauštrb izvedbe. Osobno bih vam preporučio da počnete s modelom 7B. Što se tiče kvantizacije, koristite q4, jer služi samo za zaključivanje.

Preuzimanje datoteka: GGML (Besplatno)

Preuzimanje datoteka: GPTQ (Besplatno)

Sada kada znate koja vam je iteracija Llame 2 potrebna, preuzmite model koji želite.

U mom slučaju, budući da ovo pokrećem na ultrabooku, koristit ću GGML model fino podešen za chat, poziv-2-7b-chat-ggmlv3.q4_K_S.bin.

Nakon što je preuzimanje završeno, postavite model text-generation-webui-main > modeli .

Sada kada ste svoj model preuzeli i smjestili u mapu modela, vrijeme je da konfigurirate učitavač modela.

Korak 4: Konfigurirajte Text-Generation-WebUI

Sada započnimo fazu konfiguracije.

Još jednom otvorite Text-Generation-WebUI pokretanjem start_(vaš OS) datoteku (pogledajte prethodne korake iznad).
Kliknite na kartice iznad GUI-a Model. Kliknite gumb za osvježavanje na padajućem izborniku modela i odaberite svoj model.
Sada kliknite na padajući izbornik Utovarivač modela i odaberite AutoGPTQ za one koji koriste GTPQ model i ctransformatori za one koji koriste GGML model. Na kraju kliknite na Opterećenje za učitavanje vašeg modela.
Za korištenje modela otvorite karticu Chat i počnite testirati model.

Čestitamo, uspješno ste učitali Llama2 na svoje lokalno računalo!

Isprobajte druge LLM-ove

Sada kada znate kako pokrenuti Llamu 2 izravno na svom računalu koristeći Text-Generation-WebUI, trebali biste moći pokrenuti i druge LLM-ove osim Llame. Samo zapamtite konvencije imenovanja modela i da se samo kvantizirane verzije modela (obično q4 preciznost) mogu učitati na obična računala. Mnogi kvantizirani LLM-ovi dostupni su na HuggingFace. Ako želite istražiti druge modele, potražite TheBloke u biblioteci modela HuggingFace i trebali biste pronaći mnogo dostupnih modela.