ใช้งาน Mixtral 8x7b บน Google Colab ฟรี - KDnuggets

ใช้งาน Mixtral 8x7b บน Google Colab ฟรี – KDnuggets

โหนดต้นทาง: 3059535

ใช้งาน Mixtral 8x7b บน Google Colab ฟรี
ภาพโดยผู้เขียน
 

ในโพสต์นี้ เราจะสำรวจโมเดลโอเพ่นซอร์สล้ำสมัยใหม่ที่เรียกว่า Mixtral 8x7b นอกจากนี้เรายังจะได้เรียนรู้วิธีการเข้าถึงโดยใช้ไลบรารี LLaMA C++ และวิธีการเรียกใช้โมเดลภาษาขนาดใหญ่โดยใช้คอมพิวเตอร์และหน่วยความจำที่ลดลง

มิกซ์ทรัล 8x7b เป็นโมเดลผสมเบาบางคุณภาพสูงของผู้เชี่ยวชาญ (SMoE) ที่มีน้ำหนักเปิด สร้างขึ้นโดย Mistral AI ได้รับใบอนุญาตภายใต้ Apache 2.0 และมีประสิทธิภาพเหนือกว่า Llama 2 70B ในการวัดประสิทธิภาพส่วนใหญ่ ในขณะที่มีการอนุมานเร็วขึ้น 6 เท่า Mixtral จับคู่หรือเอาชนะ GPT3.5 ในการวัดประสิทธิภาพมาตรฐานส่วนใหญ่ และเป็นรุ่นน้ำหนักเปิดที่ดีที่สุดเกี่ยวกับต้นทุน/ประสิทธิภาพ

 

ใช้งาน Mixtral 8x7b บน Google Colab ฟรี
ภาพจาก การผสมผสานของผู้เชี่ยวชาญ
 

Mixtral 8x7B ใช้เครือข่ายผสมของผู้เชี่ยวชาญแบบกระจัดกระจายเท่านั้น สิ่งนี้เกี่ยวข้องกับการบล็อกฟีดฟอร์เวิร์ดที่เลือกจากกลุ่มพารามิเตอร์ 8 กลุ่ม โดยเครือข่ายเราเตอร์จะเลือกกลุ่มเหล่านี้สองกลุ่มสำหรับแต่ละโทเค็น รวมเอาต์พุตเข้าด้วยกัน วิธีการนี้ช่วยเพิ่มจำนวนพารามิเตอร์ของโมเดลไปพร้อมๆ กับการจัดการกับต้นทุนและเวลาแฝง ทำให้มีประสิทธิภาพเทียบเท่ากับโมเดล 12.9B แม้ว่าจะมีพารามิเตอร์ทั้งหมด 46.7B ก็ตาม

โมเดล Mixtral 8x7B เป็นเลิศในการจัดการบริบทที่กว้างของโทเค็น 32 และรองรับหลายภาษา รวมถึงอังกฤษ ฝรั่งเศส อิตาลี เยอรมัน และสเปน มันแสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งในการสร้างโค้ด และสามารถปรับแต่งให้เป็นโมเดลตามคำสั่งได้อย่างละเอียด ซึ่งได้รับคะแนนสูงบนเกณฑ์มาตรฐาน เช่น MT-Bench

LLaMA.cpp เป็นไลบรารี C/C++ ที่ให้อินเทอร์เฟซประสิทธิภาพสูงสำหรับโมเดลภาษาขนาดใหญ่ (LLM) ตามสถาปัตยกรรม LLM ของ Facebook เป็นไลบรารีน้ำหนักเบาและมีประสิทธิภาพที่สามารถนำไปใช้งานได้หลากหลาย รวมถึงการสร้างข้อความ การแปล และการตอบคำถาม LLaMA.cpp รองรับ LLM ที่หลากหลาย รวมถึง LLaMA, LLaMA 2, Falcon, Alpaca, Mistral 7B, Mixtral 8x7B และ GPT4ALL มันเข้ากันได้กับระบบปฏิบัติการทั้งหมดและสามารถทำงานได้ทั้งบน CPU และ GPU

ในส่วนนี้ เราจะเรียกใช้เว็บแอปพลิเคชัน llama.cpp บน Colab ด้วยการเขียนโค้ดเพียงไม่กี่บรรทัด คุณจะได้สัมผัสกับประสิทธิภาพของโมเดลที่ล้ำสมัยใหม่บนพีซีของคุณหรือบน Google Colab

เริ่มต้นใช้งาน

ขั้นแรก เราจะดาวน์โหลดพื้นที่เก็บข้อมูล llama.cpp GitHub โดยใช้บรรทัดคำสั่งด้านล่าง: 

!git clone --depth 1 https://github.com/ggerganov/llama.cpp.git

หลังจากนั้น เราจะเปลี่ยนไดเรกทอรีเป็นพื้นที่เก็บข้อมูล และติดตั้ง llama.cpp โดยใช้คำสั่ง `make` เรากำลังติดตั้ง llama.cpp สำหรับ NVidia GPU ที่ติดตั้ง CUDA 

%cd llama.cpp

!make LLAMA_CUBLAS=1

ดาวน์โหลดโมเดล

เราสามารถดาวน์โหลดโมเดลได้จาก Hugging Face Hub โดยเลือกเวอร์ชันที่เหมาะสมของไฟล์โมเดล `.gguf` ข้อมูลเพิ่มเติมเกี่ยวกับเวอร์ชันต่างๆ สามารถพบได้ใน TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF.

 

ใช้งาน Mixtral 8x7b บน Google Colab ฟรี
ภาพจาก TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF
 

คุณสามารถใช้คำสั่ง `wget` เพื่อดาวน์โหลดโมเดลในไดเร็กทอรีปัจจุบัน 

!wget https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF/resolve/main/mixtral-8x7b-instruct-v0.1.Q2_K.gguf

ที่อยู่ภายนอกสำหรับเซิร์ฟเวอร์ LLaMA

เมื่อเราเรียกใช้เซิร์ฟเวอร์ LLaMA มันจะให้ IP ของโฮสต์ในพื้นที่ซึ่งไม่มีประโยชน์สำหรับเราบน Colab เราต้องการเชื่อมต่อกับพร็อกซี localhost โดยใช้พอร์ตพร็อกซีเคอร์เนล Colab 

หลังจากรันโค้ดด้านล่างแล้ว คุณจะได้รับไฮเปอร์ลิงก์ส่วนกลาง เราจะใช้ลิงก์นี้เพื่อเข้าถึงเว็บแอปของเราในภายหลัง 

from google.colab.output import eval_js
print(eval_js("google.colab.kernel.proxyPort(6589)"))

 

https://8fx1nbkv1c8-496ff2e9c6d22116-6589-colab.googleusercontent.com/

การรันเซิร์ฟเวอร์

ในการรันเซิร์ฟเวอร์ LLaMA C++ คุณจะต้องจัดเตรียมคำสั่งเซิร์ฟเวอร์พร้อมตำแหน่งของไฟล์โมเดลและหมายเลขพอร์ตที่ถูกต้อง สิ่งสำคัญคือต้องตรวจสอบให้แน่ใจว่าหมายเลขพอร์ตตรงกับที่เราเริ่มต้นในขั้นตอนก่อนหน้าสำหรับพอร์ตพร็อกซี  

%cd /content/llama.cpp

!./server -m mixtral-8x7b-instruct-v0.1.Q2_K.gguf -ngl 27 -c 2048 --port 6589

 

ใช้งาน Mixtral 8x7b บน Google Colab ฟรี
 

สามารถเข้าถึงเว็บแอปแชทได้โดยการคลิกที่ไฮเปอร์ลิงก์พอร์ตพร็อกซีในขั้นตอนก่อนหน้า เนื่องจากเซิร์ฟเวอร์ไม่ได้ทำงานอยู่ในเครื่อง

LLaMA C++ เว็บแอป

ก่อนที่เราจะเริ่มใช้แชทบอท เราจำเป็นต้องปรับแต่งมันก่อน แทนที่ “LLaMA” ด้วยชื่อรุ่นของคุณในส่วนข้อความแจ้ง นอกจากนี้ แก้ไขชื่อผู้ใช้และชื่อบอทเพื่อแยกความแตกต่างระหว่างการตอบสนองที่สร้างขึ้น

 

ใช้งาน Mixtral 8x7b บน Google Colab ฟรี
 

เริ่มแชทโดยเลื่อนลงและพิมพ์ในส่วนแชท อย่าลังเลที่จะถามคำถามทางเทคนิคที่โมเดลโอเพ่นซอร์สอื่นๆ ไม่สามารถตอบได้อย่างถูกต้อง 

 

ใช้งาน Mixtral 8x7b บน Google Colab ฟรี
 

หากคุณประสบปัญหากับแอป คุณสามารถลองเรียกใช้ด้วยตัวเองโดยใช้ Google Colab ของฉัน: https://colab.research.google.com/drive/1gQ1lpSH-BhbKN-DdBmq5r8-8Rw8q1p9r?usp=sharing

บทช่วยสอนนี้ให้คำแนะนำที่ครอบคลุมเกี่ยวกับวิธีการเรียกใช้โมเดลโอเพ่นซอร์สขั้นสูง Mixtral 8x7b บน Google Colab โดยใช้ไลบรารี LLaMA C++ เมื่อเปรียบเทียบกับรุ่นอื่นๆ Mixtral 8x7b มอบประสิทธิภาพและประสิทธิภาพที่เหนือกว่า ทำให้เป็นโซลูชันที่ยอดเยี่ยมสำหรับผู้ที่ต้องการทดลองใช้โมเดลที่ใช้ภาษาขนาดใหญ่ แต่ไม่มีทรัพยากรในการคำนวณที่กว้างขวาง คุณสามารถเรียกใช้บนแล็ปท็อปของคุณหรือบนระบบคลาวด์ฟรีได้อย่างง่ายดาย มันใช้งานง่ายและคุณยังสามารถปรับใช้แอปแชทของคุณเพื่อให้ผู้อื่นใช้และทดลองด้วยได้

ฉันหวังว่าคุณจะพบว่าวิธีแก้ปัญหาง่ายๆ ในการรันโมเดลขนาดใหญ่นี้มีประโยชน์ ฉันมองหาตัวเลือกที่เรียบง่ายและดีกว่าอยู่เสมอ หากคุณมีวิธีแก้ปัญหาที่ดียิ่งขึ้น โปรดแจ้งให้เราทราบ และเราจะกล่าวถึงในครั้งต่อไป
 
 

อาบิด อาลี อาวัน (@1อบีดาลิวัน) เป็นนักวิทยาศาสตร์ข้อมูลที่ได้รับการรับรองมืออาชีพที่รักการสร้างแบบจำลองการเรียนรู้ของเครื่อง ปัจจุบันเขามุ่งเน้นไปที่การสร้างเนื้อหาและการเขียนบล็อกทางเทคนิคเกี่ยวกับการเรียนรู้ของเครื่องและเทคโนโลยีวิทยาศาสตร์ข้อมูล อาบิดสำเร็จการศึกษาระดับปริญญาโทด้านการจัดการเทคโนโลยีและปริญญาตรีสาขาวิศวกรรมโทรคมนาคม วิสัยทัศน์ของเขาคือการสร้างผลิตภัณฑ์ AI โดยใช้โครงข่ายประสาทเทียมแบบกราฟสำหรับนักเรียนที่ป่วยเป็นโรคทางจิต

ประทับเวลา:

เพิ่มเติมจาก KD นักเก็ต

การสัมมนาผ่านเว็บของ Amazon Web Services: ใช้ประโยชน์จากชุดข้อมูลเพื่อสร้างกลยุทธ์ที่เน้นลูกค้าเป็นศูนย์กลางและปรับปรุงผลลัพธ์ทางธุรกิจ

โหนดต้นทาง: 1877942
ประทับเวลา: ตุลาคม 14, 2021