Cloudflare ช่วยให้ AI หลุดจากขอบเครือข่าย

Cloudflare ช่วยให้ AI หลุดจากขอบเครือข่าย

โหนดต้นทาง: 2906199

โมเดล AI เจนเนอเรชั่นอาจได้รับการฝึกฝนในกลุ่ม GPU ขนาดใหญ่ แต่ Cloudflare แย้งว่าจุดที่ชัดเจนในการรันโมเดลเหล่านี้ไม่ได้อยู่ที่ขอบเท่านั้น แต่อยู่ในเครือข่ายด้วย

เมื่อวันพุธยักษ์ใหญ่ส่งของ ประกาศ ชุดบริการ AI ที่มุ่งขจัดความซับซ้อนในการปรับใช้และใช้งานโมเดลภาษาขนาดใหญ่ (LLM) และอัลกอริธึมการเรียนรู้ของเครื่อง (ML) อื่นๆ ขณะเดียวกันก็บรรลุเวลาแฝงที่ต่ำที่สุดเท่าที่จะเป็นไปได้

จริงๆ แล้ว เวลาแฝงที่ต่ำที่สุดเท่าที่เป็นไปได้จะเกิดขึ้นได้โดยการรันปริมาณงานการอนุมานบนอุปกรณ์ของผู้ใช้ Intel ทำเรื่องใหญ่เกี่ยวกับเรื่องนี้ มลทิน การเพิ่มขึ้นของยุคพีซีแบบ AI ที่งาน Intel Innovation เมื่อสัปดาห์ที่แล้ว แม้ว่าสิ่งนี้อาจสมเหตุสมผลในบางกรณี Cloudflare แย้งว่าอุปกรณ์ในเครื่องยังไม่ทรงพลังเพียงพอ

“สิ่งนี้ทำให้เครือข่ายเป็นดั่งทองแห่งการอนุมาน ไม่ไกลเกินไป ด้วยพลังการคำนวณที่เพียงพอ — ถูกต้อง” ธุรกิจเขียน

ไร้เซิร์ฟเวอร์สำหรับ GPU

ชุด AI ประกอบด้วยบริการหลักสามประการ อย่างแรกคือส่วนขยายของแพลตฟอร์ม Workers แบบไร้เซิร์ฟเวอร์เพื่อรองรับปริมาณงานที่เร่งด้วย GPU บริการ Dubbed Workers AI ได้รับการออกแบบมาเพื่อปรับปรุงกระบวนการปรับใช้โมเดลที่ได้รับการฝึกอบรมล่วงหน้า

“ไม่มีความเชี่ยวชาญด้านการเรียนรู้ของเครื่อง ไม่มีการค้นหา GPU เพียงเลือกหนึ่งในรุ่นที่มีให้แล้วไปได้เลย” Cloudflare กล่าว

เราได้รับแจ้งว่าแพลตฟอร์มดังกล่าวทำงานบน Nvidia GPU แม้ว่า Cloudflare จะไม่บอกเราว่าอันไหน “เทคโนโลยีที่ Cloudflare สร้างขึ้นสามารถแบ่งงานการอนุมานออกเป็น GPU ต่างๆ ได้หลายตัว เนื่องจากเรากำลังดูแลเรื่องกำหนดการและระบบ และเราจะตัดสินใจว่าชิปหรือชิปตัวใดที่เหมาะสมที่สุดที่จะส่งมอบสิ่งนั้น” เขากล่าว ลงทะเบียน ในงบ

เพื่อความเรียบง่าย แพลตฟอร์มดังกล่าวไม่สนับสนุนโมเดลที่ลูกค้าเป็นผู้จัดหา อย่างน้อยก็ไม่ใช่ในตอนแรก เราได้รับแจ้งว่ามีแผนจะเปิดตัวฟังก์ชันการทำงานนี้ในอนาคต แต่สำหรับตอนนี้ โมเดลที่ได้รับการฝึกล่วงหน้านั้นจำกัดอยู่เพียงหกโมเดล ซึ่งรวมถึง:

  • Meta's Llama 2 7B Int8 สำหรับการสร้างข้อความ
  • M2m100-1.2 ของ Meta สำหรับการแปล
  • เสียงกระซิบของ OpenAI สำหรับการรู้จำคำพูด
  • Distilbert-sst-2-int8 ของ Hugging Face สำหรับการจำแนกข้อความ
  • Resnet-50 ของ Microsoft สำหรับการจำแนกรูปภาพ
  • bge-base-en-v1.5 ของ Baai สำหรับการฝัง

อย่างไรก็ตาม Cloudflare กล่าวว่ากำลังดำเนินการเพื่อขยายรายการนี้ในอนาคตอันใกล้นี้ เช่นเดียวกับความหวังของ AI หลายคนก็มี ร้องขอ ความช่วยเหลือของ Hugging Face เพื่อเพิ่มประสิทธิภาพโมเดลเพิ่มเติมสำหรับบริการ

ยังไม่ชัดเจนว่ามีการจำกัดขนาดของรุ่นที่แพลตฟอร์มสามารถรองรับได้หรือไม่ แต่รายการเริ่มต้นมีเบาะแสบางประการ Cloudflare กำลังทำให้พารามิเตอร์เจ็ดพันล้าน Llama 2 LLM ของ Meta พร้อมใช้งานที่ Int8 ซึ่งจะต้องใช้หน่วยความจำ GPU ประมาณ 7GB บริษัทยังตั้งข้อสังเกตอีกว่า “หากคุณต้องการใช้งานโมเดลเวอร์ชันพารามิเตอร์มูลค่าหลายแสนล้านรายการ ระบบคลาวด์แบบรวมศูนย์จะเหมาะสมกับปริมาณงานของคุณมากกว่า”

เมื่อเปิดใช้งานแล้ว Cloudflare กล่าวว่าลูกค้าสามารถรวมบริการเข้ากับแอปพลิเคชันของตนโดยใช้ REST API หรือโดยการเชื่อมโยงเข้ากับส่วนหน้าของเว็บไซต์ Pages

วางมันทั้งหมดเข้าด้วยกัน

เนื่องจาก Workers AI รองรับเฉพาะการอนุมานในโมเดลที่ผ่านการฝึกอบรมมาแล้วเท่านั้น Cloudflare กล่าวว่าได้พัฒนาบริการฐานข้อมูลเวกเตอร์ที่เรียกว่า Vectorize เพื่อให้โมเดล ML สามารถส่งข้อมูลลูกค้าไปยังผู้ใช้ได้ง่ายขึ้น

ตัวอย่างเช่น สำหรับแชทบอท ลูกค้าอาจอัปโหลดแคตตาล็อกผลิตภัณฑ์ของตนไปยังฐานข้อมูลเวกเตอร์ ซึ่งโมเดลจะแปลงเป็นเนื้อหาที่ฝังไว้

แนวคิดนี้ดูเหมือนจะเป็นเช่นนั้น แม้ว่าโมเดล Llama 2 ที่นำเสนอโดย Cloudflare อาจไม่มีความรู้เฉพาะเจาะจงเกี่ยวกับข้อมูลของลูกค้า แต่แชทบอทยังคงสามารถแสดงข้อมูลที่เกี่ยวข้องได้โดยการเชื่อมโยงกับบริการฐานข้อมูล ตาม Cloudflare แนวทางนี้ ทำให้ ช่วยให้เข้าถึงได้มากขึ้น เร็วขึ้น และใช้ทรัพยากรน้อยลง เนื่องจากเป็นการแยกข้อมูลลูกค้าออกจากตัวโมเดล

นอกเหนือจาก Workers AI และ Vectorize แล้ว ชุด AI ของ Cloudflare ยังมีแพลตฟอร์มสำหรับการตรวจสอบ เพิ่มประสิทธิภาพ และจัดการปริมาณงานการอนุมานตามขนาด

บริการนี้มีชื่อว่า AI Gateway ซึ่งใช้คุณสมบัติหลายอย่างที่มักเกี่ยวข้องกับเครือข่ายการจัดส่งเนื้อหาและเว็บพรอกซี เช่น การแคชและการจำกัดอัตรา ไปจนถึงการอนุมาน AI เพื่อช่วยลูกค้าในการควบคุมต้นทุน

“ด้วยการแคชการตอบสนองของ AI ที่ใช้บ่อย จะช่วยลดเวลาแฝงและเสริมความน่าเชื่อถือของระบบ ในขณะที่การจำกัดอัตราช่วยให้มั่นใจในการจัดสรรทรัพยากรที่มีประสิทธิภาพ บรรเทาความท้าทายของต้นทุน AI ที่เพิ่มขึ้นอย่างรวดเร็ว” บริษัทอธิบายในโพสต์บล็อก

ราคาและห้องว่าง

Cloudflare ตั้งข้อสังเกตว่าบริการดังกล่าวยังอยู่ในช่วงเริ่มต้นของการใช้งาน โดยมีไซต์ออนไลน์อยู่ 100 แห่งในปัจจุบัน อย่างไรก็ตาม บริษัทกำลังปรับใช้ GPU เพื่อให้บริการมีถึง 2024 จุดภายในสิ้นปีนี้ และ “เกือบทุกที่” ภายในสิ้นปี XNUMX

ด้วยเหตุนี้ จึงไม่แนะนำให้ปรับใช้แอปที่ใช้งานจริงบน Workers AI เพียงแต่อธิบายว่าเป็น “เบต้าเบื้องต้น”

“สิ่งที่เราเปิดตัวในวันนี้เป็นเพียงตัวอย่างเล็กๆ น้อยๆ เพื่อให้คุณได้เห็นสิ่งที่กำลังจะเกิดขึ้น” โพสต์ในบล็อกอ่าน

ตามปกติ Cloudflare บอกว่าจะไม่เรียกเก็บเงินค่าบริการในวันแรก จากที่กล่าวไว้ คาดว่าจะเรียกเก็บเงินประมาณร้อยละหนึ่งสำหรับ "เซลล์ประสาทกระตุกปกติ" ทุก ๆ พันเหรียญ และ 0.125 ดอลลาร์สำหรับ "เซลล์ประสาทกระตุกเร็วทุก ๆ พัน" ข้อแตกต่างระหว่างทั้งสองคือแบบหลังให้ความสำคัญกับความใกล้ชิดกับผู้ใช้ ในขณะที่แบบที่ราคาถูกกว่าของทั้งสองแบบจะทำงานทุกที่ที่ Cloudflare มีความจุเกิน

บริษัทอธิบายว่าเซลล์ประสาทเป็นวิธีหนึ่งในการวัดเอาท์พุตของ AI โดยเสริมว่าเซลล์ประสาทหนึ่งพันเซลล์นั้นดีสำหรับการตอบสนอง LLM ประมาณ 130 รายการ การจัดหมวดหมู่รูปภาพ 830 รายการ หรือการฝัง 1,250 รายการ

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน