Cloudflare ช่วยให้ AI หลุดจากขอบเครือข่าย

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

โมเดล AI เจนเนอเรชั่นอาจได้รับการฝึกฝนในกลุ่ม GPU ขนาดใหญ่ แต่ Cloudflare แย้งว่าจุดที่ชัดเจนในการรันโมเดลเหล่านี้ไม่ได้อยู่ที่ขอบเท่านั้น แต่อยู่ในเครือข่ายด้วย

เมื่อวันพุธยักษ์ใหญ่ส่งของ ประกาศ ชุดบริการ AI ที่มุ่งขจัดความซับซ้อนในการปรับใช้และใช้งานโมเดลภาษาขนาดใหญ่ (LLM) และอัลกอริธึมการเรียนรู้ของเครื่อง (ML) อื่นๆ ขณะเดียวกันก็บรรลุเวลาแฝงที่ต่ำที่สุดเท่าที่จะเป็นไปได้

จริงๆ แล้ว เวลาแฝงที่ต่ำที่สุดเท่าที่เป็นไปได้จะเกิดขึ้นได้โดยการรันปริมาณงานการอนุมานบนอุปกรณ์ของผู้ใช้ Intel ทำเรื่องใหญ่เกี่ยวกับเรื่องนี้ มลทิน การเพิ่มขึ้นของยุคพีซีแบบ AI ที่งาน Intel Innovation เมื่อสัปดาห์ที่แล้ว แม้ว่าสิ่งนี้อาจสมเหตุสมผลในบางกรณี Cloudflare แย้งว่าอุปกรณ์ในเครื่องยังไม่ทรงพลังเพียงพอ

“สิ่งนี้ทำให้เครือข่ายเป็นดั่งทองแห่งการอนุมาน ไม่ไกลเกินไป ด้วยพลังการคำนวณที่เพียงพอ — ถูกต้อง” ธุรกิจเขียน

ไร้เซิร์ฟเวอร์สำหรับ GPU

ชุด AI ประกอบด้วยบริการหลักสามประการ อย่างแรกคือส่วนขยายของแพลตฟอร์ม Workers แบบไร้เซิร์ฟเวอร์เพื่อรองรับปริมาณงานที่เร่งด้วย GPU บริการ Dubbed Workers AI ได้รับการออกแบบมาเพื่อปรับปรุงกระบวนการปรับใช้โมเดลที่ได้รับการฝึกอบรมล่วงหน้า

“ไม่มีความเชี่ยวชาญด้านการเรียนรู้ของเครื่อง ไม่มีการค้นหา GPU เพียงเลือกหนึ่งในรุ่นที่มีให้แล้วไปได้เลย” Cloudflare กล่าว

เราได้รับแจ้งว่าแพลตฟอร์มดังกล่าวทำงานบน Nvidia GPU แม้ว่า Cloudflare จะไม่บอกเราว่าอันไหน “เทคโนโลยีที่ Cloudflare สร้างขึ้นสามารถแบ่งงานการอนุมานออกเป็น GPU ต่างๆ ได้หลายตัว เนื่องจากเรากำลังดูแลเรื่องกำหนดการและระบบ และเราจะตัดสินใจว่าชิปหรือชิปตัวใดที่เหมาะสมที่สุดที่จะส่งมอบสิ่งนั้น” เขากล่าว ลงทะเบียน ในงบ

เพื่อความเรียบง่าย แพลตฟอร์มดังกล่าวไม่สนับสนุนโมเดลที่ลูกค้าเป็นผู้จัดหา อย่างน้อยก็ไม่ใช่ในตอนแรก เราได้รับแจ้งว่ามีแผนจะเปิดตัวฟังก์ชันการทำงานนี้ในอนาคต แต่สำหรับตอนนี้ โมเดลที่ได้รับการฝึกล่วงหน้านั้นจำกัดอยู่เพียงหกโมเดล ซึ่งรวมถึง:

Meta's Llama 2 7B Int8 สำหรับการสร้างข้อความ
M2m100-1.2 ของ Meta สำหรับการแปล
เสียงกระซิบของ OpenAI สำหรับการรู้จำคำพูด
Distilbert-sst-2-int8 ของ Hugging Face สำหรับการจำแนกข้อความ
Resnet-50 ของ Microsoft สำหรับการจำแนกรูปภาพ
bge-base-en-v1.5 ของ Baai สำหรับการฝัง

อย่างไรก็ตาม Cloudflare กล่าวว่ากำลังดำเนินการเพื่อขยายรายการนี้ในอนาคตอันใกล้นี้ เช่นเดียวกับความหวังของ AI หลายคนก็มี ร้องขอ ความช่วยเหลือของ Hugging Face เพื่อเพิ่มประสิทธิภาพโมเดลเพิ่มเติมสำหรับบริการ

ยังไม่ชัดเจนว่ามีการจำกัดขนาดของรุ่นที่แพลตฟอร์มสามารถรองรับได้หรือไม่ แต่รายการเริ่มต้นมีเบาะแสบางประการ Cloudflare กำลังทำให้พารามิเตอร์เจ็ดพันล้าน Llama 2 LLM ของ Meta พร้อมใช้งานที่ Int8 ซึ่งจะต้องใช้หน่วยความจำ GPU ประมาณ 7GB บริษัทยังตั้งข้อสังเกตอีกว่า “หากคุณต้องการใช้งานโมเดลเวอร์ชันพารามิเตอร์มูลค่าหลายแสนล้านรายการ ระบบคลาวด์แบบรวมศูนย์จะเหมาะสมกับปริมาณงานของคุณมากกว่า”

เมื่อเปิดใช้งานแล้ว Cloudflare กล่าวว่าลูกค้าสามารถรวมบริการเข้ากับแอปพลิเคชันของตนโดยใช้ REST API หรือโดยการเชื่อมโยงเข้ากับส่วนหน้าของเว็บไซต์ Pages

วางมันทั้งหมดเข้าด้วยกัน

เนื่องจาก Workers AI รองรับเฉพาะการอนุมานในโมเดลที่ผ่านการฝึกอบรมมาแล้วเท่านั้น Cloudflare กล่าวว่าได้พัฒนาบริการฐานข้อมูลเวกเตอร์ที่เรียกว่า Vectorize เพื่อให้โมเดล ML สามารถส่งข้อมูลลูกค้าไปยังผู้ใช้ได้ง่ายขึ้น

ตัวอย่างเช่น สำหรับแชทบอท ลูกค้าอาจอัปโหลดแคตตาล็อกผลิตภัณฑ์ของตนไปยังฐานข้อมูลเวกเตอร์ ซึ่งโมเดลจะแปลงเป็นเนื้อหาที่ฝังไว้

แนวคิดนี้ดูเหมือนจะเป็นเช่นนั้น แม้ว่าโมเดล Llama 2 ที่นำเสนอโดย Cloudflare อาจไม่มีความรู้เฉพาะเจาะจงเกี่ยวกับข้อมูลของลูกค้า แต่แชทบอทยังคงสามารถแสดงข้อมูลที่เกี่ยวข้องได้โดยการเชื่อมโยงกับบริการฐานข้อมูล ตาม Cloudflare แนวทางนี้ ทำให้ ช่วยให้เข้าถึงได้มากขึ้น เร็วขึ้น และใช้ทรัพยากรน้อยลง เนื่องจากเป็นการแยกข้อมูลลูกค้าออกจากตัวโมเดล

นอกเหนือจาก Workers AI และ Vectorize แล้ว ชุด AI ของ Cloudflare ยังมีแพลตฟอร์มสำหรับการตรวจสอบ เพิ่มประสิทธิภาพ และจัดการปริมาณงานการอนุมานตามขนาด

บริการนี้มีชื่อว่า AI Gateway ซึ่งใช้คุณสมบัติหลายอย่างที่มักเกี่ยวข้องกับเครือข่ายการจัดส่งเนื้อหาและเว็บพรอกซี เช่น การแคชและการจำกัดอัตรา ไปจนถึงการอนุมาน AI เพื่อช่วยลูกค้าในการควบคุมต้นทุน

“ด้วยการแคชการตอบสนองของ AI ที่ใช้บ่อย จะช่วยลดเวลาแฝงและเสริมความน่าเชื่อถือของระบบ ในขณะที่การจำกัดอัตราช่วยให้มั่นใจในการจัดสรรทรัพยากรที่มีประสิทธิภาพ บรรเทาความท้าทายของต้นทุน AI ที่เพิ่มขึ้นอย่างรวดเร็ว” บริษัทอธิบายในโพสต์บล็อก

ราคาและห้องว่าง

Cloudflare ตั้งข้อสังเกตว่าบริการดังกล่าวยังอยู่ในช่วงเริ่มต้นของการใช้งาน โดยมีไซต์ออนไลน์อยู่ 100 แห่งในปัจจุบัน อย่างไรก็ตาม บริษัทกำลังปรับใช้ GPU เพื่อให้บริการมีถึง 2024 จุดภายในสิ้นปีนี้ และ “เกือบทุกที่” ภายในสิ้นปี XNUMX

ด้วยเหตุนี้ จึงไม่แนะนำให้ปรับใช้แอปที่ใช้งานจริงบน Workers AI เพียงแต่อธิบายว่าเป็น “เบต้าเบื้องต้น”

“สิ่งที่เราเปิดตัวในวันนี้เป็นเพียงตัวอย่างเล็กๆ น้อยๆ เพื่อให้คุณได้เห็นสิ่งที่กำลังจะเกิดขึ้น” โพสต์ในบล็อกอ่าน

ตามปกติ Cloudflare บอกว่าจะไม่เรียกเก็บเงินค่าบริการในวันแรก จากที่กล่าวไว้ คาดว่าจะเรียกเก็บเงินประมาณร้อยละหนึ่งสำหรับ "เซลล์ประสาทกระตุกปกติ" ทุก ๆ พันเหรียญ และ 0.125 ดอลลาร์สำหรับ "เซลล์ประสาทกระตุกเร็วทุก ๆ พัน" ข้อแตกต่างระหว่างทั้งสองคือแบบหลังให้ความสำคัญกับความใกล้ชิดกับผู้ใช้ ในขณะที่แบบที่ราคาถูกกว่าของทั้งสองแบบจะทำงานทุกที่ที่ Cloudflare มีความจุเกิน

บริษัทอธิบายว่าเซลล์ประสาทเป็นวิธีหนึ่งในการวัดเอาท์พุตของ AI โดยเสริมว่าเซลล์ประสาทหนึ่งพันเซลล์นั้นดีสำหรับการตอบสนอง LLM ประมาณ 130 รายการ การจัดหมวดหมู่รูปภาพ 830 รายการ หรือการฝัง 1,250 รายการ

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://go.theregister.com/feed/www.theregister.com/2023/09/28/cloudflare_ai_edge/

ประทับเวลา: September 28, 2023

เพิ่มเติมจาก ลงทะเบียน

คอมพิวเตอร์วิทัศน์เป็นวิธีการรักษาสำหรับการยิงในโรงเรียนหรือไม่? ไม่น่าจะใช่

คลัสเตอร์ต้นทาง:

คลัสเตอร์ต้นทาง:

ลงทะเบียน

โหนดต้นทาง: 2631792

ประทับเวลา: May 4, 2023

โตโยต้า กลับมาเดินรถโดยสารพาราลิมปิกอัตโนมัติ หลังรถพุ่งชนผู้แข่งขันยูโด บีบให้ต้องออกจากการแข่งขัน

คลัสเตอร์ต้นทาง:

ลงทะเบียน

โหนดต้นทาง: 1170849

ประทับเวลา: สิงหาคม 30, 2021

เผยแพร่ซ้ำโดยเพลโต

คอมพิวเตอร์วิทัศน์เป็นวิธีการรักษาสำหรับการยิงในโรงเรียนหรือไม่? ไม่น่าจะใช่

Boffins แปลงเสียงพิมพ์เป็นข้อความด้วยความแม่นยำ 95%

ความโอหังของมนุษย์ของคุณขัดขวางการยอมรับ AI

การเพิ่ม AI ลงในทุกสิ่งจะไม่สมเหตุสมผลจนกว่าเราจะใช้มันเพื่ออะไร

OpenAI ฟ้องหลังจาก ChatGPT อ้างว่าคนยักยอกเงิน

ตัวแทนคอลเซ็นเตอร์ AI ของ Google หยุดงานช่วงเช้า

ฉันทำอย่างนั้นไม่ได้ เดฟ: AI กลบแม็กไซไฟชั้นนำด้วยการส่งเรื่องราว

แค่มีแพทย์ไม่เพียงพอ แล้วเราสามารถพึ่งพาเทคโนโลยีการดูแลสุขภาพที่ชาญฉลาดกว่านี้ได้หรือไม่?

CEO ของ IBM อธิบายว่าทำไมเขาถึงเลิกจ้าง Watson Health: ความเชี่ยวชาญด้านโดเมนไม่เพียงพอ

รมว.กลาโหมสหรัฐฯ ระบุ การแข่งขันอาวุธวันนี้เป็นเรื่องของ AI ทั้งจีนและอเมริกา

หน่วยเฝ้าระวังการผูกขาดของอเมริกาและอังกฤษตรวจสอบ AI เพื่อให้แน่ใจว่าเราจะไม่ถูกหลอก

โตโยต้า กลับมาเดินรถโดยสารพาราลิมปิกอัตโนมัติ หลังรถพุ่งชนผู้แข่งขันยูโด บีบให้ต้องออกจากการแข่งขัน

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้