โมเดล AI เจนเนอเรชั่นอาจได้รับการฝึกฝนในกลุ่ม GPU ขนาดใหญ่ แต่ Cloudflare แย้งว่าจุดที่ชัดเจนในการรันโมเดลเหล่านี้ไม่ได้อยู่ที่ขอบเท่านั้น แต่อยู่ในเครือข่ายด้วย
เมื่อวันพุธยักษ์ใหญ่ส่งของ ประกาศ ชุดบริการ AI ที่มุ่งขจัดความซับซ้อนในการปรับใช้และใช้งานโมเดลภาษาขนาดใหญ่ (LLM) และอัลกอริธึมการเรียนรู้ของเครื่อง (ML) อื่นๆ ขณะเดียวกันก็บรรลุเวลาแฝงที่ต่ำที่สุดเท่าที่จะเป็นไปได้
จริงๆ แล้ว เวลาแฝงที่ต่ำที่สุดเท่าที่เป็นไปได้จะเกิดขึ้นได้โดยการรันปริมาณงานการอนุมานบนอุปกรณ์ของผู้ใช้ Intel ทำเรื่องใหญ่เกี่ยวกับเรื่องนี้ มลทิน การเพิ่มขึ้นของยุคพีซีแบบ AI ที่งาน Intel Innovation เมื่อสัปดาห์ที่แล้ว แม้ว่าสิ่งนี้อาจสมเหตุสมผลในบางกรณี Cloudflare แย้งว่าอุปกรณ์ในเครื่องยังไม่ทรงพลังเพียงพอ
“สิ่งนี้ทำให้เครือข่ายเป็นดั่งทองแห่งการอนุมาน ไม่ไกลเกินไป ด้วยพลังการคำนวณที่เพียงพอ — ถูกต้อง” ธุรกิจเขียน
ไร้เซิร์ฟเวอร์สำหรับ GPU
ชุด AI ประกอบด้วยบริการหลักสามประการ อย่างแรกคือส่วนขยายของแพลตฟอร์ม Workers แบบไร้เซิร์ฟเวอร์เพื่อรองรับปริมาณงานที่เร่งด้วย GPU บริการ Dubbed Workers AI ได้รับการออกแบบมาเพื่อปรับปรุงกระบวนการปรับใช้โมเดลที่ได้รับการฝึกอบรมล่วงหน้า
“ไม่มีความเชี่ยวชาญด้านการเรียนรู้ของเครื่อง ไม่มีการค้นหา GPU เพียงเลือกหนึ่งในรุ่นที่มีให้แล้วไปได้เลย” Cloudflare กล่าว
เราได้รับแจ้งว่าแพลตฟอร์มดังกล่าวทำงานบน Nvidia GPU แม้ว่า Cloudflare จะไม่บอกเราว่าอันไหน “เทคโนโลยีที่ Cloudflare สร้างขึ้นสามารถแบ่งงานการอนุมานออกเป็น GPU ต่างๆ ได้หลายตัว เนื่องจากเรากำลังดูแลเรื่องกำหนดการและระบบ และเราจะตัดสินใจว่าชิปหรือชิปตัวใดที่เหมาะสมที่สุดที่จะส่งมอบสิ่งนั้น” เขากล่าว ลงทะเบียน ในงบ
เพื่อความเรียบง่าย แพลตฟอร์มดังกล่าวไม่สนับสนุนโมเดลที่ลูกค้าเป็นผู้จัดหา อย่างน้อยก็ไม่ใช่ในตอนแรก เราได้รับแจ้งว่ามีแผนจะเปิดตัวฟังก์ชันการทำงานนี้ในอนาคต แต่สำหรับตอนนี้ โมเดลที่ได้รับการฝึกล่วงหน้านั้นจำกัดอยู่เพียงหกโมเดล ซึ่งรวมถึง:
- Meta's Llama 2 7B Int8 สำหรับการสร้างข้อความ
- M2m100-1.2 ของ Meta สำหรับการแปล
- เสียงกระซิบของ OpenAI สำหรับการรู้จำคำพูด
- Distilbert-sst-2-int8 ของ Hugging Face สำหรับการจำแนกข้อความ
- Resnet-50 ของ Microsoft สำหรับการจำแนกรูปภาพ
- bge-base-en-v1.5 ของ Baai สำหรับการฝัง
อย่างไรก็ตาม Cloudflare กล่าวว่ากำลังดำเนินการเพื่อขยายรายการนี้ในอนาคตอันใกล้นี้ เช่นเดียวกับความหวังของ AI หลายคนก็มี ร้องขอ ความช่วยเหลือของ Hugging Face เพื่อเพิ่มประสิทธิภาพโมเดลเพิ่มเติมสำหรับบริการ
ยังไม่ชัดเจนว่ามีการจำกัดขนาดของรุ่นที่แพลตฟอร์มสามารถรองรับได้หรือไม่ แต่รายการเริ่มต้นมีเบาะแสบางประการ Cloudflare กำลังทำให้พารามิเตอร์เจ็ดพันล้าน Llama 2 LLM ของ Meta พร้อมใช้งานที่ Int8 ซึ่งจะต้องใช้หน่วยความจำ GPU ประมาณ 7GB บริษัทยังตั้งข้อสังเกตอีกว่า “หากคุณต้องการใช้งานโมเดลเวอร์ชันพารามิเตอร์มูลค่าหลายแสนล้านรายการ ระบบคลาวด์แบบรวมศูนย์จะเหมาะสมกับปริมาณงานของคุณมากกว่า”
เมื่อเปิดใช้งานแล้ว Cloudflare กล่าวว่าลูกค้าสามารถรวมบริการเข้ากับแอปพลิเคชันของตนโดยใช้ REST API หรือโดยการเชื่อมโยงเข้ากับส่วนหน้าของเว็บไซต์ Pages
วางมันทั้งหมดเข้าด้วยกัน
เนื่องจาก Workers AI รองรับเฉพาะการอนุมานในโมเดลที่ผ่านการฝึกอบรมมาแล้วเท่านั้น Cloudflare กล่าวว่าได้พัฒนาบริการฐานข้อมูลเวกเตอร์ที่เรียกว่า Vectorize เพื่อให้โมเดล ML สามารถส่งข้อมูลลูกค้าไปยังผู้ใช้ได้ง่ายขึ้น
ตัวอย่างเช่น สำหรับแชทบอท ลูกค้าอาจอัปโหลดแคตตาล็อกผลิตภัณฑ์ของตนไปยังฐานข้อมูลเวกเตอร์ ซึ่งโมเดลจะแปลงเป็นเนื้อหาที่ฝังไว้
แนวคิดนี้ดูเหมือนจะเป็นเช่นนั้น แม้ว่าโมเดล Llama 2 ที่นำเสนอโดย Cloudflare อาจไม่มีความรู้เฉพาะเจาะจงเกี่ยวกับข้อมูลของลูกค้า แต่แชทบอทยังคงสามารถแสดงข้อมูลที่เกี่ยวข้องได้โดยการเชื่อมโยงกับบริการฐานข้อมูล ตาม Cloudflare แนวทางนี้ ทำให้ ช่วยให้เข้าถึงได้มากขึ้น เร็วขึ้น และใช้ทรัพยากรน้อยลง เนื่องจากเป็นการแยกข้อมูลลูกค้าออกจากตัวโมเดล
นอกเหนือจาก Workers AI และ Vectorize แล้ว ชุด AI ของ Cloudflare ยังมีแพลตฟอร์มสำหรับการตรวจสอบ เพิ่มประสิทธิภาพ และจัดการปริมาณงานการอนุมานตามขนาด
บริการนี้มีชื่อว่า AI Gateway ซึ่งใช้คุณสมบัติหลายอย่างที่มักเกี่ยวข้องกับเครือข่ายการจัดส่งเนื้อหาและเว็บพรอกซี เช่น การแคชและการจำกัดอัตรา ไปจนถึงการอนุมาน AI เพื่อช่วยลูกค้าในการควบคุมต้นทุน
“ด้วยการแคชการตอบสนองของ AI ที่ใช้บ่อย จะช่วยลดเวลาแฝงและเสริมความน่าเชื่อถือของระบบ ในขณะที่การจำกัดอัตราช่วยให้มั่นใจในการจัดสรรทรัพยากรที่มีประสิทธิภาพ บรรเทาความท้าทายของต้นทุน AI ที่เพิ่มขึ้นอย่างรวดเร็ว” บริษัทอธิบายในโพสต์บล็อก
ราคาและห้องว่าง
Cloudflare ตั้งข้อสังเกตว่าบริการดังกล่าวยังอยู่ในช่วงเริ่มต้นของการใช้งาน โดยมีไซต์ออนไลน์อยู่ 100 แห่งในปัจจุบัน อย่างไรก็ตาม บริษัทกำลังปรับใช้ GPU เพื่อให้บริการมีถึง 2024 จุดภายในสิ้นปีนี้ และ “เกือบทุกที่” ภายในสิ้นปี XNUMX
ด้วยเหตุนี้ จึงไม่แนะนำให้ปรับใช้แอปที่ใช้งานจริงบน Workers AI เพียงแต่อธิบายว่าเป็น “เบต้าเบื้องต้น”
“สิ่งที่เราเปิดตัวในวันนี้เป็นเพียงตัวอย่างเล็กๆ น้อยๆ เพื่อให้คุณได้เห็นสิ่งที่กำลังจะเกิดขึ้น” โพสต์ในบล็อกอ่าน
ตามปกติ Cloudflare บอกว่าจะไม่เรียกเก็บเงินค่าบริการในวันแรก จากที่กล่าวไว้ คาดว่าจะเรียกเก็บเงินประมาณร้อยละหนึ่งสำหรับ "เซลล์ประสาทกระตุกปกติ" ทุก ๆ พันเหรียญ และ 0.125 ดอลลาร์สำหรับ "เซลล์ประสาทกระตุกเร็วทุก ๆ พัน" ข้อแตกต่างระหว่างทั้งสองคือแบบหลังให้ความสำคัญกับความใกล้ชิดกับผู้ใช้ ในขณะที่แบบที่ราคาถูกกว่าของทั้งสองแบบจะทำงานทุกที่ที่ Cloudflare มีความจุเกิน
บริษัทอธิบายว่าเซลล์ประสาทเป็นวิธีหนึ่งในการวัดเอาท์พุตของ AI โดยเสริมว่าเซลล์ประสาทหนึ่งพันเซลล์นั้นดีสำหรับการตอบสนอง LLM ประมาณ 130 รายการ การจัดหมวดหมู่รูปภาพ 830 รายการ หรือการฝัง 1,250 รายการ
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://go.theregister.com/feed/www.theregister.com/2023/09/28/cloudflare_ai_edge/
- :มี
- :เป็น
- :ไม่
- $ ขึ้น
- 1
- 100
- 125
- 2024
- 250
- a
- เกี่ยวกับเรา
- เร่ง
- สามารถเข้าถึงได้
- ตาม
- ประสบความสำเร็จ
- การบรรลุ
- ข้าม
- จริง
- เพิ่ม
- เพิ่มเติม
- AI
- โมเดล AI
- บริการ AI
- มีวัตถุประสงค์เพื่อ
- อัลกอริทึม
- ทั้งหมด
- การจัดสรร
- ด้วย
- an
- และ
- ทุกแห่ง
- APIs
- ปรากฏ
- การใช้งาน
- มีผลบังคับใช้
- เข้าใกล้
- ปพลิเคชัน
- เป็น
- ระบุ
- AS
- สินทรัพย์
- ที่เกี่ยวข้อง
- At
- ใช้ได้
- ไป
- BE
- เพราะ
- เบต้า
- ดีกว่า
- ระหว่าง
- ใหญ่
- การเรียกเก็บเงิน
- Biz
- บล็อก
- หนุน
- นำมาซึ่ง
- สร้าง
- แต่
- by
- ที่เรียกว่า
- CAN
- ความจุ
- ซึ่ง
- กรณี
- แค็ตตาล็อก
- ร้อย
- ส่วนกลาง
- ความท้าทาย
- รับผิดชอบ
- chatbot
- ชิป
- ชิป
- การเรียกร้อง
- ชัดเจน
- เมฆ
- CloudFlare
- CO
- มา
- บริษัท
- ความซับซ้อน
- ประกอบด้วย
- คำนวณ
- เนื้อหา
- ควบคุม
- แปลง
- แกน
- ค่าใช้จ่าย
- ลูกค้า
- ข้อมูลลูกค้า
- ลูกค้า
- ข้อมูล
- ฐานข้อมูล
- วัน
- จัดการ
- ตัดสินใจ
- ส่งมอบ
- การจัดส่ง
- ปรับใช้
- การใช้งาน
- ได้รับการออกแบบ
- พัฒนา
- เครื่อง
- อุปกรณ์
- ความแตกต่าง
- ต่าง
- ทำ
- doesn
- ขนานนามว่า
- ก่อน
- ง่ายดาย
- ขอบ
- ที่มีประสิทธิภาพ
- ที่ฝัง
- ปลาย
- พอ
- เพื่อให้แน่ใจ
- อีเธอร์ (ETH)
- ทุกๆ
- ทุกที่
- ตัวอย่าง
- ส่วนเกิน
- แสดง
- คาดว่า
- แพง
- ความชำนาญ
- อธิบาย
- อธิบาย
- นามสกุล
- ใบหน้า
- ไกล
- FAST
- เร็วขึ้น
- คุณสมบัติ
- ชื่อจริง
- สำหรับ
- มัก
- ราคาเริ่มต้นที่
- ส่วนหน้า
- ตามหน้าที่
- อนาคต
- เกตเวย์
- รุ่น
- ยักษ์
- ให้
- Go
- ไป
- ดี
- GPU
- GPUs
- มี
- ช่วย
- อย่างไรก็ตาม
- HTTPS
- ความคิด
- if
- ภาพ
- in
- ประกอบด้วย
- รวมถึง
- ข้อมูล
- แรกเริ่ม
- ในขั้นต้น
- นักวิเคราะห์ส่วนบุคคลที่หาโอกาสให้เป็นไปได้มากที่สุด
- รวบรวม
- อินเทล
- อยากเรียนรู้
- เข้าไป
- ISN
- IT
- ITS
- ตัวเอง
- jpg
- เพียงแค่
- ความรู้
- ชื่อสกุล
- ความแอบแฝง
- การเรียนรู้
- น้อยที่สุด
- น้อยลง
- ช่วยให้
- กดไลก์
- LIMIT
- ถูก จำกัด
- รายการ
- ll
- ดูรายละเอียด
- ในประเทศ
- ที่ต้องการหา
- ต่ำที่สุด
- เครื่อง
- เรียนรู้เครื่อง
- ทำ
- ทำ
- ทำให้
- การทำ
- การจัดการ
- หลาย
- มาก
- อาจ..
- วัด
- หน่วยความจำ
- Meta
- อาจ
- ซึ่งบรรเทา
- ML
- แบบ
- โมเดล
- การตรวจสอบ
- ข้อมูลเพิ่มเติม
- มากที่สุด
- การย้าย
- หลาย
- ใกล้
- เกือบทั้งหมด
- เครือข่าย
- เครือข่าย
- เซลล์ประสาท
- ไม่
- หมายเหตุ / รายละเอียดเพิ่มเติม
- ตอนนี้
- Nvidia
- ชัดเจน
- of
- เสนอ
- เสนอ
- on
- ONE
- คน
- ออนไลน์
- เพียง
- เพิ่มประสิทธิภาพ
- การเพิ่มประสิทธิภาพ
- or
- ใบสั่ง
- อื่นๆ
- ออก
- เอาท์พุต
- หน้า
- พารามิเตอร์
- ส่ง
- PC
- เลือก
- สถานที่
- แผน
- เวที
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- จุด
- เป็นไปได้
- โพสต์
- อำนาจ
- ที่มีประสิทธิภาพ
- การมี
- ดูตัวอย่าง
- จัดลำดับความสำคัญ
- กระบวนการ
- ผลิตภัณฑ์
- การผลิต
- ให้
- ผู้รับมอบฉันทะ
- คะแนน
- RE
- แนะนำ
- ลด
- ปกติ
- การเผยแพร่
- ตรงประเด็น
- ความเชื่อถือได้
- ต้องการ
- ทรัพยากร
- การตอบสนอง
- REST
- ผล
- ขวา
- ขึ้น
- ม้วน
- วิ่ง
- วิ่ง
- ทำงาน
- s
- กล่าวว่า
- พูดว่า
- ขนาด
- การกำหนด
- ความรู้สึก
- serverless
- บริการ
- บริการ
- เจ็ด
- หลาย
- ความง่าย
- สถานที่ทำวิจัย
- หก
- ขนาด
- เล็ก
- บาง
- โดยเฉพาะ
- การพูด
- แยก
- ขั้นตอน
- คำแถลง
- ยังคง
- เพรียวลม
- เพียงพอ
- ชุด
- สนับสนุน
- รองรับ
- พื้นผิว
- ระบบ
- T
- การ
- งาน
- ลิ้มรส
- เทคโนโลยี
- บอก
- ข้อความ
- ที่
- พื้นที่
- ก้าวสู่อนาคต
- ของพวกเขา
- พวกเขา
- ที่นั่น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- นี้
- แต่?
- พัน
- สาม
- ไปยัง
- ในวันนี้
- บอก
- เกินไป
- ผ่านการฝึกอบรม
- Twitch
- สอง
- เป็นปกติ
- us
- มือสอง
- ผู้ใช้งาน
- การใช้
- ทาง..
- we
- เว็บ
- Website
- วันพุธ
- สัปดาห์
- อะไร
- ที่
- ในขณะที่
- กระซิบ
- กับ
- วอน
- แรงงาน
- การทำงาน
- จะ
- จะ
- ปี
- ยัง
- เธอ
- ของคุณ
- ลมทะเล