Google เปิดตัวระบบ Gemini AI ใน XNUMX รสชาติ

Google เปิดตัวระบบ Gemini AI ใน XNUMX รสชาติ

โหนดต้นทาง: 2997630

Google ได้เปิดตัว Gemini ซึ่งเป็นโมเดลที่ใช้หม้อแปลงไฟฟ้าที่ทรงพลังที่สุดเท่าที่เคยมีมา ซึ่งสามารถประมวลผลข้อความ รูปภาพ เสียง และวิดีโอได้ 

Gemini เป็นโมเดลหลายรูปแบบที่มีหน้าต่างบริบทขนาด 32 ที่สามารถรับข้อมูลประเภทต่างๆ เป็นอินพุตและสร้างรูปภาพและข้อความเป็นเอาต์พุตได้ และมีสามขนาดที่แตกต่างกัน Gemini Ultra ที่ใหญ่ที่สุดเป็นเวอร์ชันที่ทรงพลังที่สุดซึ่งออกแบบมาเพื่องานที่ซับซ้อนซึ่งต้องใช้ "การใช้เหตุผล" หรือประมวลผลข้อมูลหลายประเภท

Gemini Pro เป็นรุ่นขนาดกลางที่ได้รับการปรับให้ทำงานได้อย่างมีประสิทธิภาพมากขึ้นและทำงานได้ในวงกว้างยิ่งขึ้น Gemini Nano ที่เล็กที่สุดแบ่งออกเป็นสองส่วน ได้แก่ Nano-1 มีพารามิเตอร์ 1.8 พันล้านพารามิเตอร์ และ Nano-2 มีพารามิเตอร์ 3.25 พันล้านพารามิเตอร์ และได้รับการออกแบบมาให้ทำงานบนอุปกรณ์ขนาดเล็ก Google ไม่ได้เปิดเผยจำนวนพารามิเตอร์ที่มีประสิทธิภาพมากกว่าของรุ่น Gemini Pro และ Gemini Ultra 

Google ใช้ Gemini เพื่ออะไร? ตั้งแต่วันนี้เป็นต้นไป AI chatbot Bard ได้รับการอัปเดตให้รัน Gemini Pro ซึ่งหมายความว่าควรจะเข้าใจและสรุปข้อความได้ดีกว่าเวอร์ชันก่อนหน้าซึ่งขับเคลื่อนโดยโมเดลภาษา PaLM 2 ของ Google อย่างไรก็ตาม ความสามารถหลายรูปแบบยังไม่พร้อมและ Bard เวอร์ชัน Gemini-Pro สามารถประมวลผลและสร้างข้อความได้เท่านั้น และขณะนี้รองรับเฉพาะภาษาอังกฤษเท่านั้น 

Google กำลังวางแผนที่จะปรับปรุงผลิตภัณฑ์ Search, Ads, Chrome และ Duet AI บางส่วนด้วย Gemini Pro เช่น Gmail, Google Docs และอีกมากมายในอีกไม่กี่เดือนข้างหน้า

ในขณะเดียวกัน Pixel 8 Pro ล่าสุดของ Google จะเรียกใช้ Gemini Nano เพื่อรองรับคุณสมบัติใหม่สองประการ สรุปไฟล์เสียงในแอป Recorder และสร้างการตอบกลับข้อความอย่างรวดเร็วผ่านแอปแป้นพิมพ์เสมือน Gboard Google จะสร้างฟีเจอร์ AI เพิ่มเติมนอกเหนือจาก Gemini Nano สำหรับสมาร์ทโฟนของตน และวางแผนที่จะเปิดซอฟต์แวร์เพื่อให้นักพัฒนา Android บุคคลที่สามสามารถใช้บริการ AICore ได้เช่นกัน

AICore ทำงานบน Android 14 และให้นักพัฒนาเข้าถึงโมเดลผ่าน API แบบโอเพ่นซอร์ส และจะจัดการสิ่งต่างๆ เช่น รันไทม์และความปลอดภัย

น่าเสียดายที่ผู้ที่รอทดสอบ Gemini Ultra จะต้องรอนานกว่านี้อีกเล็กน้อย “ขณะนี้เรากำลังดำเนินการตรวจสอบความไว้วางใจและความปลอดภัยอย่างกว้างขวาง รวมถึงการร่วมทีมสีแดงโดยบุคคลภายนอกที่เชื่อถือได้ และปรับปรุงโมเดลเพิ่มเติมโดยใช้การเรียนรู้แบบละเอียดและเสริมกำลังจากความคิดเห็นของมนุษย์ก่อนที่จะเผยแพร่ในวงกว้าง” Google อธิบาย

โรงงานช็อกโกแลตวางแผนที่จะวางจำหน่าย Gemini Ultra ในปีหน้า และจะเริ่มทดลองความสามารถของโมเดลกับลูกค้าและนักพัฒนาที่ได้รับเลือก ก่อนที่จะเปิดตัวแชทบอท Bard Advanced 

ผู้ขายที่ต้องการสร้างเครื่องมือ AI เฉพาะทางที่ขับเคลื่อนโดย Gemini สำหรับแอปพลิเคชันเฉพาะ เช่น ผู้ที่ทำงานในอุตสาหกรรมกฎหมาย ทรัพยากรบุคคล การแพทย์ หรือการเงิน จะสามารถเข้าถึง Gemini Pro ในรูปแบบ API ใน Google AI Studio หรือ Google Cloud แพลตฟอร์ม Vertex AI ตั้งแต่วันที่ 13 ธันวาคม 

Google กับ OpenAI

Google ถูกโจมตีเนื่องจากจัดส่งผลิตภัณฑ์ AI ช้า แม้จะเป็นผู้นำในการวิจัยและพัฒนาเทคโนโลยีก็ตาม

OpenAI เปิดตัวเว็บแอปไวรัล ChatGPT เมื่อปีที่แล้ว และช่วยให้ Microsoft เปิดตัวแชทบอท AI Bing ของตัวเองหลังจากนั้นไม่นาน ปล่อยให้ Google เล่นตามทัน ขณะนี้ ChatGPT และ AI Bing เวอร์ชันล่าสุดที่ขับเคลื่อนโดย GPT-4 ก็สามารถประมวลผลรูปภาพได้เช่นกัน ราศีเมถุนคือแรงผลักดันของ Google ในการรักษาความสามารถในการแข่งขัน แล้วมันเปรียบเทียบกับรุ่นของ OpenAI ได้อย่างไร?

คำตอบสั้นๆ คือ Gemini Pro ดูเหมือนจะดีกว่า GPT-3.5 เล็กน้อย ในขณะที่ Gemini Ultra นั้นดีกว่า GPT-4 เล็กน้อย ตามการทดสอบเกณฑ์มาตรฐานบางอย่างที่ Google เปิดตัว

“โดยกว้างๆ เราพบว่าประสิทธิภาพของ Gemini Pro มีประสิทธิภาพเหนือกว่ารุ่นที่ได้รับการปรับให้เหมาะสมโดยอนุมาน เช่น GPT-3.5 และทำงานได้เทียบเท่ากับรุ่นที่มีความสามารถมากที่สุดหลายรุ่นที่มีอยู่ และ Gemini Ultra มีประสิทธิภาพเหนือกว่ารุ่นปัจจุบันทั้งหมด” ทีมงาน Gemini กล่าวในรายงาน [PDF]

ผู้ทดสอบเปรียบเทียบความสามารถของ Gemini กับโมเดลต่างๆ จาก OpenAI, Anthropic, X และ Meta ในการทดสอบที่แตกต่างกัน XNUMX แบบ ส่วนใหญ่เกี่ยวข้องกับงานที่ใช้ข้อความ เช่น การแก้ปัญหาทางคณิตศาสตร์และการเข้ารหัส Python การถามและการตอบเพื่อความเข้าใจข้อความ การตรวจสอบสามัญสำนึก และการแปลด้วยเครื่อง 

Gemini Ultra ทำงานได้ดีกว่า GPT-4, Claude, Grok-1 และ Llama-2 สำหรับงาน 3.5 ใน XNUMX งาน ในขณะที่ Gemini Pro เหนือกว่า GPT-XNUMX และรุ่นอื่นๆ ทั้งหมดใน XNUMX จาก XNUMX งาน อย่างไรก็ตาม ผลลัพธ์การวัดประสิทธิภาพเหล่านี้ควรนำมาพิจารณาด้วย

แม้ว่าเทคโนโลยี AI จะได้รับการปรับปรุง แต่ก็ยังไม่สมบูรณ์แบบและพฤติกรรมของพวกมันก็คาดเดาไม่ได้ ราศีเมถุนยังคงมีข้อจำกัดเช่นเดียวกับโมเดลภาษาขนาดใหญ่ (LLM) ในการสร้างข้อมูลที่ไม่ถูกต้องตามข้อเท็จจริง ซึ่งเป็นกระบวนการที่เรียกว่าอาการประสาทหลอน

“แม้จะมีความสามารถที่น่าประทับใจ แต่เราควรทราบว่าการใช้ LLM มีข้อจำกัด มีความจำเป็นอย่างต่อเนื่องในการวิจัยและพัฒนาอย่างต่อเนื่องเกี่ยวกับ 'ภาพหลอน' ที่สร้างโดย LLM เพื่อให้แน่ใจว่าผลลัพธ์ของแบบจำลองมีความน่าเชื่อถือและตรวจสอบได้มากขึ้น” ทีมงาน Gemini เตือน

“LLM ยังต่อสู้กับงานที่ต้องใช้ความสามารถในการให้เหตุผลระดับสูง เช่น ความเข้าใจเชิงสาเหตุ การอนุมานเชิงตรรกะ และการให้เหตุผลโต้แย้ง แม้ว่าพวกเขาจะบรรลุผลการปฏิบัติงานที่น่าประทับใจในเกณฑ์มาตรฐานการสอบก็ตาม”

ถึงกระนั้น Google ก็ลงทุนอย่างมากในเทคโนโลยีนี้ ภายใต้ CEO Sundar Pichai ยักษ์ใหญ่ด้านการค้นหาได้ปรับทิศทางตัวเองใหม่ในฐานะ "บริษัทที่เน้น AI เป็นหลัก" และขณะนี้กำลังดิ้นรนเพื่อพยายามเชิงพาณิชย์และยังคงแข่งขันกับคลื่นลูกใหม่ของสตาร์ทอัพ AI ได้ 

“เกือบแปดปีในการเดินทางของเราในฐานะบริษัทที่เน้น AI เป็นหลัก ความก้าวหน้ากำลังเร่งขึ้นเท่านั้น ผู้คนหลายล้านคนกำลังใช้ AI เจนเนอเรทีฟในผลิตภัณฑ์ของเราเพื่อทำสิ่งที่พวกเขาไม่สามารถทำได้เมื่อหนึ่งปีที่แล้ว ตั้งแต่การค้นหาคำตอบไปจนถึงสิ่งอื่น ๆ อีกมากมาย คำถามที่ซับซ้อนเกี่ยวกับการใช้เครื่องมือใหม่ๆ ในการทำงานร่วมกันและสร้างสรรค์” เขากล่าว กล่าวว่า".

“ในขณะเดียวกัน นักพัฒนาก็ใช้โมเดลและโครงสร้างพื้นฐานของเราเพื่อสร้างแอปพลิเคชัน AI เจนเนอเรชั่นใหม่ ส่วนสตาร์ทอัพและองค์กรต่างๆ ทั่วโลกก็กำลังเติบโตด้วยเครื่องมือ AI ของเรา นี่เป็นโมเมนตัมที่เหลือเชื่อ แต่กระนั้น เราก็เพิ่งเริ่มต้นที่จะเริ่มต้นเผยให้เห็นสิ่งที่เป็นไปได้เท่านั้น” ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน