ยินดีต้อนรับสู่ยุคของข้อมูล ปริมาณข้อมูลที่แท้จริงที่บันทึกทุกวันยังคงเติบโต เรียกร้องให้แพลตฟอร์มและโซลูชันต่างๆ มีการพัฒนา บริการเช่น บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) นำเสนอโซลูชันที่ปรับขนาดได้ซึ่งปรับเปลี่ยนได้ แต่ยังคงประหยัดต้นทุนสำหรับชุดข้อมูลที่กำลังเติบโต เดอะ การริเริ่มข้อมูลความยั่งยืนของ Amazon (ASDI) ใช้ความสามารถของ Amazon S3 เพื่อมอบโซลูชันที่ไม่มีค่าใช้จ่ายให้คุณจัดเก็บและแชร์ปริมาณงานด้านวิทยาศาสตร์ภูมิอากาศทั่วโลก โปรแกรม Open Data Sponsorship ของ Amazon ช่วยให้องค์กรสามารถโฮสต์บน AWS ได้ฟรี
ในช่วงทศวรรษที่ผ่านมา เราได้เห็นการเพิ่มขึ้นอย่างรวดเร็วของกรอบงานด้านวิทยาศาสตร์ข้อมูลที่กำลังจะบรรลุผลสำเร็จ พร้อมกับการยอมรับจำนวนมากโดยชุมชนวิทยาศาสตร์ข้อมูล หนึ่งในกรอบดังกล่าวคือ แผงควบคุมซึ่งมีประสิทธิภาพสำหรับความสามารถในการเตรียมการประสานการทำงานของโหนดประมวลผลของผู้ปฏิบัติงาน ซึ่งช่วยเร่งการวิเคราะห์ที่ซับซ้อนบนชุดข้อมูลขนาดใหญ่
ในโพสต์นี้ เราจะแสดงวิธีปรับใช้แบบกำหนดเอง ชุดพัฒนา AWS Cloud โซลูชัน (AWS CDK) ที่ขยายฟังก์ชันการทำงานของ Dask ให้ทำงานระหว่างภูมิภาคในเครือข่ายทั่วโลกของ Amazon โซลูชัน AWS CDK ปรับใช้เครือข่ายของผู้ปฏิบัติงาน Dask ในสองภูมิภาค AWS โดยเชื่อมต่อกับภูมิภาคไคลเอ็นต์ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ คำแนะนำสำหรับการประมวลผลแบบกระจายด้วย Dask ข้ามภูมิภาคบน AWS และ repo GitHub สำหรับรหัสโอเพ่นซอร์ส
หลังจากการปรับใช้ ผู้ใช้จะสามารถเข้าถึงสมุดบันทึก Jupyter ซึ่งพวกเขาสามารถโต้ตอบกับชุดข้อมูลสองชุดจาก ASDI บน AWS: โครงการเปรียบเทียบระหว่างแบบจำลองคู่ 6 (CMIP6) และ ECMWF ERA5 การวิเคราะห์ซ้ำ. CMIP6 มุ่งเน้นไปที่ขั้นตอนที่หกของชุดแบบจำลองการหมุนเวียนทั่วไปของบรรยากาศมหาสมุทรและบรรยากาศทั่วโลก ERA5 เป็นการวิเคราะห์ซ้ำในชั้นบรรยากาศของ ECMWF รุ่นที่ XNUMX ของสภาพอากาศโลก และเป็นการวิเคราะห์ซ้ำครั้งแรกที่ผลิตขึ้นในรูปแบบบริการปฏิบัติการ
โซลูชันนี้ได้รับแรงบันดาลใจจากการทำงานร่วมกับลูกค้ารายสำคัญของ AWS ซึ่งก็คือ สำนักงานสหราชอาณาจักรพบ. Met Office ก่อตั้งขึ้นในปี พ.ศ. 1854 และเป็นบริการอุตุนิยมวิทยาแห่งชาติของสหราชอาณาจักร พวกเขาให้พยากรณ์อากาศและสภาพอากาศเพื่อช่วยให้คุณตัดสินใจได้ดีขึ้นเพื่อความปลอดภัยและการเจริญเติบโต ความร่วมมือระหว่าง Met Office และ EUMETSAT โดยมีรายละเอียดอยู่ใน การคำนวณใกล้เคียงข้อมูลบน Dask Cluster ที่กระจายระหว่างศูนย์ข้อมูลเน้นย้ำถึงความต้องการที่เพิ่มขึ้นในการพัฒนาโซลูชันด้านวิทยาศาสตร์ข้อมูลที่ยั่งยืน มีประสิทธิภาพ และปรับขนาดได้ โซลูชันนี้บรรลุเป้าหมายนี้โดยการนำการประมวลผลเข้าใกล้ข้อมูลมากขึ้น แทนที่จะบังคับให้ข้อมูลเข้าใกล้ทรัพยากรการประมวลผลมากขึ้น ซึ่งจะเพิ่มต้นทุน เวลาแฝง และพลังงาน
ภาพรวมโซลูชัน
ในแต่ละวัน UK Met Office จัดทำข้อมูลสภาพอากาศและสภาพอากาศมากถึง 300 TB ซึ่งส่วนหนึ่งเผยแพร่ไปยัง ASDI ชุดข้อมูลเหล่านี้กระจายไปทั่วโลกและโฮสต์เพื่อการใช้งานสาธารณะ Met Office ต้องการให้ผู้บริโภคใช้ข้อมูลของตนได้มากขึ้นเพื่อช่วยในการตัดสินใจที่สำคัญเกี่ยวกับประเด็นต่างๆ เช่น การเตรียมการที่ดีขึ้นสำหรับไฟป่าและน้ำท่วมที่เกิดจากการเปลี่ยนแปลงสภาพภูมิอากาศ และลดความไม่มั่นคงทางอาหารผ่านการวิเคราะห์ผลผลิตพืชที่ดีขึ้น
โซลูชันดั้งเดิมที่ใช้อยู่ในปัจจุบัน โดยเฉพาะอย่างยิ่งกับข้อมูลสภาพภูมิอากาศ ใช้เวลานานและไม่ยั่งยืน การจำลองชุดข้อมูลข้ามภูมิภาค การถ่ายโอนข้อมูลที่ไม่จำเป็นในระดับเพตะไบต์มีค่าใช้จ่ายสูง ช้า และสิ้นเปลืองพลังงาน
เราประเมินว่าหากผู้ใช้ Met Office นำแนวทางปฏิบัตินี้มาใช้ จะสามารถประหยัดการใช้พลังงานได้เทียบเท่ากับบ้าน 40 หลังต่อวัน และยังสามารถลดการถ่ายโอนข้อมูลระหว่างภูมิภาคได้อีกด้วย
ไดอะแกรมต่อไปนี้แสดงสถาปัตยกรรมโซลูชัน
โซลูชันสามารถแบ่งออกเป็นสามส่วนหลัก ได้แก่ ลูกค้า พนักงาน และเครือข่าย มาดูกันดีกว่าว่าแต่ละอย่างมารวมกันได้อย่างไร
ไคลเอนต์
ลูกค้าเป็นตัวแทนของภูมิภาคต้นทางที่นักวิทยาศาสตร์ข้อมูลเชื่อมต่อ ภูมิภาคนี้ (ภูมิภาค A ในแผนภาพ) ประกอบด้วย โน้ตบุ๊ค Amazon SageMaker, บริการ Amazon OpenSearch โดเมน และ ก ตัวกำหนดตารางเวลา Dask เป็นส่วนประกอบสำคัญ ผู้ดูแลระบบสามารถเข้าถึงแดชบอร์ด Dask ในตัวที่เปิดเผยผ่านทาง ตัวโหลดบาลานซ์แบบยืดหยุ่น.
นักวิทยาศาสตร์ด้านข้อมูลสามารถเข้าถึงสมุดบันทึก Jupyter ที่โฮสต์บน SageMaker โน้ตบุ๊กสามารถเชื่อมต่อและเรียกใช้ปริมาณงานบนตัวกำหนดตารางเวลา Dask โดเมน OpenSearch Service เก็บข้อมูลเมตาบนชุดข้อมูลที่เชื่อมต่อในภูมิภาค ผู้ใช้โน้ตบุ๊กสามารถสอบถามบริการนี้เพื่อดึงรายละเอียด เช่น ภูมิภาคของผู้ปฏิบัติงาน Dask ที่ถูกต้อง โดยไม่จำเป็นต้องทราบตำแหน่งภูมิภาคของข้อมูลล่วงหน้า
คนงาน
แต่ละภูมิภาคของผู้ปฏิบัติงาน (ภูมิภาค B และ C ในแผนภาพ) ประกอบด้วย บริการ Amazon Elastic Container (Amazon ECS) คลัสเตอร์ของ คนทำงาน Dask, Amazon FSx สำหรับความมันวาว ระบบไฟล์และแบบสแตนด์อโลน อเมซอน อีลาสติก คอมพิวท์ คลาวด์ (Amazon EC2) อินสแตนซ์ FSx for Luster ช่วยให้ผู้ปฏิบัติงาน Dask เข้าถึงและประมวลผลข้อมูล Amazon S3 จากระบบไฟล์ประสิทธิภาพสูงโดยเชื่อมโยงระบบไฟล์ของคุณกับบัคเก็ต S3 ให้เวลาแฝงที่ต่ำกว่ามิลลิวินาที ทรูพุตสูงสุดหลายร้อย GB/s และ IOPS นับล้าน คุณสมบัติที่สำคัญของ Luster คือซิงค์ข้อมูลเมตาของระบบไฟล์เท่านั้น Luster จัดการสมดุลของไฟล์ที่จะโหลดและอุ่นตามความต้องการ
คลัสเตอร์ผู้ปฏิบัติงานปรับขนาดตามการใช้งาน CPU จัดเตรียมผู้ปฏิบัติงานเพิ่มเติมในช่วงเวลาความต้องการที่ขยายออกไป และลดขนาดลงเมื่อทรัพยากรไม่มีการใช้งาน
ทุกคืนเวลา 0:00 UTC งานซิงค์ข้อมูลจะแจ้งให้ระบบไฟล์ Luster ซิงค์ใหม่กับบัคเก็ต S3 ที่แนบมา และดึงแคตตาล็อกข้อมูลเมตาของบัคเก็ตที่เป็นปัจจุบัน ต่อจากนั้น อินสแตนซ์ EC2 แบบสแตนด์อโลนจะพุชการอัปเดตเหล่านี้ไปยัง OpenSearch Service ตามดัชนีของภูมิภาคนั้น OpenSearch Service ให้ข้อมูลที่จำเป็นแก่ลูกค้าว่าควรเรียกใช้กลุ่มคนงานใดสำหรับชุดข้อมูลเฉพาะ
เครือข่าย
ระบบเครือข่ายเป็นหัวใจสำคัญของโซลูชันนี้ โดยใช้เครือข่ายหลักภายในของ Amazon โดยใช้ AWS ทรานซิทเกตเวย์เราสามารถเชื่อมต่อแต่ละภูมิภาคเข้าด้วยกันโดยไม่จำเป็นต้องผ่านอินเทอร์เน็ตสาธารณะ พนักงานแต่ละคนสามารถเชื่อมต่อกับตัวกำหนดตารางเวลาของ Dask ได้แบบไดนามิก ซึ่งช่วยให้นักวิทยาศาสตร์ข้อมูลเรียกใช้การสืบค้นข้ามภูมิภาคผ่าน Dask ได้
เบื้องต้น
แพ็คเกจ AWS CDK ใช้ภาษาการเขียนโปรแกรม TypeScript ทำตามขั้นตอนใน เริ่มต้นใช้งาน AWS CDK เพื่อตั้งค่าสภาพแวดล้อมในเครื่องของคุณและบู๊ตสแตรปบัญชีการพัฒนาของคุณ (คุณจะต้องบู๊ตทุกภูมิภาคที่ระบุในไฟล์ repo GitHub).
คุณต้องมี ติดตั้งนักเทียบท่าแล้ว และทำงานบนเครื่องท้องถิ่นของคุณ
ปรับใช้แพ็คเกจ AWS CDK
การปรับใช้แพ็คเกจ AWS CDK นั้นตรงไปตรงมา หลังจากที่คุณติดตั้งข้อกำหนดเบื้องต้นและบูตสแตรปบัญชีของคุณแล้ว คุณสามารถดำเนินการดาวน์โหลดฐานรหัสได้
- ดาวน์โหลด พื้นที่เก็บข้อมูล GitHub:
- ติดตั้งโหนดโมดูล:
- ปรับใช้ AWS CDK:
สแต็กอาจใช้เวลามากกว่าหนึ่งชั่วโมงครึ่งในการปรับใช้
คำแนะนำเกี่ยวกับรหัส
ในส่วนนี้ เราจะตรวจสอบคุณสมบัติหลักบางประการของฐานรหัส หากคุณต้องการตรวจสอบฐานรหัสแบบเต็ม โปรดดูที่ พื้นที่เก็บข้อมูล GitHub.
กำหนดค่าและปรับแต่งสแต็กของคุณ
ในไฟล์ ถัง/variables.tsคุณจะพบการประกาศตัวแปรสองรายการ: หนึ่งรายการสำหรับลูกค้าและอีกรายการหนึ่งสำหรับผู้ปฏิบัติงาน การประกาศไคลเอนต์คือพจนานุกรมที่มีการอ้างอิงถึงภูมิภาคและช่วง CIDR การปรับแต่งตัวแปรเหล่านี้จะเปลี่ยนทั้งภูมิภาคและช่วง CIDR ที่ทรัพยากรไคลเอ็นต์จะปรับใช้
ตัวแปรผู้ปฏิบัติงานคัดลอกฟังก์ชันเดียวกันนี้ อย่างไรก็ตาม เป็นรายการพจนานุกรมเพื่อรองรับการเพิ่มหรือลบชุดข้อมูลที่ผู้ใช้ต้องการรวม นอกจากนี้ พจนานุกรมแต่ละรายการยังมีฟิลด์ที่เพิ่มเข้ามาของ dataset
และ lustreFileSystemPath
. ชุดข้อมูลใช้เพื่อระบุการเชื่อมต่อ S3 URI สำหรับ Luster เพื่อเชื่อมต่อ เดอะ lustreFileSystemPath
ตัวแปรถูกใช้เป็นการแมปสำหรับวิธีที่ผู้ใช้ต้องการให้ชุดข้อมูลนั้นแมปแบบโลคัลบนระบบไฟล์ของผู้ปฏิบัติงาน ดูรหัสต่อไปนี้:
เผยแพร่ IP ของตัวกำหนดตารางเวลาแบบไดนามิก
ความท้าทายที่เกิดจากธรรมชาติข้ามภูมิภาคของโครงการนี้คือการรักษาการเชื่อมต่อแบบไดนามิกระหว่างผู้ปฏิบัติงาน Dask และตัวกำหนดตารางเวลา เราจะเผยแพร่ที่อยู่ IP ซึ่งสามารถเปลี่ยนแปลงได้ทั่วทั้งภูมิภาค AWS ได้อย่างไร เราสามารถทำได้ผ่านการใช้ แผนที่คลาวด์ AWS และ เชื่อมโยง vpc กับโฮสต์โซน. บทคัดย่อบริการที่อนุญาตให้ AWS จัดการเนมสเปซ DNS นี้เป็นส่วนตัว ดูรหัสต่อไปนี้:
UI สมุดบันทึก Jupyter
สมุดบันทึก Jupyter ที่โฮสต์บน SageMaker ช่วยให้นักวิทยาศาสตร์มีสภาพแวดล้อมสำเร็จรูปสำหรับการปรับใช้ เพื่อเชื่อมต่อและทดลองชุดข้อมูลที่โหลดได้อย่างง่ายดาย เราใช้ สคริปต์การกำหนดค่าวงจรชีวิต เพื่อจัดเตรียมโน้ตบุ๊กด้วยสภาพแวดล้อมของนักพัฒนาที่กำหนดค่าไว้ล่วงหน้าและฐานรหัสตัวอย่าง ดูรหัสต่อไปนี้:
โหนดผู้ปฏิบัติงาน Dask
เมื่อพูดถึง Dask worker จะมีความสามารถในการปรับแต่งได้มากขึ้น โดยเฉพาะอย่างยิ่งกับประเภทอินสแตนซ์ เธรดต่อคอนเทนเนอร์ และการเตือนการปรับสเกล ตามค่าเริ่มต้น ผู้ปฏิบัติงานจะจัดเตรียมอินสแตนซ์ประเภท m5d.4xlarge ต่อเชื่อมกับระบบไฟล์ Luster เมื่อเปิดใช้งาน และแบ่งย่อยผู้ปฏิบัติงานและเธรดไปยังพอร์ตแบบไดนามิก ทั้งหมดนี้สามารถเลือกปรับแต่งได้ ดูรหัสต่อไปนี้:
ประสิทธิภาพ
ในการประเมินประสิทธิภาพ เราใช้การคำนวณตัวอย่างและการพล็อตอุณหภูมิอากาศที่ 2 เมตรตามความแตกต่างระหว่างการทำนาย CMIP6 เป็นเวลาหนึ่งเดือนกับ ERA5 อุณหภูมิเฉลี่ยของอากาศเป็นเวลา 10 ปี เรากำหนดเกณฑ์มาตรฐานของพนักงานสองคนในแต่ละภูมิภาค และประเมินความแตกต่างของการลดเวลาเมื่อมีการเพิ่มพนักงานเพิ่มเติม ตามทฤษฎีแล้ว ในขณะที่โซลูชันปรับขนาด ควรมีความแตกต่างของวัสดุที่มีประสิทธิผลในการลดเวลาโดยรวม
ตารางต่อไปนี้สรุปรายละเอียดชุดข้อมูลของเรา
ชุด | ตัวแปร | ขนาดดิสก์ | ขนาดชุดข้อมูล Xarray | ภูมิภาค |
ศ. 5 | 2011–2020 (ไฟล์ netcdf 120 ไฟล์) | 53.5GB | 364.1 GB | เรา-ตะวันออก-1 |
CMIP6 | 1.13GB | 0.11 GB | เราตะวันตก -2 |
ตารางต่อไปนี้แสดงผลลัพธ์ที่รวบรวม แสดงเวลา (เป็นวินาที) สำหรับแต่ละการคำนวณและการทำนายในสามขั้นตอนในการคำนวณการทำนาย CMIP6, ERA5 และความแตกต่าง
. | . | จำนวนคนงาน | |||
คำนวณ | ภูมิภาค | 2(CMIP) + 2(ศก.) | 2(CMIP) + 4(ศก.) | 2(CMIP) + 8(ศก.) |
2(ซีไอพี) +12(ศก.) |
ซีเอ็มไอพี6 (predicted_tas_regridded ) |
เราตะวันตก -2 | 11.8 | 11.5 | 11.2 | 11.6 |
ศก.5 (historic_temp_regridded ) |
เรา-ตะวันออก-1 | 1512 | 711 | 427 | 202 |
ความแตกต่าง (propogated pool ) |
เรา-ตะวันตก-2 และ เรา-ตะวันออก-1 | 1527 | 906 | 469 | 251 |
กราฟต่อไปนี้แสดงภาพประสิทธิภาพและขนาด
จากการทดลองของเรา เราสังเกตเห็นการปรับปรุงเชิงเส้นในการคำนวณสำหรับชุดข้อมูล ERA5 เมื่อจำนวนคนงานเพิ่มขึ้น เมื่อจำนวนคนงานเพิ่มขึ้น เวลาในการคำนวณก็ลดลงครึ่งหนึ่ง
สมุดบันทึก Jupyter
ในฐานะส่วนหนึ่งของการเปิดตัวโซลูชัน เราปรับใช้โน้ตบุ๊ก Jupyter ที่กำหนดค่าไว้ล่วงหน้าเพื่อช่วยทดสอบโซลูชัน Dask ข้ามภูมิภาค สมุดบันทึกนี้แสดงให้เห็นถึงความกังวลที่ขจัดออกไปเมื่อจำเป็นต้องทราบตำแหน่งที่ตั้งของชุดข้อมูลในภูมิภาค แทนที่จะสอบถามแค็ตตาล็อกผ่านชุดสมุดบันทึก Jupyter ที่ทำงานอยู่เบื้องหลัง
ในการเริ่มต้น ให้ทำตามคำแนะนำในส่วนนี้
รหัสสำหรับสมุดบันทึกสามารถพบได้ใน lib/SagemakerCode
โดยมีโน้ตบุ๊กหลักเป็น ux_notebook.ipynb
. สมุดบันทึกนี้เรียกใช้สมุดบันทึกอื่นๆ ทริกเกอร์สคริปต์ตัวช่วย ux_notebook
ได้รับการออกแบบให้เป็นจุดเริ่มต้นสำหรับนักวิทยาศาสตร์โดยไม่จำเป็นต้องไปที่อื่น
ในการเริ่มต้น ให้เปิดสมุดบันทึกนี้ใน SageMaker หลังจากที่คุณปรับใช้ AWS CDK AWS CDK สร้างอินสแตนซ์โน้ตบุ๊กที่มีไฟล์ทั้งหมดในที่เก็บที่โหลดและสำรองข้อมูลไปยัง AWS CodeCommit กรุ
ในการเรียกใช้แอปพลิเคชัน ให้เปิดและเรียกใช้เซลล์แรกของ ux_notebook
. เซลล์นี้เรียกใช้ get_variables
สมุดบันทึกในพื้นหลัง ซึ่งจะแจ้งให้คุณป้อนข้อมูลที่คุณต้องการเลือก เรามีตัวอย่าง; อย่างไรก็ตาม โปรดทราบว่าคำถามจะปรากฏขึ้นหลังจากเลือกตัวเลือกก่อนหน้าแล้วเท่านั้น นี่เป็นความตั้งใจที่จะจำกัดตัวเลือกแบบเลื่อนลงและสามารถเลือกกำหนดค่าได้โดยการแก้ไข get_variables
สมุดบันทึก.
รหัสก่อนหน้าจะเก็บตัวแปรไว้ทั่วโลกเพื่อให้โน้ตบุ๊กอื่นๆ สามารถดึงและโหลดตัวเลือกที่คุณเลือกได้ สำหรับการสาธิต เซลล์ถัดไปควรส่งออกตัวแปรบันทึกจากก่อนหน้านี้
จากนั้น ข้อความแจ้งสำหรับข้อมูลจำเพาะเพิ่มเติมจะปรากฏขึ้น เซลล์นี้จะปรับแต่งข้อมูลที่คุณต้องการโดยนำเสนอ ID ของตารางในรูปแบบที่มนุษย์อ่านได้ ผู้ใช้เลือกราวกับว่าเป็นแบบฟอร์ม แต่ชื่อเรื่องจะจับคู่กับตารางในพื้นหลังที่ช่วยให้ระบบเรียกชุดข้อมูลที่เหมาะสม
หลังจากที่คุณจัดเก็บตัวเลือกและเซลล์การเลือกทั้งหมดแล้ว ให้โหลดข้อมูลลงในพื้นที่โดยการเรียกใช้เซลล์ใน การรับข้อมูล ชุด ส่วน. คำสั่ง %%capture จะระงับเอาต์พุตที่ไม่จำเป็นจากไฟล์ get_data
สมุดบันทึก. โปรดทราบว่าคุณอาจนำสิ่งนี้ออกเพื่อตรวจสอบผลลัพธ์จากโน้ตบุ๊กอื่น จากนั้นดึงข้อมูลกลับมาที่แบ็กเอนด์
ขณะที่โน้ตบุ๊กอื่นๆ กำลังทำงานในพื้นหลัง จุดสัมผัสเดียวสำหรับผู้ใช้คือ ux_notebook
. นี่เป็นการสรุปกระบวนการที่น่าเบื่อของการนำเข้าข้อมูลในรูปแบบที่ผู้ใช้สามารถทำตามได้อย่างง่ายดาย
เมื่อโหลดข้อมูลแล้ว เราสามารถเริ่มโต้ตอบกับข้อมูลนั้นได้ เซลล์ต่อไปนี้คือตัวอย่างการคำนวณที่คุณอาจใช้กับข้อมูลสภาพอากาศ โดยใช้ เอ็กซ์เรย์เรานำเข้า คำนวณ แล้วลงจุดชุดข้อมูลเหล่านั้น
ตัวอย่างของเราแสดงพล็อตข้อมูลเชิงคาดการณ์ที่ดึงข้อมูล เรียกใช้การคำนวณ และวางแผนผลลัพธ์ในเวลาน้อยกว่า 7.5 วินาที ซึ่งเป็นลำดับความสำคัญที่เร็วกว่าวิธีการทั่วไป
ภายใต้ฝากระโปรง
สมุดบันทึก get_catalog_input
และ get_variables
ใช้ห้องสมุด ipywidget เพื่อแสดงวิดเจ็ต เช่น เมนูดรอปดาวน์และการเลือกหลายกล่อง ตัวเลือกเหล่านี้ได้รับการบันทึกทั่วโลกโดยใช้คำสั่ง %%store เพื่อให้สามารถเข้าถึงได้จาก ux_notebook
. ตัวเลือกหนึ่งจะแจ้งให้คุณทราบว่าคุณต้องการข้อมูลย้อนหลัง ข้อมูลเชิงคาดการณ์ หรือทั้งสองอย่าง ตัวแปรนี้ถูกส่งไปยัง get_data
สมุดบันทึกเพื่อกำหนดว่าจะเรียกใช้สมุดบันทึกเล่มใดในภายหลัง
พื้นที่ get_data
โน้ตบุ๊กจะเรียกโดเมน OpenSearch Service ที่ใช้ร่วมกันซึ่งบันทึกไว้ในครั้งแรก ที่เก็บพารามิเตอร์ AWS Systems Manager. โดเมนนี้อนุญาตให้โน้ตบุ๊กของเราเรียกใช้แบบสอบถามในการรวบรวมข้อมูลที่จะระบุตำแหน่งที่ชุดข้อมูลที่เลือกถูกจัดเก็บในระดับภูมิภาค เมื่อชุดข้อมูลเหล่านั้นอยู่ในภูมิภาค โน้ตบุ๊กจะพยายามเชื่อมต่อกับตัวกำหนดตารางเวลา Dask โดยส่งผ่านข้อมูลที่รวบรวมจาก OpenSearch Service ตัวกำหนดตารางเวลา Dask จะสามารถเรียกพนักงานในภูมิภาคที่ถูกต้องได้
วิธีปรับแต่งและพัฒนาต่อ
สมุดบันทึกเหล่านี้มีไว้เพื่อเป็นตัวอย่างของวิธีที่คุณสามารถสร้างวิธีสำหรับผู้ใช้ในการเชื่อมต่อและโต้ตอบกับข้อมูล สมุดบันทึกในโพสต์นี้ใช้เป็นภาพประกอบสำหรับสิ่งที่เป็นไปได้ และเราขอเชิญคุณสร้างโซลูชันต่อไปเพื่อปรับปรุงการมีส่วนร่วมของผู้ใช้ ส่วนหลักของโซลูชันนี้คือเทคโนโลยีแบ็กเอนด์ แต่หากไม่มีกลไกบางอย่างในการโต้ตอบกับแบ็กเอนด์นั้น ผู้ใช้จะไม่เข้าใจถึงศักยภาพทั้งหมดของโซลูชัน
เพื่อหลีกเลี่ยงค่าใช้จ่ายในอนาคต ให้ลบทรัพยากร มาทำลายโซลูชันที่ปรับใช้ของเราด้วยคำสั่งต่อไปนี้:
สรุป
โพสต์นี้แสดงส่วนขยายของ Dask ระหว่างภูมิภาคบน AWS และการรวมที่เป็นไปได้กับชุดข้อมูลสาธารณะบน AWS โซลูชันนี้สร้างขึ้นเป็นรูปแบบทั่วไป และสามารถโหลดชุดข้อมูลเพิ่มเติมเพื่อเร่งการวิเคราะห์ I/O สูงบนข้อมูลที่ซับซ้อน
ข้อมูลกำลังเปลี่ยนทุกฟิลด์และทุกธุรกิจ อย่างไรก็ตาม ด้วยข้อมูลที่เพิ่มขึ้นอย่างรวดเร็วเกินกว่าที่บริษัทส่วนใหญ่จะสามารถติดตามได้ การรวบรวมข้อมูลและรับมูลค่าจากข้อมูลนั้นจึงเป็นเรื่องที่ท้าทาย กลยุทธ์ด้านข้อมูลสมัยใหม่สามารถช่วยคุณสร้างผลลัพธ์ทางธุรกิจที่ดีขึ้นด้วยข้อมูล AWS มอบชุดบริการที่สมบูรณ์ที่สุดสำหรับการเดินทางข้อมูลแบบ end-to-end เพื่อช่วยให้คุณปลดล็อกคุณค่าจากข้อมูลของคุณและเปลี่ยนให้เป็นข้อมูลเชิงลึก
หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีต่างๆ ในการใช้ข้อมูลของคุณบนคลาวด์ โปรดไปที่ บล็อก AWS Big Data. นอกจากนี้ เราขอเชิญชวนให้คุณแสดงความคิดเห็นพร้อมกับความคิดของคุณในโพสต์นี้ และดูว่านี่เป็นโซลูชันที่คุณวางแผนจะลองใช้หรือไม่
เกี่ยวกับผู้เขียน
แพทริค โอคอนเนอร์ เป็นวิศวกรสร้างต้นแบบ WWSO ประจำอยู่ที่ลอนดอน เขาเป็นนักแก้ปัญหาที่สร้างสรรค์ ปรับตัวได้กับเทคโนโลยีที่หลากหลาย เช่น IoT เทคโนโลยีไร้เซิร์ฟเวอร์ เทคโนโลยีอวกาศ 3 มิติ และ ML/AI พร้อมกับความอยากรู้อยากเห็นอย่างไม่ลดละว่าเทคโนโลยีจะพัฒนาวิธีการในชีวิตประจำวันต่อไปได้อย่างไร
จักรคณปติาจารย์ เป็น Principal Machine Learning Prototyping SA ที่มีประสบการณ์ 21 ปีในแมชชีนเลิร์นนิง ข้อมูลขนาดใหญ่ และการประมวลผลประสิทธิภาพสูง ในบทบาทปัจจุบันของเขา เขาช่วยลูกค้าแก้ปัญหาธุรกิจที่ซับซ้อนในโลกแห่งความจริงด้วยการสร้างต้นแบบด้วยโซลูชัน AI/ML แบบครบวงจรในระบบคลาวด์และอุปกรณ์เอดจ์ ความเชี่ยวชาญด้าน ML ของเขารวมถึงการมองเห็นด้วยคอมพิวเตอร์ การประมวลผลภาษาธรรมชาติ การพยากรณ์อนุกรมเวลา และการปรับเปลี่ยนในแบบของคุณ
วาล โคเฮน เป็นวิศวกรการสร้างต้นแบบอาวุโสของ WWSO ซึ่งประจำอยู่ที่ลอนดอน โดยธรรมชาติแล้ว Val เป็นนักแก้ปัญหา ชอบเขียนโค้ดเพื่อทำให้กระบวนการเป็นอัตโนมัติ สร้างเครื่องมือที่ลูกค้าหลงใหล และสร้างโครงสร้างพื้นฐานสำหรับแอปพลิเคชันต่างๆ สำหรับฐานลูกค้าทั่วโลกของเธอ Val มีประสบการณ์เกี่ยวกับเทคโนโลยีที่หลากหลาย เช่น การพัฒนาเว็บส่วนหน้า งานส่วนหลัง และ AI/ML
ไนออล โรบินสัน เป็นหัวหน้าฝ่ายผลิตภัณฑ์ฟิวเจอร์สที่ UK Met Office เขาและทีมสำรวจวิธีใหม่ๆ ที่ Met Office สามารถมอบคุณค่าผ่านนวัตกรรมผลิตภัณฑ์และความร่วมมือเชิงกลยุทธ์ เขามีอาชีพที่หลากหลาย โดยเป็นผู้นำทีม R&D สารสนเทศสหสาขาวิชาชีพ การวิจัยเชิงวิชาการด้านวิทยาศาสตร์ข้อมูล และนักวิทยาศาสตร์ภาคสนามพร้อมกับความเชี่ยวชาญด้านการสร้างแบบจำลองสภาพภูมิอากาศ
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตไอสตรีม. ข้อมูลอัจฉริยะ Web3 ขยายความรู้ เข้าถึงได้ที่นี่.
- การสร้างอนาคตโดย Adryenn Ashley เข้าถึงได้ที่นี่.
- ซื้อและขายหุ้นในบริษัท PRE-IPO ด้วย PREIPO® เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/big-data/build-efficient-cross-regional-i-o-intensive-workloads-with-dask-on-aws/
- :มี
- :เป็น
- :ที่ไหน
- $ ขึ้น
- 1
- 10
- 100
- 11
- 12
- 20
- 24
- 3d
- 40
- 50
- 7
- 9
- a
- ความสามารถ
- สามารถ
- เกี่ยวกับเรา
- ข้างบน
- บทคัดย่อ
- บทคัดย่อ
- นักวิชาการ
- การวิจัยทางวิชาการ
- เร่งความเร็ว
- เร่ง
- เข้า
- Accessed
- อำนวยความสะดวก
- บรรลุผล
- ลงชื่อเข้าใช้
- ประสบความสำเร็จ
- ข้าม
- ปรับ
- ที่เพิ่ม
- เพิ่ม
- เพิ่มเติม
- นอกจากนี้
- ที่อยู่
- ที่อยู่
- เพิ่ม
- ผู้ดูแลระบบ
- บุญธรรม
- การนำมาใช้
- หลังจาก
- AI / ML
- AIR
- ทั้งหมด
- การอนุญาต
- ช่วยให้
- ตาม
- ด้วย
- อเมซอน
- Amazon EC2
- an
- การวิเคราะห์
- และ
- ใด
- ปรากฏ
- การใช้งาน
- การใช้งาน
- เข้าใกล้
- วิธีการ
- เหมาะสม
- สถาปัตยกรรม
- เป็น
- AS
- At
- บรรยากาศ
- บรรยากาศ
- โดยอัตโนมัติ
- หลีกเลี่ยง
- AWS
- ลูกค้า AWS
- กระดูกสันหลัง
- ถอย
- แบ็กเอนด์
- พื้นหลัง
- ยอดคงเหลือ
- ฐาน
- ตาม
- BE
- กลายเป็น
- รับ
- ก่อน
- กำลัง
- ด้านล่าง
- มาตรฐาน
- ดีกว่า
- ระหว่าง
- ใหญ่
- ข้อมูลขนาดใหญ่
- บูต
- ทั้งสอง
- การนำ
- แตก
- สร้าง
- การก่อสร้าง
- สร้าง
- built-in
- ธุรกิจ
- แต่
- by
- คำนวณ
- โทรศัพท์
- ที่เรียกว่า
- โทร
- โทร
- CAN
- ความสามารถในการ
- สามารถ
- ความก้าวหน้า
- แค็ตตาล็อก
- CD
- เซลล์
- ท้าทาย
- ท้าทาย
- เปลี่ยนแปลง
- เปลี่ยนแปลง
- รับผิดชอบ
- โหลด
- ทางเลือก
- การไหลเวียน
- ไคลเอนต์
- ภูมิอากาศ
- ใกล้ชิด
- เมฆ
- Cluster
- CO
- รหัส
- ฐานรหัส
- การทำงานร่วมกัน
- การเก็บรวบรวม
- อย่างไร
- มา
- มา
- ความเห็น
- ชุมชน
- บริษัท
- สมบูรณ์
- ซับซ้อน
- ส่วนประกอบ
- ประกอบด้วย
- การคำนวณ
- คำนวณ
- คอมพิวเตอร์
- วิสัยทัศน์คอมพิวเตอร์
- การคำนวณ
- องค์ประกอบ
- เชื่อมต่อ
- งานที่เชื่อมต่อ
- การเชื่อมต่อ
- การเชื่อมต่อ
- ผู้บริโภค
- การบริโภค
- ภาชนะ
- มี
- ต่อ
- อย่างต่อเนื่อง
- สำเนา
- แกน
- แก้ไข
- ราคา
- ค่าใช้จ่ายที่มีประสิทธิภาพ
- ได้
- ควบคู่
- ซีพียู
- สร้าง
- สร้าง
- ความคิดสร้างสรรค์
- วิกฤติ
- พืชผล
- ข้าม
- ความอยากรู้
- ปัจจุบัน
- ประเพณี
- ลูกค้า
- ลูกค้า
- ปรับแต่งได้
- ปรับแต่ง
- ประจำวัน
- หน้าปัด
- ข้อมูล
- วิทยาศาสตร์ข้อมูล
- กลยุทธ์ข้อมูล
- ชุดข้อมูล
- วัน
- ทศวรรษ
- การตัดสินใจ
- ค่าเริ่มต้น
- ความต้องการ
- แสดงให้เห็นถึง
- ปรับใช้
- นำไปใช้
- การใช้งาน
- Deploys
- ได้รับการออกแบบ
- ทำลาย
- รายละเอียด
- รายละเอียด
- กำหนด
- พัฒนา
- ผู้พัฒนา
- พัฒนาการ
- อุปกรณ์
- ความแตกต่าง
- พิการ
- การค้นพบ
- แสดง
- กระจาย
- คอมพิวเตอร์แบบกระจาย
- DNS
- นักเทียบท่า
- โดเมน
- ลง
- พลวัต
- แบบไดนามิก
- แต่ละ
- ความสะดวก
- อย่างง่ายดาย
- ขอบ
- การแก้ไข
- ที่มีประสิทธิภาพ
- ที่อื่น ๆ
- ทำให้สามารถ
- จบสิ้น
- พลังงาน
- มีส่วนร่วม
- วิศวกร
- การเข้า
- สิ่งแวดล้อม
- เท่ากัน
- ยุค
- ประมาณ
- อีเธอร์ (ETH)
- ทุกๆ
- ทุกวัน
- ทุกวัน
- คาย
- ตัวอย่าง
- ตัวอย่าง
- ประสบการณ์
- การทดลอง
- ความชำนาญ
- สำรวจ
- ส่งออก
- ที่เปิดเผย
- นามสกุล
- เร็วขึ้น
- ลักษณะ
- คุณสมบัติ
- สนาม
- สาขา
- เนื้อไม่มีมัน
- ไฟล์
- หา
- ชื่อจริง
- มุ่งเน้นไปที่
- ปฏิบัติตาม
- ดังต่อไปนี้
- อาหาร
- สำหรับ
- ฟอร์ม
- รูป
- รูปแบบ
- พบ
- ก่อตั้งขึ้นเมื่อ
- กรอบ
- กรอบ
- ฟรี
- ราคาเริ่มต้นที่
- ผล
- เต็ม
- ฟังก์ชั่น
- ต่อไป
- อนาคต
- ฟิวเจอร์ส
- General
- รุ่น
- ได้รับ
- ได้รับ
- ไป
- เหตุการณ์ที่
- เครือข่ายทั่วโลก
- ทั่วโลก
- โลก
- ไป
- กราฟ
- มากขึ้น
- ตะแกรง
- ขึ้น
- การเจริญเติบโต
- มี
- ครึ่ง
- ลดลงครึ่งหนึ่ง
- มี
- he
- หัว
- ช่วย
- จะช่วยให้
- เธอ
- จุดสูง
- ประสิทธิภาพสูง
- ไฮไลท์
- ของเขา
- ทางประวัติศาสตร์
- เจ้าภาพ
- เป็นเจ้าภาพ
- ชั่วโมง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTML
- HTTPS
- มนุษย์สามารถอ่านได้
- ร้อย
- Idle
- รหัส
- if
- แสดงให้เห็นถึง
- นำเข้า
- การนำเข้า
- ปรับปรุง
- การปรับปรุง
- in
- ประกอบด้วย
- รวมถึง
- เพิ่มขึ้น
- ดัชนี
- แสดง
- แจ้ง
- ข้อมูล
- โครงสร้างพื้นฐาน
- โดยธรรมชาติ
- นักวิเคราะห์ส่วนบุคคลที่หาโอกาสให้เป็นไปได้มากที่สุด
- อินพุต
- ความไม่มั่นคง
- ความเข้าใจ
- แรงบันดาลใจ
- ติดตั้ง
- ตัวอย่าง
- แทน
- คำแนะนำการใช้
- บูรณาการ
- โดยเจตนา
- โต้ตอบ
- การมีปฏิสัมพันธ์
- อินเตอร์เฟซ
- ภายใน
- อินเทอร์เน็ต
- เข้าไป
- เชิญ
- IOT
- IP
- ที่อยู่ IP
- ปัญหา
- IT
- ITS
- การสัมภาษณ์
- การเดินทาง
- jpg
- โน้ตบุ๊ค Jupyter
- เก็บ
- คีย์
- ทราบ
- ภาษา
- ใหญ่
- ชื่อสกุล
- ความแอบแฝง
- เปิดตัว
- ชั้นนำ
- เรียนรู้
- การเรียนรู้
- ห้องสมุด
- วงจรชีวิต
- กดไลก์
- การเชื่อมโยง
- รายการ
- โหลด
- ในประเทศ
- ในท้องถิ่น
- ที่ตั้งอยู่
- ที่ตั้ง
- ลอนดอน
- เครื่อง
- เรียนรู้เครื่อง
- สำคัญ
- ทำ
- จัดการ
- ผู้จัดการ
- จัดการ
- แผนที่
- การทำแผนที่
- มวล
- การรับเลี้ยงบุตรบุญธรรม
- วัสดุ
- อาจ..
- หมายความ
- กลไก
- เมตาดาต้า
- ล้าน
- ML
- แบบ
- ทันสมัย
- โมดูล
- เดือน
- รายเดือน
- ข้อมูลรายเดือน
- ข้อมูลเพิ่มเติม
- มากที่สุด
- MOUNT
- สหสาขาวิชาชีพ
- ชื่อ
- แห่งชาติ
- โดยธรรมชาติ
- ภาษาธรรมชาติ
- ประมวลผลภาษาธรรมชาติ
- ธรรมชาติ
- จำเป็น
- จำเป็นต้อง
- ต้อง
- เครือข่าย
- ใหม่
- ถัดไป
- คืน
- ปม
- โหนด
- สมุดบันทึก
- โน๊ตบุ๊ค
- ตอนนี้
- จำนวน
- ตัวเลข
- of
- เสนอ
- Office
- on
- ONE
- เพียง
- เปิด
- ข้อมูลเปิด
- โอเพนซอร์ส
- รหัสโอเพนซอร์ซ
- การดำเนินงาน
- ตัวเลือกเสริม (Option)
- Options
- or
- ประสาน
- องค์กร
- อื่นๆ
- ของเรา
- ออก
- ผลลัพธ์
- เอาท์พุต
- เกิน
- ทั้งหมด
- แพ็คเกจ
- พารามิเตอร์
- ส่วนหนึ่ง
- ในสิ่งที่สนใจ
- โดยเฉพาะ
- ความร่วมมือ
- ผ่าน
- ที่ผ่านไป
- แบบแผน
- การปฏิบัติ
- งวด
- ส่วนบุคคล
- เพตะไบต์
- ระยะ
- แผนการ
- แพลตฟอร์ม
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- จุด
- สระ
- พอร์ต
- เป็นไปได้
- โพสต์
- ที่มีศักยภาพ
- อำนาจ
- ที่มีประสิทธิภาพ
- การปฏิบัติ
- คำทำนาย
- การคาดการณ์
- ข้อกำหนดเบื้องต้น
- ก่อน
- ประถม
- หลัก
- ส่วนตัว
- ปัญหา
- ปัญหาที่เกิดขึ้น
- กระบวนการ
- กระบวนการ
- การประมวลผล
- ผลิต
- ผลิตภัณฑ์
- นวัตกรรมผลิตภัณฑ์
- ประสิทธิผล
- โครงการ
- การเขียนโปรแกรม
- โครงการ
- ต้นแบบ
- การสร้างต้นแบบ
- ให้
- ให้
- ให้
- บทบัญญัติ
- สาธารณะ
- ประกาศ
- การตีพิมพ์
- ดึง
- คำสั่ง
- คำถาม
- วิจัยและพัฒนา
- พิสัย
- ค่อนข้าง
- สำเร็จรูป
- โลกแห่งความจริง
- ตระหนักถึง
- ลด
- ลด
- การลดลง
- ภูมิภาค
- ของแคว้น
- ภูมิภาค
- กระด้าง
- ซากศพ
- เอาออก
- ลบออก
- กรุ
- แสดงให้เห็นถึง
- การวิจัย
- แหล่งข้อมูล
- ว่า
- ผลสอบ
- บทบาท
- วิ่ง
- วิ่ง
- SA
- ปลอดภัย
- sagemaker
- เดียวกัน
- ลด
- ที่ปรับขนาดได้
- ขนาด
- ตาชั่ง
- ปรับ
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- นักวิทยาศาสตร์
- สคริปต์
- วินาที
- Section
- เห็น
- เห็น
- กลุ่ม
- เลือก
- การเลือก
- ระดับอาวุโส
- ชุด
- serverless
- ให้บริการอาหาร
- บริการ
- บริการ
- ชุด
- Share
- ที่ใช้ร่วมกัน
- น่า
- โชว์
- การจัดแสดง
- แสดงให้เห็นว่า
- ง่าย
- ง่ายดาย
- ที่หก
- ช้า
- So
- ทางออก
- โซลูชัน
- แก้
- บาง
- แหล่ง
- เกี่ยวกับอวกาศ
- เฉพาะ
- ข้อกำหนด
- ที่ระบุไว้
- การประกัน
- กอง
- ขั้นตอน
- สแตนด์อโลน
- เริ่มต้น
- ข้อความที่เริ่ม
- เข้าพัก
- ขั้นตอน
- การเก็บรักษา
- จัดเก็บ
- เก็บไว้
- ร้านค้า
- ซื่อตรง
- ยุทธศาสตร์
- หุ้นส่วนทางยุทธศาสตร์
- กลยุทธ์
- ภายหลัง
- ต่อจากนั้น
- ที่ประสบความสำเร็จ
- อย่างเช่น
- พื้นผิว
- พรั่ง
- การพัฒนาอย่างยั่งยืน
- ที่ยั่งยืน
- ระบบ
- ระบบ
- ตาราง
- เอา
- ทีม
- เทคโนโลยี
- เทคโนโลยี
- เทคโนโลยี
- ทดสอบ
- กว่า
- ที่
- พื้นที่
- ข้อมูล
- ที่มา
- สหราชอาณาจักร
- โลก
- ของพวกเขา
- แล้วก็
- ที่นั่น
- ดังนั้น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- นี้
- เหล่านั้น
- สาม
- เจริญเติบโต
- ตลอด
- ปริมาณงาน
- เวลา
- อนุกรมเวลา
- ครั้ง
- ชื่อ
- ไปยัง
- ในวันนี้
- ร่วมกัน
- เครื่องมือ
- ลู่
- การติดตาม
- โอน
- การเปลี่ยนแปลง
- การขนส่ง
- วิกฤติ
- กลับ
- สอง
- ชนิด
- ประเภท
- ตามแบบฉบับ
- Uk
- ภายใต้
- ปลดล็อก
- ไม่ยั่งยืน
- ทันเหตุการณ์
- การปรับปรุง
- เมื่อ
- URI
- การใช้
- ใช้
- มือสอง
- ผู้ใช้งาน
- ผู้ใช้
- การใช้
- UTC
- การใช้ประโยชน์
- VAL
- ความคุ้มค่า
- ความหลากหลาย
- ต่างๆ
- ผ่านทาง
- วิสัยทัศน์
- เยี่ยมชมร้านค้า
- ปริมาณ
- ต้องการ
- ต้องการ
- ผู้สมัครที่รู้จักเรา
- คือ
- ทาง..
- วิธี
- we
- สภาพอากาศ
- เว็บ
- การพัฒนาเว็บ
- คือ
- ว่า
- ที่
- กว้าง
- ช่วงกว้าง
- จะ
- ความปรารถนา
- กับ
- ไม่มี
- งาน
- ผู้ปฏิบัติงาน
- แรงงาน
- โลก
- กังวล
- จะ
- การเขียน
- ปี
- ยัง
- ผล
- เธอ
- ของคุณ
- ลมทะเล