ทำไมคุณควรเรียนรู้ "Productive Data Science" และอย่างไร
Productive Data Science คืออะไร และมีองค์ประกอบอะไรบ้าง
แหล่งที่มาของภาพ: Pixabay (ภาพฟรี)
ประสิทธิภาพในเวิร์กโฟลว์วิทยาศาสตร์ข้อมูล
วิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องสามารถฝึกฝนได้ด้วยระดับประสิทธิภาพและประสิทธิผลที่แตกต่างกัน โดยไม่คำนึงถึงขอบเขตการใช้งานหรือความเชี่ยวชาญเฉพาะด้าน นักวิทยาศาสตร์ข้อมูล - ผู้เริ่มต้นหรือมืออาชีพที่ช่ำชอง - ควรมุ่งมั่นที่จะ เพิ่มประสิทธิภาพของเขา/เธอ ในทุกแง่มุมของงานวิทยาศาสตร์ข้อมูลทั่วไป
- การวิเคราะห์ทางสถิติ,
- การสร้างภาพ
- การเลือกรุ่น วิศวกรรมคุณลักษณะ
- การทดสอบคุณภาพโค้ด การทำให้เป็นโมดูล
- การประมวลผลแบบขนาน
- การปรับใช้เว็บแอปอย่างง่าย
แหล่งที่มาของภาพ: Pixabay (ภาพฟรี)
นี่หมายถึงการทำงานทั้งหมดเหล่านี้
- ที่ความเร็วสูงขึ้น
- ด้วยการดีบักที่เร็วขึ้น
- ในลักษณะที่ประสานกัน
- โดยใช้ประโยชน์จากทรัพยากรฮาร์ดแวร์ที่มีอยู่ทั้งหมด
คุณควรคาดหวังอะไรที่จะเรียนรู้ในกระบวนการนี้?
ลองนึกภาพว่ามีคนกำลังสอนเรื่อง “วิทยาศาสตร์ข้อมูลการผลิต” หรือเขียนหนังสือเกี่ยวกับมัน — โดยใช้ Python เป็นกรอบงานภาษา ความคาดหวังโดยทั่วไปควรมาจากหลักสูตรหรือหนังสือดังกล่าวอย่างไร
แหล่งที่มาของภาพ: Pixabay (ภาพฟรี)
หลักสูตร/หนังสือควรจัดทำขึ้นสำหรับผู้ที่ต้องการ ก้าวกระโดดเกินมาตรฐาน ของการดำเนินการด้านวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง และใช้คลื่นความถี่เต็มรูปแบบของระบบนิเวศวิทยาข้อมูลของ Python เพื่อประสิทธิภาพการทำงานในระดับที่สูงขึ้นมาก
ผู้อ่านควรได้รับการสอนให้มองหาความไร้ประสิทธิภาพและปัญหาคอขวดในกระบวนการมาตรฐานและวิธีคิดนอกกรอบ
ระบบอัตโนมัติของงานวิทยาศาสตร์ข้อมูลที่ซ้ำกัน เป็นความคิดหลักที่ผู้อ่านจะได้พัฒนาจากการอ่านหนังสือเล่มนี้ ในหลายกรณี พวกเขายังจะได้เรียนรู้วิธีขยายแนวปฏิบัติการเขียนโค้ดที่มีอยู่เพื่อจัดการกับชุดข้อมูลขนาดใหญ่ที่มีประสิทธิภาพสูงด้วยความช่วยเหลือของเครื่องมือซอฟต์แวร์ขั้นสูงที่มีอยู่แล้วในระบบนิเวศของ Python แต่ไม่ได้สอนในวิทยาศาสตร์ข้อมูลมาตรฐานใดๆ
นี่ไม่ควรเป็นตำราอาหาร Python ปกติที่สอนไลบรารีมาตรฐานเช่น Numpy หรือ Pandas
แต่ควรเน้นเทคนิคที่เป็นประโยชน์ เช่น วิธีการ วัดรอยเท้าหน่วยความจำและความเร็วในการดำเนินการ ของรุ่น ML การทดสอบคุณภาพ ไปป์ไลน์วิทยาศาสตร์ข้อมูล โมดูลาร์ ไปป์ไลน์วิทยาศาสตร์ข้อมูลสำหรับการพัฒนาแอพ ฯลฯ นอกจากนี้ยังควรครอบคลุมไลบรารี Python ซึ่งมีประโยชน์มากสำหรับ โดยอัตโนมัติ และ เร่งขึ้น งานประจำวันของนักวิทยาศาสตร์ข้อมูล
นอกจากนี้ควรสัมผัสกับเครื่องมือและแพ็คเกจที่ช่วยนักวิทยาศาสตร์ข้อมูล การจัดการกับชุดข้อมูลขนาดใหญ่และซับซ้อน ด้วยวิธีที่เหมาะสมกว่าที่เป็นไปได้โดยทำตามภูมิปัญญาเทคโนโลยีวิทยาศาสตร์ข้อมูล Python มาตรฐาน
ทักษะเฉพาะบางอย่างที่จะเชี่ยวชาญ
แหล่งที่มาของภาพ: Pixabay (ภาพฟรี)
เพื่อให้สิ่งต่าง ๆ เป็นรูปธรรม ให้เราสรุปทักษะเฉพาะบางอย่างเพื่อเป็นผู้เชี่ยวชาญในการเรียนรู้และฝึกฝน วิทยาศาสตร์ข้อมูลการผลิต. ฉันยังพยายามใส่ลิงก์ไปยังบทความที่เป็นตัวแทนเพื่อใช้อ้างอิงในแต่ละทักษะ
- วิธีการ เขียนโค้ดที่รวดเร็วและมีประสิทธิภาพสำหรับวิทยาศาสตร์ข้อมูล/ML และวิธีวัดความเร็วและประสิทธิภาพ (ดูบทความนี้)
- วิธีสร้างไปป์ไลน์วิทยาศาสตร์ข้อมูลแบบแยกส่วนและแสดงออกเพื่อปรับปรุงประสิทธิภาพการทำงาน (ดูบทความนี้)
- วิธีเขียนโมดูลการทดสอบสำหรับวิทยาศาสตร์ข้อมูลและแบบจำลอง ML (ดูบทความนี้)
- วิธีจัดการชุดข้อมูลขนาดใหญ่และซับซ้อนอย่างมีประสิทธิภาพ (ซึ่งอาจเป็นเรื่องยากสำหรับเครื่องมือ DS แบบเดิม)
- วิธีใช้ GPU และโปรเซสเซอร์แบบมัลติคอร์อย่างเต็มที่สำหรับงานวิทยาศาสตร์ข้อมูลและการวิเคราะห์ทุกประเภท ไม่ใช่แค่สำหรับการสร้างแบบจำลองการเรียนรู้เชิงลึกเฉพาะทาง (ดูบทความนี้)
- วิธีสร้างแอป GUI อย่างรวดเร็วสำหรับการสาธิตแนวคิดวิทยาศาสตร์ข้อมูล/ML หรือการปรับแต่งโมเดล (ดูบทความนี้) หรือวิธีการปรับใช้โมเดล ML และโค้ดการวิเคราะห์ข้อมูลอย่างง่ายดาย (และรวดเร็ว) ที่ระดับแอป (ดูบทความนี้)
หนังสือในอุดมคติในหัวข้อนี้จะ...
แหล่งที่มาของภาพ: Pixabay (ภาพฟรี)
- สอนให้ระวัง ความไร้ประสิทธิภาพและคอขวด ในรหัสวิทยาศาสตร์ข้อมูลมาตรฐานและวิธีการคิดนอกกรอบเพื่อแก้ปัญหาเหล่านั้น
- สอนวิธีเขียนแบบแยกส่วน การวิเคราะห์ข้อมูลที่มีประสิทธิภาพ และรหัสการเรียนรู้ของเครื่อง เพื่อปรับปรุงประสิทธิภาพการทำงานในสถานการณ์ต่างๆ — การวิเคราะห์ข้อมูลเชิงสำรวจ การแสดงภาพ การเรียนรู้เชิงลึก ฯลฯ
- ครอบคลุมหัวข้อที่หลากหลาย เช่น การทดสอบซอฟต์แวร์ การพัฒนาโมดูล การเขียนโปรแกรม GUI, การปรับใช้โมเดล ML เป็นเว็บแอป ซึ่งเป็นชุดทักษะอันล้ำค่าสำหรับนักวิทยาศาตร์ด้านข้อมูลรุ่นใหม่ที่มีและหายากในหนังสือวิทยาศาสตร์ข้อมูลมาตรฐานเล่มใดเล่มหนึ่ง
- ครอบคลุมการคำนวณแบบขนาน (เช่น แดสก์, เรย์) ความสามารถในการปรับขนาดได้ (เช่น แว็กซ์, โมดิน) และสแต็กวิทยาศาสตร์ข้อมูลที่ขับเคลื่อนด้วย GPU (RAPIDS) พร้อมตัวอย่างเชิงปฏิบัติ
- เปิดเผยและแนะนำผู้อ่านให้รู้จักกับเครื่องมือวิทยาศาสตร์ข้อมูล Python ที่ใหญ่ขึ้นและขยายตัวอย่างต่อเนื่อง ซึ่งเชื่อมโยงกับแง่มุมที่กว้างขึ้นของ วิศวกรรมซอฟต์แวร์ และการปรับใช้ระดับการผลิต
ตัวอย่างที่เป็นรูปธรรม: วิทยาศาสตร์ข้อมูลแบบกระจายและขับเคลื่อนด้วย GPU
แม้ว่าการใช้ GPU และการคำนวณแบบกระจายจะมีการพูดคุยกันอย่างกว้างขวางในแวดวงวิชาการและธุรกิจสำหรับงาน AI/ML หลัก พวกเขาพบว่ามีความครอบคลุมน้อยกว่าในยูทิลิตี้สำหรับงานด้านวิทยาศาสตร์ข้อมูลและวิศวกรรมข้อมูลทั่วไป อย่างไรก็ตาม การใช้ GPU สำหรับการวิเคราะห์ทางสถิติแบบวันต่อวันหรืองานด้านวิทยาศาสตร์ข้อมูลอื่น ๆ สามารถก้าวไปสู่การเป็นสุภาษิตได้ “นักวิทยาศาสตร์ข้อมูลการผลิต"
ยกตัวอย่างเช่น RAPIDS ชุดซอฟต์แวร์ไลบรารีและ APIs ให้คุณ — นักวิทยาศาสตร์ข้อมูลทั่วไป (และไม่จำเป็นต้องเป็นผู้ฝึกการเรียนรู้เชิงลึก) — ตัวเลือกและความยืดหยุ่นในการดำเนินการ ไปป์ไลน์ด้านวิทยาศาสตร์ข้อมูลและการวิเคราะห์แบบ end-to-end บน GPU ทั้งหมด
แหล่งที่มาของภาพ: ผู้เขียนสร้างภาพตัดปะ
เมื่อใช้งานแม้กับ GPU ขนาดเล็ก ไลบรารีเหล่านี้แสดงการปรับปรุงความเร็วที่เหนือกว่า Python ปกติอย่างน่าทึ่ง โดยธรรมชาติแล้ว เราควรยอมรับสิ่งเหล่านี้ทุกครั้งที่ทำได้เพื่อ วิทยาศาสตร์ข้อมูลการผลิต เวิร์กโฟลว์
ในทำนองเดียวกัน มีโอกาสโอเพนซอร์ซที่ยอดเยี่ยมที่จะก้าวข้ามขีดจำกัดของธรรมชาติแบบ single-core ของภาษา Python และยอมรับกระบวนทัศน์การประมวลผลแบบคู่ขนานโดยไม่ต้องเปลี่ยนจากบุคลิกของนักวิทยาศาสตร์ข้อมูลที่เป็นแก่นสาร
แหล่งที่มาของภาพ: ผู้เขียนสร้างภาพตัดปะ
สรุป
เราได้พูดถึงยูทิลิตี้และส่วนประกอบหลักของa วิทยาศาสตร์ข้อมูลการผลิต เวิร์กโฟลว์ เราจินตนาการว่าหลักสูตรหรือหนังสือในอุดมคติในหัวข้อนี้จะนำเสนออะไรแก่ผู้อ่าน เราได้สัมผัสตัวอย่างที่เป็นรูปธรรมและแสดงให้เห็นประโยชน์ แหล่งข้อมูลที่เกี่ยวข้องบางส่วนมีให้ในบริบทของทักษะที่จะเชี่ยวชาญ
คุณสามารถตรวจสอบของผู้เขียน GitHub ที่เก็บ สำหรับรหัส แนวคิด และทรัพยากรในการเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูล หากคุณเป็นเช่นฉัน หลงใหลเกี่ยวกับ AI/แมชชีนเลิร์นนิง/วิทยาศาสตร์ข้อมูล โปรดอย่าลังเลที่จะ เพิ่มฉันใน LinkedIn or ติดตามฉันบนทวิตเตอร์.
Original. โพสต์ใหม่โดยได้รับอนุญาต
ที่เกี่ยวข้อง
ที่มา: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html
- "
- &
- ความได้เปรียบ
- ทั้งหมด
- การวิเคราะห์
- การวิเคราะห์
- app
- การพัฒนาแอพ
- การใช้งาน
- ปพลิเคชัน
- AREA
- บทความ
- บล็อก
- กล่อง
- สร้าง
- ธุรกิจ
- กรณี
- รหัส
- การเข้ารหัส
- การคำนวณ
- คอร์ป
- ข้อมูล
- การวิเคราะห์ข้อมูล
- วิทยาศาสตร์ข้อมูล
- นักวิทยาศาสตร์ข้อมูล
- การเรียนรู้ลึก ๆ
- พัฒนา
- พัฒนาการ
- ผู้อำนวยการ
- คอมพิวเตอร์แบบกระจาย
- ระบบนิเวศ
- อย่างมีประสิทธิภาพ
- วิศวกร
- ชั้นเยี่ยม
- วิศวกร
- ฯลฯ
- การปฏิบัติ
- FAST
- ลักษณะ
- ความยืดหยุ่น
- โฟกัส
- กรอบ
- ฟรี
- เต็ม
- ทองคำ
- GPU
- GPUs
- ให้คำแนะนำ
- มีประโยชน์
- ฮาร์ดแวร์
- จุดสูง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- ร้อย
- ความคิด
- ภาพ
- IT
- คีย์
- ภาษา
- ใหญ่
- เรียนรู้
- การเรียนรู้
- ชั้น
- นาน
- เรียนรู้เครื่อง
- วัด
- กลาง
- ML
- แบบ
- การสร้างแบบจำลอง
- เสนอ
- ออนไลน์
- เปิด
- โอเพนซอร์ส
- โอกาส
- ตัวเลือกเสริม (Option)
- อื่นๆ
- ตัวอย่าง
- โพสต์
- ผลผลิต
- หลาม
- คุณภาพ
- พิสัย
- ผู้อ่าน
- การอ่าน
- แหล่งข้อมูล
- scalability
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- ทักษะ
- ซอฟต์แวร์
- การทดสอบซอฟต์แวร์
- แก้
- ความเร็ว
- จำนวนชั้น
- การเรียนการสอน
- เทคโนโลยี
- การทดสอบ
- ด้านบน
- หัวข้อ
- แตะ
- us
- ยูทิลิตี้
- ประโยชน์
- การสร้างภาพ
- ความหมายของ
- WHO
- เวิร์กโฟลว์
- การเขียน
- X
- ปี