ทำไมคุณควรเรียนรู้ "Productive Data Science" และอย่างไร

= โพสต์ก่อนหน้า

โพสต์ถัดไป =>

คีย์เวิร์ด: ร้านหนังสือเกาหลี, แนะนำอาชีพ, หลักสูตร, ข้อมูลวิทยาศาสตร์, หลาม

Productive Data Science คืออะไร และมีองค์ประกอบอะไรบ้าง

By ติรธาจโยติ ซาร์การ์, Adapdix คอร์ป

ความคิดเห็น

แหล่งที่มาของภาพ: Pixabay (ภาพฟรี)

ประสิทธิภาพในเวิร์กโฟลว์วิทยาศาสตร์ข้อมูล

วิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องสามารถฝึกฝนได้ด้วยระดับประสิทธิภาพและประสิทธิผลที่แตกต่างกัน โดยไม่คำนึงถึงขอบเขตการใช้งานหรือความเชี่ยวชาญเฉพาะด้าน นักวิทยาศาสตร์ข้อมูล - ผู้เริ่มต้นหรือมืออาชีพที่ช่ำชอง - ควรมุ่งมั่นที่จะ เพิ่มประสิทธิภาพของเขา/เธอ ในทุกแง่มุมของงานวิทยาศาสตร์ข้อมูลทั่วไป

การวิเคราะห์ทางสถิติ,
การสร้างภาพ
การเลือกรุ่น วิศวกรรมคุณลักษณะ
การทดสอบคุณภาพโค้ด การทำให้เป็นโมดูล
การประมวลผลแบบขนาน
การปรับใช้เว็บแอปอย่างง่าย

แหล่งที่มาของภาพ: Pixabay (ภาพฟรี)

นี่หมายถึงการทำงานทั้งหมดเหล่านี้

ที่ความเร็วสูงขึ้น
ด้วยการดีบักที่เร็วขึ้น
ในลักษณะที่ประสานกัน
โดยใช้ประโยชน์จากทรัพยากรฮาร์ดแวร์ที่มีอยู่ทั้งหมด

คุณควรคาดหวังอะไรที่จะเรียนรู้ในกระบวนการนี้?

ลองนึกภาพว่ามีคนกำลังสอนเรื่อง “วิทยาศาสตร์ข้อมูลการผลิต” หรือเขียนหนังสือเกี่ยวกับมัน — โดยใช้ Python เป็นกรอบงานภาษา ความคาดหวังโดยทั่วไปควรมาจากหลักสูตรหรือหนังสือดังกล่าวอย่างไร

แหล่งที่มาของภาพ: Pixabay (ภาพฟรี)

หลักสูตร/หนังสือควรจัดทำขึ้นสำหรับผู้ที่ต้องการ ก้าวกระโดดเกินมาตรฐาน ของการดำเนินการด้านวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง และใช้คลื่นความถี่เต็มรูปแบบของระบบนิเวศวิทยาข้อมูลของ Python เพื่อประสิทธิภาพการทำงานในระดับที่สูงขึ้นมาก

ผู้อ่านควรได้รับการสอนให้มองหาความไร้ประสิทธิภาพและปัญหาคอขวดในกระบวนการมาตรฐานและวิธีคิดนอกกรอบ

ระบบอัตโนมัติของงานวิทยาศาสตร์ข้อมูลที่ซ้ำกัน เป็นความคิดหลักที่ผู้อ่านจะได้พัฒนาจากการอ่านหนังสือเล่มนี้ ในหลายกรณี พวกเขายังจะได้เรียนรู้วิธีขยายแนวปฏิบัติการเขียนโค้ดที่มีอยู่เพื่อจัดการกับชุดข้อมูลขนาดใหญ่ที่มีประสิทธิภาพสูงด้วยความช่วยเหลือของเครื่องมือซอฟต์แวร์ขั้นสูงที่มีอยู่แล้วในระบบนิเวศของ Python แต่ไม่ได้สอนในวิทยาศาสตร์ข้อมูลมาตรฐานใดๆ

นี่ไม่ควรเป็นตำราอาหาร Python ปกติที่สอนไลบรารีมาตรฐานเช่น Numpy หรือ Pandas

แต่ควรเน้นเทคนิคที่เป็นประโยชน์ เช่น วิธีการ วัดรอยเท้าหน่วยความจำและความเร็วในการดำเนินการ ของรุ่น ML การทดสอบคุณภาพ ไปป์ไลน์วิทยาศาสตร์ข้อมูล โมดูลาร์ ไปป์ไลน์วิทยาศาสตร์ข้อมูลสำหรับการพัฒนาแอพ ฯลฯ นอกจากนี้ยังควรครอบคลุมไลบรารี Python ซึ่งมีประโยชน์มากสำหรับ โดยอัตโนมัติ และ เร่งขึ้น งานประจำวันของนักวิทยาศาสตร์ข้อมูล

นอกจากนี้ควรสัมผัสกับเครื่องมือและแพ็คเกจที่ช่วยนักวิทยาศาสตร์ข้อมูล การจัดการกับชุดข้อมูลขนาดใหญ่และซับซ้อน ด้วยวิธีที่เหมาะสมกว่าที่เป็นไปได้โดยทำตามภูมิปัญญาเทคโนโลยีวิทยาศาสตร์ข้อมูล Python มาตรฐาน

ทักษะเฉพาะบางอย่างที่จะเชี่ยวชาญ

แหล่งที่มาของภาพ: Pixabay (ภาพฟรี)

เพื่อให้สิ่งต่าง ๆ เป็นรูปธรรม ให้เราสรุปทักษะเฉพาะบางอย่างเพื่อเป็นผู้เชี่ยวชาญในการเรียนรู้และฝึกฝน วิทยาศาสตร์ข้อมูลการผลิต. ฉันยังพยายามใส่ลิงก์ไปยังบทความที่เป็นตัวแทนเพื่อใช้อ้างอิงในแต่ละทักษะ

วิธีการ เขียนโค้ดที่รวดเร็วและมีประสิทธิภาพสำหรับวิทยาศาสตร์ข้อมูล/ML และวิธีวัดความเร็วและประสิทธิภาพ (ดูบทความนี้)
วิธีสร้างไปป์ไลน์วิทยาศาสตร์ข้อมูลแบบแยกส่วนและแสดงออกเพื่อปรับปรุงประสิทธิภาพการทำงาน (ดูบทความนี้)
วิธีเขียนโมดูลการทดสอบสำหรับวิทยาศาสตร์ข้อมูลและแบบจำลอง ML (ดูบทความนี้)
วิธีจัดการชุดข้อมูลขนาดใหญ่และซับซ้อนอย่างมีประสิทธิภาพ (ซึ่งอาจเป็นเรื่องยากสำหรับเครื่องมือ DS แบบเดิม)
วิธีใช้ GPU และโปรเซสเซอร์แบบมัลติคอร์อย่างเต็มที่สำหรับงานวิทยาศาสตร์ข้อมูลและการวิเคราะห์ทุกประเภท ไม่ใช่แค่สำหรับการสร้างแบบจำลองการเรียนรู้เชิงลึกเฉพาะทาง (ดูบทความนี้)
วิธีสร้างแอป GUI อย่างรวดเร็วสำหรับการสาธิตแนวคิดวิทยาศาสตร์ข้อมูล/ML หรือการปรับแต่งโมเดล (ดูบทความนี้) หรือวิธีการปรับใช้โมเดล ML และโค้ดการวิเคราะห์ข้อมูลอย่างง่ายดาย (และรวดเร็ว) ที่ระดับแอป (ดูบทความนี้)

หนังสือในอุดมคติในหัวข้อนี้จะ...

แหล่งที่มาของภาพ: Pixabay (ภาพฟรี)

สอนให้ระวัง ความไร้ประสิทธิภาพและคอขวด ในรหัสวิทยาศาสตร์ข้อมูลมาตรฐานและวิธีการคิดนอกกรอบเพื่อแก้ปัญหาเหล่านั้น
สอนวิธีเขียนแบบแยกส่วน การวิเคราะห์ข้อมูลที่มีประสิทธิภาพ และรหัสการเรียนรู้ของเครื่อง เพื่อปรับปรุงประสิทธิภาพการทำงานในสถานการณ์ต่างๆ — การวิเคราะห์ข้อมูลเชิงสำรวจ การแสดงภาพ การเรียนรู้เชิงลึก ฯลฯ
ครอบคลุมหัวข้อที่หลากหลาย เช่น การทดสอบซอฟต์แวร์ การพัฒนาโมดูล การเขียนโปรแกรม GUI, การปรับใช้โมเดล ML เป็นเว็บแอป ซึ่งเป็นชุดทักษะอันล้ำค่าสำหรับนักวิทยาศาตร์ด้านข้อมูลรุ่นใหม่ที่มีและหายากในหนังสือวิทยาศาสตร์ข้อมูลมาตรฐานเล่มใดเล่มหนึ่ง
ครอบคลุมการคำนวณแบบขนาน (เช่น แดสก์, เรย์) ความสามารถในการปรับขนาดได้ (เช่น แว็กซ์, โมดิน) และสแต็กวิทยาศาสตร์ข้อมูลที่ขับเคลื่อนด้วย GPU (RAPIDS) พร้อมตัวอย่างเชิงปฏิบัติ
เปิดเผยและแนะนำผู้อ่านให้รู้จักกับเครื่องมือวิทยาศาสตร์ข้อมูล Python ที่ใหญ่ขึ้นและขยายตัวอย่างต่อเนื่อง ซึ่งเชื่อมโยงกับแง่มุมที่กว้างขึ้นของ วิศวกรรมซอฟต์แวร์ และการปรับใช้ระดับการผลิต

ตัวอย่างที่เป็นรูปธรรม: วิทยาศาสตร์ข้อมูลแบบกระจายและขับเคลื่อนด้วย GPU

แม้ว่าการใช้ GPU และการคำนวณแบบกระจายจะมีการพูดคุยกันอย่างกว้างขวางในแวดวงวิชาการและธุรกิจสำหรับงาน AI/ML หลัก พวกเขาพบว่ามีความครอบคลุมน้อยกว่าในยูทิลิตี้สำหรับงานด้านวิทยาศาสตร์ข้อมูลและวิศวกรรมข้อมูลทั่วไป อย่างไรก็ตาม การใช้ GPU สำหรับการวิเคราะห์ทางสถิติแบบวันต่อวันหรืองานด้านวิทยาศาสตร์ข้อมูลอื่น ๆ สามารถก้าวไปสู่การเป็นสุภาษิตได้ “นักวิทยาศาสตร์ข้อมูลการผลิต"

ยกตัวอย่างเช่น RAPIDS ชุดซอฟต์แวร์ไลบรารีและ APIs ให้คุณ — นักวิทยาศาสตร์ข้อมูลทั่วไป (และไม่จำเป็นต้องเป็นผู้ฝึกการเรียนรู้เชิงลึก) — ตัวเลือกและความยืดหยุ่นในการดำเนินการ ไปป์ไลน์ด้านวิทยาศาสตร์ข้อมูลและการวิเคราะห์แบบ end-to-end บน GPU ทั้งหมด

แหล่งที่มาของภาพ: ผู้เขียนสร้างภาพตัดปะ

เมื่อใช้งานแม้กับ GPU ขนาดเล็ก ไลบรารีเหล่านี้แสดงการปรับปรุงความเร็วที่เหนือกว่า Python ปกติอย่างน่าทึ่ง โดยธรรมชาติแล้ว เราควรยอมรับสิ่งเหล่านี้ทุกครั้งที่ทำได้เพื่อ วิทยาศาสตร์ข้อมูลการผลิต เวิร์กโฟลว์

ในทำนองเดียวกัน มีโอกาสโอเพนซอร์ซที่ยอดเยี่ยมที่จะก้าวข้ามขีดจำกัดของธรรมชาติแบบ single-core ของภาษา Python และยอมรับกระบวนทัศน์การประมวลผลแบบคู่ขนานโดยไม่ต้องเปลี่ยนจากบุคลิกของนักวิทยาศาสตร์ข้อมูลที่เป็นแก่นสาร

แหล่งที่มาของภาพ: ผู้เขียนสร้างภาพตัดปะ

สรุป

เราได้พูดถึงยูทิลิตี้และส่วนประกอบหลักของa วิทยาศาสตร์ข้อมูลการผลิต เวิร์กโฟลว์ เราจินตนาการว่าหลักสูตรหรือหนังสือในอุดมคติในหัวข้อนี้จะนำเสนออะไรแก่ผู้อ่าน เราได้สัมผัสตัวอย่างที่เป็นรูปธรรมและแสดงให้เห็นประโยชน์ แหล่งข้อมูลที่เกี่ยวข้องบางส่วนมีให้ในบริบทของทักษะที่จะเชี่ยวชาญ

คุณสามารถตรวจสอบของผู้เขียน GitHub ที่เก็บ สำหรับรหัส แนวคิด และทรัพยากรในการเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูล หากคุณเป็นเช่นฉัน หลงใหลเกี่ยวกับ AI/แมชชีนเลิร์นนิง/วิทยาศาสตร์ข้อมูล โปรดอย่าลังเลที่จะ เพิ่มฉันใน LinkedIn or ติดตามฉันบนทวิตเตอร์.

Original. โพสต์ใหม่โดยได้รับอนุญาต

ที่เกี่ยวข้อง