poloniex ตกลงที่จะชำระกับวินาทีมากกว่า 10m.png

ทำไมคุณควรเรียนรู้ "Productive Data Science" และอย่างไร

โหนดต้นทาง: 1858780

บล็อกทองคำทำไมคุณควรเรียนรู้ "Productive Data Science" และอย่างไร

Productive Data Science คืออะไร และมีองค์ประกอบอะไรบ้าง




แหล่งที่มาของภาพPixabay (ภาพฟรี)

ประสิทธิภาพในเวิร์กโฟลว์วิทยาศาสตร์ข้อมูล

 
วิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องสามารถฝึกฝนได้ด้วยระดับประสิทธิภาพและประสิทธิผลที่แตกต่างกัน โดยไม่คำนึงถึงขอบเขตการใช้งานหรือความเชี่ยวชาญเฉพาะด้าน นักวิทยาศาสตร์ข้อมูล - ผู้เริ่มต้นหรือมืออาชีพที่ช่ำชอง - ควรมุ่งมั่นที่จะ เพิ่มประสิทธิภาพของเขา/เธอ ในทุกแง่มุมของงานวิทยาศาสตร์ข้อมูลทั่วไป

  • การวิเคราะห์ทางสถิติ,
  • การสร้างภาพ
  • การเลือกรุ่น วิศวกรรมคุณลักษณะ
  • การทดสอบคุณภาพโค้ด การทำให้เป็นโมดูล
  • การประมวลผลแบบขนาน
  • การปรับใช้เว็บแอปอย่างง่าย



แหล่งที่มาของภาพPixabay (ภาพฟรี)

 

นี่หมายถึงการทำงานทั้งหมดเหล่านี้

  • ที่ความเร็วสูงขึ้น
  • ด้วยการดีบักที่เร็วขึ้น
  • ในลักษณะที่ประสานกัน
  • โดยใช้ประโยชน์จากทรัพยากรฮาร์ดแวร์ที่มีอยู่ทั้งหมด

คุณควรคาดหวังอะไรที่จะเรียนรู้ในกระบวนการนี้?

 
ลองนึกภาพว่ามีคนกำลังสอนเรื่อง “วิทยาศาสตร์ข้อมูลการผลิต” หรือเขียนหนังสือเกี่ยวกับมัน — โดยใช้ Python เป็นกรอบงานภาษา ความคาดหวังโดยทั่วไปควรมาจากหลักสูตรหรือหนังสือดังกล่าวอย่างไร



แหล่งที่มาของภาพPixabay (ภาพฟรี)

 

หลักสูตร/หนังสือควรจัดทำขึ้นสำหรับผู้ที่ต้องการ ก้าวกระโดดเกินมาตรฐาน ของการดำเนินการด้านวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง และใช้คลื่นความถี่เต็มรูปแบบของระบบนิเวศวิทยาข้อมูลของ Python เพื่อประสิทธิภาพการทำงานในระดับที่สูงขึ้นมาก

ผู้อ่านควรได้รับการสอนให้มองหาความไร้ประสิทธิภาพและปัญหาคอขวดในกระบวนการมาตรฐานและวิธีคิดนอกกรอบ

ระบบอัตโนมัติของงานวิทยาศาสตร์ข้อมูลที่ซ้ำกัน เป็นความคิดหลักที่ผู้อ่านจะได้พัฒนาจากการอ่านหนังสือเล่มนี้ ในหลายกรณี พวกเขายังจะได้เรียนรู้วิธีขยายแนวปฏิบัติการเขียนโค้ดที่มีอยู่เพื่อจัดการกับชุดข้อมูลขนาดใหญ่ที่มีประสิทธิภาพสูงด้วยความช่วยเหลือของเครื่องมือซอฟต์แวร์ขั้นสูงที่มีอยู่แล้วในระบบนิเวศของ Python แต่ไม่ได้สอนในวิทยาศาสตร์ข้อมูลมาตรฐานใดๆ

นี่ไม่ควรเป็นตำราอาหาร Python ปกติที่สอนไลบรารีมาตรฐานเช่น Numpy หรือ Pandas

แต่ควรเน้นเทคนิคที่เป็นประโยชน์ เช่น วิธีการ วัดรอยเท้าหน่วยความจำและความเร็วในการดำเนินการ ของรุ่น ML การทดสอบคุณภาพ ไปป์ไลน์วิทยาศาสตร์ข้อมูล โมดูลาร์ ไปป์ไลน์วิทยาศาสตร์ข้อมูลสำหรับการพัฒนาแอพ ฯลฯ นอกจากนี้ยังควรครอบคลุมไลบรารี Python ซึ่งมีประโยชน์มากสำหรับ โดยอัตโนมัติ และ  เร่งขึ้น งานประจำวันของนักวิทยาศาสตร์ข้อมูล

นอกจากนี้ควรสัมผัสกับเครื่องมือและแพ็คเกจที่ช่วยนักวิทยาศาสตร์ข้อมูล การจัดการกับชุดข้อมูลขนาดใหญ่และซับซ้อน ด้วยวิธีที่เหมาะสมกว่าที่เป็นไปได้โดยทำตามภูมิปัญญาเทคโนโลยีวิทยาศาสตร์ข้อมูล Python มาตรฐาน

ทักษะเฉพาะบางอย่างที่จะเชี่ยวชาญ

 



แหล่งที่มาของภาพPixabay (ภาพฟรี)

 

เพื่อให้สิ่งต่าง ๆ เป็นรูปธรรม ให้เราสรุปทักษะเฉพาะบางอย่างเพื่อเป็นผู้เชี่ยวชาญในการเรียนรู้และฝึกฝน วิทยาศาสตร์ข้อมูลการผลิต. ฉันยังพยายามใส่ลิงก์ไปยังบทความที่เป็นตัวแทนเพื่อใช้อ้างอิงในแต่ละทักษะ

  1. วิธีการ เขียนโค้ดที่รวดเร็วและมีประสิทธิภาพสำหรับวิทยาศาสตร์ข้อมูล/ML และวิธีวัดความเร็วและประสิทธิภาพ (ดูบทความนี้)
  2. วิธีสร้างไปป์ไลน์วิทยาศาสตร์ข้อมูลแบบแยกส่วนและแสดงออกเพื่อปรับปรุงประสิทธิภาพการทำงาน (ดูบทความนี้)
  3. วิธีเขียนโมดูลการทดสอบสำหรับวิทยาศาสตร์ข้อมูลและแบบจำลอง ML (ดูบทความนี้)
  4. วิธีจัดการชุดข้อมูลขนาดใหญ่และซับซ้อนอย่างมีประสิทธิภาพ (ซึ่งอาจเป็นเรื่องยากสำหรับเครื่องมือ DS แบบเดิม)
  5. วิธีใช้ GPU และโปรเซสเซอร์แบบมัลติคอร์อย่างเต็มที่สำหรับงานวิทยาศาสตร์ข้อมูลและการวิเคราะห์ทุกประเภท ไม่ใช่แค่สำหรับการสร้างแบบจำลองการเรียนรู้เชิงลึกเฉพาะทาง (ดูบทความนี้)
  6. วิธีสร้างแอป GUI อย่างรวดเร็วสำหรับการสาธิตแนวคิดวิทยาศาสตร์ข้อมูล/ML หรือการปรับแต่งโมเดล (ดูบทความนี้) หรือวิธีการปรับใช้โมเดล ML และโค้ดการวิเคราะห์ข้อมูลอย่างง่ายดาย (และรวดเร็ว) ที่ระดับแอป (ดูบทความนี้)

หนังสือในอุดมคติในหัวข้อนี้จะ...

 



แหล่งที่มาของภาพPixabay (ภาพฟรี)

 

  1. สอนให้ระวัง ความไร้ประสิทธิภาพและคอขวด ในรหัสวิทยาศาสตร์ข้อมูลมาตรฐานและวิธีการคิดนอกกรอบเพื่อแก้ปัญหาเหล่านั้น
  2. สอนวิธีเขียนแบบแยกส่วน การวิเคราะห์ข้อมูลที่มีประสิทธิภาพ และรหัสการเรียนรู้ของเครื่อง เพื่อปรับปรุงประสิทธิภาพการทำงานในสถานการณ์ต่างๆ — การวิเคราะห์ข้อมูลเชิงสำรวจ การแสดงภาพ การเรียนรู้เชิงลึก ฯลฯ
  3. ครอบคลุมหัวข้อที่หลากหลาย เช่น การทดสอบซอฟต์แวร์ การพัฒนาโมดูล การเขียนโปรแกรม GUIการปรับใช้โมเดล ML เป็นเว็บแอป ซึ่งเป็นชุดทักษะอันล้ำค่าสำหรับนักวิทยาศาตร์ด้านข้อมูลรุ่นใหม่ที่มีและหายากในหนังสือวิทยาศาสตร์ข้อมูลมาตรฐานเล่มใดเล่มหนึ่ง
  4. ครอบคลุมการคำนวณแบบขนาน (เช่น แดสก์, เรย์) ความสามารถในการปรับขนาดได้ (เช่น แว็กซ์, โมดิน) และสแต็กวิทยาศาสตร์ข้อมูลที่ขับเคลื่อนด้วย GPU (RAPIDS) พร้อมตัวอย่างเชิงปฏิบัติ
  5. เปิดเผยและแนะนำผู้อ่านให้รู้จักกับเครื่องมือวิทยาศาสตร์ข้อมูล Python ที่ใหญ่ขึ้นและขยายตัวอย่างต่อเนื่อง ซึ่งเชื่อมโยงกับแง่มุมที่กว้างขึ้นของ วิศวกรรมซอฟต์แวร์ และการปรับใช้ระดับการผลิต

ตัวอย่างที่เป็นรูปธรรม: วิทยาศาสตร์ข้อมูลแบบกระจายและขับเคลื่อนด้วย GPU

 
แม้ว่าการใช้ GPU และการคำนวณแบบกระจายจะมีการพูดคุยกันอย่างกว้างขวางในแวดวงวิชาการและธุรกิจสำหรับงาน AI/ML หลัก พวกเขาพบว่ามีความครอบคลุมน้อยกว่าในยูทิลิตี้สำหรับงานด้านวิทยาศาสตร์ข้อมูลและวิศวกรรมข้อมูลทั่วไป อย่างไรก็ตาม การใช้ GPU สำหรับการวิเคราะห์ทางสถิติแบบวันต่อวันหรืองานด้านวิทยาศาสตร์ข้อมูลอื่น ๆ สามารถก้าวไปสู่การเป็นสุภาษิตได้ “นักวิทยาศาสตร์ข้อมูลการผลิต"

ยกตัวอย่างเช่น RAPIDS ชุดซอฟต์แวร์ไลบรารีและ APIs ให้คุณ — นักวิทยาศาสตร์ข้อมูลทั่วไป (และไม่จำเป็นต้องเป็นผู้ฝึกการเรียนรู้เชิงลึก) — ตัวเลือกและความยืดหยุ่นในการดำเนินการ ไปป์ไลน์ด้านวิทยาศาสตร์ข้อมูลและการวิเคราะห์แบบ end-to-end บน GPU ทั้งหมด



แหล่งที่มาของภาพ: ผู้เขียนสร้างภาพตัดปะ

 

เมื่อใช้งานแม้กับ GPU ขนาดเล็ก ไลบรารีเหล่านี้แสดงการปรับปรุงความเร็วที่เหนือกว่า Python ปกติอย่างน่าทึ่ง โดยธรรมชาติแล้ว เราควรยอมรับสิ่งเหล่านี้ทุกครั้งที่ทำได้เพื่อ วิทยาศาสตร์ข้อมูลการผลิต เวิร์กโฟลว์


 

ในทำนองเดียวกัน มีโอกาสโอเพนซอร์ซที่ยอดเยี่ยมที่จะก้าวข้ามขีดจำกัดของธรรมชาติแบบ single-core ของภาษา Python และยอมรับกระบวนทัศน์การประมวลผลแบบคู่ขนานโดยไม่ต้องเปลี่ยนจากบุคลิกของนักวิทยาศาสตร์ข้อมูลที่เป็นแก่นสาร



แหล่งที่มาของภาพ: ผู้เขียนสร้างภาพตัดปะ

สรุป

 
เราได้พูดถึงยูทิลิตี้และส่วนประกอบหลักของa วิทยาศาสตร์ข้อมูลการผลิต เวิร์กโฟลว์ เราจินตนาการว่าหลักสูตรหรือหนังสือในอุดมคติในหัวข้อนี้จะนำเสนออะไรแก่ผู้อ่าน เราได้สัมผัสตัวอย่างที่เป็นรูปธรรมและแสดงให้เห็นประโยชน์ แหล่งข้อมูลที่เกี่ยวข้องบางส่วนมีให้ในบริบทของทักษะที่จะเชี่ยวชาญ

คุณสามารถตรวจสอบของผู้เขียน GitHub ที่เก็บ สำหรับรหัส แนวคิด และทรัพยากรในการเรียนรู้ของเครื่องและวิทยาศาสตร์ข้อมูล หากคุณเป็นเช่นฉัน หลงใหลเกี่ยวกับ AI/แมชชีนเลิร์นนิง/วิทยาศาสตร์ข้อมูล โปรดอย่าลังเลที่จะ เพิ่มฉันใน LinkedIn or ติดตามฉันบนทวิตเตอร์.

 
Original. โพสต์ใหม่โดยได้รับอนุญาต

ที่เกี่ยวข้อง



เรื่องเด่นใน 30 วันที่ผ่านมา
เป็นที่นิยม
  1. หลักสูตรออนไลน์วิทยาศาสตร์ข้อมูล 6 อันดับแรกในปี 2021
  2. นักวิทยาศาสตร์ข้อมูลและวิศวกร ML เป็นพนักงานที่หรูหรา
  3. คำแนะนำสำหรับการเรียนรู้ Data Science จากผู้อำนวยการฝ่ายวิจัยของ Google
  4. GitHub Copilot โอเพ่นซอร์สทางเลือก
  5. รากฐานทางเรขาคณิตของการเรียนรู้เชิงลึก
แบ่งปันมากที่สุด
  1. ทำไมคุณควรเรียนรู้ "Productive Data Science" และอย่างไร
  2. ไม่เพียงแต่สำหรับ Deep Learning เท่านั้น: GPUs เร่งความเร็ว Data Science & Data Analytics ได้อย่างไร
  3. บูตสแตรป Modern Data Stack ใน 5 นาทีด้วย Terraform
  4. วิทยาศาสตร์ข้อมูลที่ขับเคลื่อนด้วย GPU (ไม่ใช่การเรียนรู้เชิงลึก) ด้วย RAPIDS
  5. มาเป็นวิศวกรวิเคราะห์ใน 90 วัน

ที่มา: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html

ประทับเวลา:

เพิ่มเติมจาก KD นักเก็ต