কেন এবং কীভাবে আপনার "উত্পাদনশীল ডেটা সায়েন্স" শিখতে হবে?

= পূর্ববর্তী পোস্ট

পরবর্তী পোস্ট =>

ট্যাগ্স: বই, পেশা পরামর্শ, গতিপথ, ডেটা বিজ্ঞান, পাইথন

উৎপাদনশীল তথ্য বিজ্ঞান কি এবং এর কিছু উপাদান কি কি?

By তীর্থজ্যোতি সরকার, অ্যাডাপডিক্স কর্পোরেশন

মন্তব্য

ছবির উৎস: pixabay (বিনামূল্যে ছবি)

ডেটা সায়েন্স ওয়ার্কফ্লোতে দক্ষতা

ডেটা সায়েন্স এবং মেশিন লার্নিং দক্ষতা এবং উত্পাদনশীলতার বিভিন্ন ডিগ্রির সাথে অনুশীলন করা যেতে পারে। আবেদনের ক্ষেত্র বা বিশেষীকরণ নির্বিশেষে, একজন ডেটা বিজ্ঞানী - শিক্ষানবিস বা অভিজ্ঞ পেশাদার -কে চেষ্টা করা উচিত তার দক্ষতা বাড়ান সাধারণ ডেটা সায়েন্স টাস্কের সমস্ত দিকগুলিতে,

পরিসংখ্যান সংক্রান্ত বিশ্লেষণ,
দৃশ্যায়ন,
মডেল নির্বাচন, বৈশিষ্ট্য প্রকৌশল,
কোড গুণমান পরীক্ষা, মডুলারাইজেশন,
সমান্তরাল প্রক্রিয়াকরণ,
সহজ ওয়েব অ্যাপ স্থাপন

ছবির উৎস: pixabay (বিনামূল্যে ছবি)

এর অর্থ হল এই সমস্ত কাজ সম্পাদন করা,

উচ্চ গতিতে
দ্রুত ডিবাগিং সহ
একটি সিঙ্ক্রোনাইজড পদ্ধতিতে
যেকোনো এবং সমস্ত উপলব্ধ হার্ডওয়্যার সংস্থানগুলির সম্পূর্ণ সুবিধা গ্রহণের মাধ্যমে

এই প্রক্রিয়ায় আপনার কী শেখার আশা করা উচিত?

Let’s imagine somebody is teaching a “উৎপাদনশীল তথ্য বিজ্ঞান” course or writing a book about it — using Python as the language framework. What should the typical expectations be from such a course or book?

ছবির উৎস: pixabay (বিনামূল্যে ছবি)

যারা ইচ্ছুক তাদের জন্য কোর্স/বইটি করা উচিত প্রমিত উপায় অতিক্রম করে leapfrog ডেটা সায়েন্স এবং মেশিন লার্নিং কাজগুলি সম্পাদন করা এবং অনেক উচ্চ স্তরের উত্পাদনশীলতার জন্য পাইথন ডেটা সায়েন্স ইকোসিস্টেমের সম্পূর্ণ স্পেকট্রাম ব্যবহার করা।

পাঠকদের শেখানো উচিত কিভাবে স্ট্যান্ডার্ড প্রক্রিয়ায় অদক্ষতা এবং প্রতিবন্ধকতাগুলি খুঁজে বের করতে হয় এবং কীভাবে বাক্সের বাইরে চিন্তা করতে হয়।

পুনরাবৃত্তিমূলক ডেটা সায়েন্স টাস্কের অটোমেশন পাঠকরা এই বইটি পড়ার মাধ্যমে বিকাশ করবে এমন একটি মূল মানসিকতা। অনেক ক্ষেত্রে, তারা এও শিখবে কিভাবে বিদ্যমান কোডিং অনুশীলনকে উন্নত সফ্টওয়্যার সরঞ্জামগুলির সাহায্যে উচ্চ দক্ষতার সাথে বৃহত্তর ডেটাসেটগুলি পরিচালনা করতে হয় যা পাইথন ইকোসিস্টেমে ইতিমধ্যেই বিদ্যমান কিন্তু কোনো স্ট্যান্ডার্ড ডেটা বিজ্ঞানে শেখানো হয় না।

এটি একটি নিয়মিত পাইথন কুকবুক নাম্পি বা পান্ডাসের মতো স্ট্যান্ডার্ড লাইব্রেরি শেখানো উচিত নয়।

বরং, এটি কীভাবে করা যায় তার মতো দরকারী কৌশলগুলিতে ফোকাস করা উচিত মেমরি পদচিহ্ন এবং কার্যকর করার গতি পরিমাপ করুন এমএল মডেলের, মান পরীক্ষা একটি তথ্য বিজ্ঞান পাইপলাইন, মডুলারাইজ করা অ্যাপ ডেভেলপমেন্টের জন্য একটি ডেটা সায়েন্স পাইপলাইন, ইত্যাদি এটি পাইথন লাইব্রেরিগুলিকেও কভার করবে যা এর জন্য খুবই উপযোগী। স্বয়ংক্রিয়করণ এবং গতি বাড়ানো যেকোন ডেটা সায়েন্টিস্টের দৈনন্দিন কাজ।

তদ্ব্যতীত, এটি এমন সরঞ্জাম এবং প্যাকেজগুলিতে স্পর্শ করা উচিত যা একজন ডেটা বিজ্ঞানীকে সহায়তা করে বড় এবং জটিল ডেটাসেটগুলি মোকাবেলা করা স্ট্যান্ডার্ড পাইথন ডেটা সায়েন্স টেকনোলজি প্রজ্ঞা অনুসরণ করে যা সম্ভব হতো তার চেয়ে অনেক বেশি সর্বোত্তম উপায়ে।

কিছু নির্দিষ্ট দক্ষতা আয়ত্ত করতে

ছবির উৎস: pixabay (বিনামূল্যে ছবি)

বিষয়গুলিকে সুনির্দিষ্টভাবে রাখার জন্য, আসুন শেখার এবং অনুশীলনের জন্য কিছু নির্দিষ্ট দক্ষতা অর্জনের সংক্ষিপ্ত বিবরণ দেওয়া যাক উৎপাদনশীল তথ্য বিজ্ঞান. আমি রেফারেন্স হিসাবে প্রতিটি দক্ষতার সাথে যেতে কিছু প্রতিনিধি নিবন্ধের লিঙ্কগুলিও দেওয়ার চেষ্টা করেছি।

কিভাবে তথ্য বিজ্ঞানের জন্য দ্রুত এবং দক্ষ কোড লিখুন/ML এবং কিভাবে তাদের গতি এবং দক্ষতা পরিমাপ করা যায় (এই নিবন্ধটি দেখুন)
উত্পাদনশীলতা উন্নত করতে কীভাবে মডুলারাইজড এবং এক্সপ্রেসিভ ডেটা সায়েন্স পাইপলাইন তৈরি করবেন (এই নিবন্ধটি দেখুন)
ডেটা সায়েন্স এবং এমএল মডেলের জন্য টেস্টিং মডিউল কীভাবে লিখবেন (এই নিবন্ধটি দেখুন)
কীভাবে বড় এবং জটিল ডেটাসেটগুলি দক্ষতার সাথে পরিচালনা করবেন (যা ঐতিহ্যবাহী ডিএস সরঞ্জামগুলির সাথে কঠিন হত)
কিভাবে সম্পূর্ণরূপে GPU এবং মাল্টি-কোর প্রসেসর ব্যবহার করবেন সমস্ত ধরণের ডেটা সায়েন্স এবং অ্যানালিটিক্স টাস্কের জন্য, এবং শুধুমাত্র বিশেষায়িত ডিপ লার্নিং মডেলিংয়ের জন্য নয় (এই নিবন্ধটি দেখুন)
ডেটা সায়েন্স/এমএল আইডিয়া বা মডেল টিউনিংয়ের ডেমোর জন্য কীভাবে দ্রুত জিইউআই অ্যাপগুলি তৈরি করবেন (এই নিবন্ধটি দেখুন), বা কীভাবে সহজেই (এবং দ্রুত) একটি অ্যাপ-লেভেলে ML মডেল এবং ডেটা বিশ্লেষণ কোড স্থাপন করা যায় (এই নিবন্ধটি দেখুন)

এই বিষয়ে একটি আদর্শ বই হবে…

ছবির উৎস: pixabay (বিনামূল্যে ছবি)

শেখান কিভাবে খোঁজ করতে হয় অদক্ষতা এবং বাধা স্ট্যান্ডার্ড ডেটা সায়েন্স কোডে এবং সেই সমস্যাগুলি সমাধান করার জন্য কীভাবে বাক্সের বাইরে ভাবতে হয়।
বিভিন্ন পরিস্থিতিতে উত্পাদনশীলতা উন্নত করতে কীভাবে মডুলারাইজড, দক্ষ ডেটা বিশ্লেষণ এবং মেশিন লার্নিং কোড লিখতে হয় তা শেখান — অনুসন্ধানমূলক ডেটা বিশ্লেষণ, ভিজ্যুয়ালাইজেশন, গভীর শিক্ষা ইত্যাদি।
সফটওয়্যার টেস্টিং, মডিউল ডেভেলপমেন্ট, জিইউআই প্রোগ্রামিং, এমএল মডেল স্থাপনা ওয়েব-অ্যাপ হিসাবে, যা উদীয়মান ডেটা বিজ্ঞানীদের জন্য অমূল্য দক্ষতার অধিকারী এবং যেগুলি একটি স্ট্যান্ডার্ড ডেটা সায়েন্স বইতে সমষ্টিগতভাবে খুঁজে পাওয়া কঠিন।
সমান্তরাল কম্পিউটিং কভার করুন (যেমন, ডাস্ক, রে), পরিমাপযোগ্যতা (যেমন, ভ্যাক্স, মোডিন), এবং GPU-চালিত ডেটা সায়েন্স স্ট্যাক (রেপিডসহ্যান্ড-অন উদাহরণ সহ।
পাঠকদের একটি বৃহত্তর এবং সর্বদা প্রসারিত পাইথন ইকোসিস্টেমের ডেটা সায়েন্স টুলস এর বিস্তৃত দিকগুলির সাথে সংযুক্ত করে নির্দেশিত করুন সফ্টওয়্যার প্রকৌশল এবং উৎপাদন-স্তরের স্থাপনা।

একটি নির্দিষ্ট উদাহরণ: GPU-চালিত এবং বিতরণ করা ডেটা বিজ্ঞান

যদিও GPUs এবং বিতরণকৃত কম্পিউটিং এর ব্যবহার একাডেমিক এবং ব্যবসায়িক চেনাশোনাগুলিতে মূল AI/ML কার্যগুলির জন্য ব্যাপকভাবে আলোচনা করা হয়, তারা নিয়মিত ডেটা সায়েন্স এবং ডেটা ইঞ্জিনিয়ারিং কাজগুলির জন্য তাদের উপযোগে কম কভারেজ খুঁজে পেয়েছে। যাইহোক, নিয়মিত প্রতিদিনের পরিসংখ্যান বিশ্লেষণ বা অন্যান্য ডেটা বিজ্ঞানের কাজের জন্য GPU ব্যবহার করা প্রবাদপ্রতিম হওয়ার দিকে অনেক দূর যেতে পারে “Productive Data Scientist"।

উদাহরণস্বরূপ, সফটওয়্যার লাইব্রেরি এবং API গুলির RAPIDS স্যুট আপনাকে দিন - একটি নিয়মিত ডেটা বিজ্ঞানী (এবং অগত্যা গভীর শিক্ষার অনুশীলনকারী নয়) - কার্যকর করার বিকল্প এবং নমনীয়তা এন্ড-টু-এন্ড ডেটা সায়েন্স এবং অ্যানালিটিক্স পাইপলাইন সম্পূর্ণরূপে GPU- তে।

ছবির উৎস: লেখক কোলাজ তৈরি করেছেন

এমনকি একটি শালীন GPU এর সাথেও ব্যবহার করা হলে, এই লাইব্রেরিগুলি তাদের নিয়মিত পাইথন প্রতিপক্ষের তুলনায় গতিতে উল্লেখযোগ্য উন্নতি দেখায়। স্বাভাবিকভাবেই, আমরা যখনই পারি এইগুলিকে আলিঙ্গন করা উচিত উৎপাদনশীল তথ্য বিজ্ঞান কর্মধারা.

একইভাবে, পাইথন ভাষার একক-কোর প্রকৃতির সীমা ছাড়িয়ে যাওয়ার এবং সমান্তরাল কম্পিউটিং দৃষ্টান্তকে আলিঙ্গন করার জন্য চমৎকার ওপেন-সোর্স সুযোগ রয়েছে যা সর্বোত্তম ডেটা বিজ্ঞানী ব্যক্তিত্ব থেকে দূরে সরে না গিয়ে।

ছবির উৎস: লেখক কোলাজ তৈরি করেছেন

সারাংশ

আমরা a এর উপযোগিতা এবং মূল উপাদান নিয়ে আলোচনা করেছি উৎপাদনশীল তথ্য বিজ্ঞান কর্মধারা. আমরা কল্পনা করেছি যে এই বিষয়ে একটি আদর্শ কোর্স বা বই পাঠকদের জন্য কী অফার করবে। আমরা কিছু সুনির্দিষ্ট উদাহরণ স্পর্শ করেছি এবং সুবিধাগুলি চিত্রিত করেছি। দক্ষতা অর্জনের প্রেক্ষাপটে কিছু সম্পর্কিত সংস্থানও সরবরাহ করা হয়েছিল।

আপনি লেখকের চেক করতে পারেন GitHub ভান্ডার মেশিন লার্নিং এবং ডেটা সায়েন্সে কোড, ধারণা এবং সম্পদের জন্য। আপনি যদি আমার মতো, এআই/মেশিন লার্নিং/ডেটা সায়েন্স সম্পর্কে অনুরাগী হন, তবে দয়া করে নির্দ্বিধায় আমাকে লিঙ্কডইন এ যুক্ত করুন or আমাকে টুইটার এ অনুসরন কর.

মূল। অনুমতি নিয়ে পোস্ট করা।

সম্পর্কিত: