অ্যাডভান্সড ডেটা সায়েন্স প্রোজেক্টের জন্য শীর্ষ 16টি প্রযুক্তিগত ডেটা উত্স - KDnuggets

অ্যাডভান্সড ডেটা সায়েন্স প্রোজেক্টের জন্য শীর্ষ 16টি প্রযুক্তিগত ডেটা উৎস – KDnuggets

উত্স নোড: 3081921

উন্নত ডেটা বিজ্ঞান প্রকল্পের জন্য শীর্ষ 16 প্রযুক্তিগত ডেটা উত্স
লেখকের ছবি
 

আপনি এই পৃষ্ঠাগুলিতে পড়েছেন (এবং আমি সেই নিবন্ধগুলির মধ্যে কিছু লেখার জন্য দোষী) যে প্রযুক্তিগত ডেটা বিজ্ঞান দক্ষতার পুরো প্যাকেজ বিকাশের জন্য ডেটা সায়েন্স প্রকল্পগুলি অত্যন্ত গুরুত্বপূর্ণ। এটা সত্য, তারা. তবে আপনার ডেটা বিজ্ঞান প্রকল্পগুলির জন্য উচ্চ-মানের ডেটাসেট থাকাও গুরুত্বপূর্ণ। মানসম্পন্ন ডেটা সংগ্রহ করা ঠিক একটি ডেটা সায়েন্স প্রকল্পের একটি ধাপ, কিন্তু এক যে এটি তৈরি বা ভাঙতে পারে।

প্রশ্ন হল, এই ফ্রিগিং ডেটা কোথায় পাওয়া যাবে? সৌভাগ্যবশত, অনেক ওয়েবসাইট বিভিন্ন উদ্দেশ্যে প্রচুর ডেটা সরবরাহ করছে।

 

উন্নত ডেটা বিজ্ঞান প্রকল্পের জন্য শীর্ষ 16 প্রযুক্তিগত ডেটা উত্স
লেখকের ছবি

আপনি সম্পর্কে শুনেছেন Kaggle, সম্ভবত তথ্য বিজ্ঞান সম্প্রদায়ের সবচেয়ে সুপরিচিত প্ল্যাটফর্ম। এটি বিভিন্ন ফরম্যাটে (CSV, JSON, SQLite, BigQuery) এবং স্বাস্থ্য, স্বয়ংচালিত, শিল্প ও বিনোদন, জীববিজ্ঞান, সামাজিক বিজ্ঞান, বিনিয়োগ, সামাজিক নেটওয়ার্ক, খেলাধুলা ইত্যাদির মতো একাধিক শিল্প এবং বিষয় থেকে ডেটাসেটের একটি বিশাল অ্যারে হোস্ট করে। চালু. আপনি তাদের প্রযুক্তিগত ফোকাস, যেমন, কম্পিউটার বিজ্ঞান, শ্রেণীবিভাগ, কম্পিউটার দৃষ্টি, NLP, বা ডেটা ভিজ্যুয়ালাইজেশনের উপর নির্ভর করে ডেটাসেটগুলির জন্য অনুসন্ধান করতে পারেন।

বর্তমানে, 274,855 ডেটাসেট উপলব্ধ রয়েছে, তাই আপনার ডেটার অভাব হবে না।

Kaggle এর ব্যবহারকারী-বান্ধব ইন্টারফেস এবং সক্রিয় সম্প্রদায় ফোরাম এটিকে নতুন এবং পেশাদার উভয়ের জন্য একটি চমৎকার সম্পদ করে তোলে।

আপনি যদি একটি মেশিন লার্নিং উত্সাহী হন, ইউসিআই মেশিন লার্নিং রিপোজিটরি আপনার যেতে হবে সাইট. নাম অনুসারে, এই সংগ্রহস্থলটি ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, আরভিন (ইউসিআই) দ্বারা তৈরি করা হয়েছে। তারা মেশিন লার্নিংয়ের জন্য তৈরি করা ডেটাসেটের একটি বিস্তৃত সংগ্রহ সংগ্রহ করেছে। যেহেতু ডেটাসেটগুলি বিভিন্ন বিষয় কভার করে, সেগুলি বিশেষভাবে উপযোগী এই ডেটাসেটগুলি বিস্তৃত বিষয়গুলিকে কভার করে এবং যারা তাদের মেশিন-লার্নিং দক্ষতা অনুশীলন এবং উন্নত করতে চায় তাদের জন্য বিশেষভাবে উপযোগী৷

বর্তমানে 653টি ডেটাসেট রয়েছে; আপনি ডাটা টাইপ, বিষয় এলাকা, টাস্ক, বৈশিষ্ট্য এবং দৃষ্টান্তের সংখ্যা এবং বৈশিষ্ট্যের ধরন দ্বারা তাদের ব্রাউজ করতে পারেন।

স্ট্র্যাটাস্ক্র্যাচ প্রকৃত কোম্পানি থেকে প্রাপ্ত 49টি ডেটাসেট এবং প্রকল্প সরবরাহ করে। যারা ডেটা সায়েন্স ইন্টারভিউয়ের জন্য প্রস্তুতি নিচ্ছেন তাদের জন্য এটি বিশেষভাবে উপকারী, কারণ এটি ব্যবহারকারীদের তাদের প্রযুক্তিগত দক্ষতা এবং ডেটা থেকে ব্যবসার অন্তর্দৃষ্টি অর্জনের ক্ষমতা বিকাশে সহায়তা করে। এটি ডেটা বিজ্ঞান প্রকল্পগুলির জন্য একটি ব্যবহারিক এবং শিল্প-প্রাসঙ্গিক পদ্ধতির জন্য অনুমতি দেয়।

প্রকল্পগুলি বিভিন্ন বিষয় কভার করে, যেমন ডেটা অন্বেষণ, ডেটা ইঞ্জিনিয়ারিং, ব্যবসা বিশ্লেষণ, রিগ্রেশন, শ্রেণীবিভাগ, এনএলপি এবং ক্লাস্টারিং।

গুগল ডেটাসেট অনুসন্ধান একটি টুল যার উদ্দেশ্য হল ওয়েব জুড়ে ডেটাসেটগুলি খুঁজে বের করা৷ আপনি ইতিমধ্যেই জানেন কিভাবে এটি ব্যবহার করতে হয়, এমনকি যদি আপনি এখন পর্যন্ত এটি সম্পর্কে কখনও শোনেননি। কেন? ঠিক আছে, এটি দেখতে এবং একটি নিয়মিত Google অনুসন্ধানের মতো কাজ করে, শুধুমাত্র এটি শুধুমাত্র ডেটাসেটগুলি খোঁজার উপর ফোকাস করে৷ আপনি যদি বিভিন্ন উত্স, একাডেমিক কাগজপত্র এবং সরকারী ডাটাবেস থেকে ডেটা খুঁজছেন তবে এটি অত্যন্ত কার্যকর।

আমাজনের AWS পাবলিক ডেটাসেট প্রোগ্রাম আরেকটি সাইট যেখানে আপনি অনেক খোলা ডেটা খুঁজে পেতে পারেন। বর্তমানে 494টি ডেটাসেট উপলব্ধ, এটি ডেটা বিজ্ঞানীদের জন্য একটি মূল্যবান সম্পদ। আপনি সেখানে যে ডেটাসেটগুলি খুঁজে পান সেগুলি AWS ক্লাউড পরিষেবাগুলির সাথে একত্রিত করা যেতে পারে৷ আপনার প্রকল্পের জন্য আরও কম্পিউটিং সংস্থান প্রয়োজন হলে এটি সহায়ক হতে পারে। 

উপলভ্য ডেটার পরিসীমার মধ্যে রয়েছে জিনোমিক্স, আবহাওয়াবিদ্যা, এবং জ্যোতির্বিদ্যা, অন্যদের মধ্যে।

Data.gov মার্কিন সরকার দ্বারা স্পনসর করা একটি ডেটা ভান্ডার এবং এতে বিভিন্ন মার্কিন সংস্থার ডেটা রয়েছে। এটিতে 283,935টি মার্কিন সংস্থার 132 ডেটাসেট অন্তর্ভুক্ত রয়েছে। কৃষি, জনস্বাস্থ্য, অর্থ, শিক্ষা, জনসংখ্যা, অর্থনীতি এবং পরিবেশগত ডেটার মতো বিস্তৃত ডেটা রয়েছে।

HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON, এবং TEXT সহ সর্বাধিক জনপ্রিয় সহ ডেটাসেটগুলি প্রায় 50টি ভিন্ন ফর্ম্যাটে আসে৷

FiveThirtyEight এবিসি নিউজ তাদের নিবন্ধ এবং গ্রাফিক্সের ডেটা এবং কোড ভান্ডার। এটি তথ্য সাংবাদিক এবং পরিসংখ্যানগত গল্প বলার জন্য আগ্রহী যে কেউ জন্য একটি নিখুঁত সম্পদ. আপনি যদি বর্তমান ঘটনা, রাজনীতি, খেলাধুলা এবং আরও অনেক কিছু জড়িত এমন প্রকল্পগুলি করতে আগ্রহী হন তবে এটি আপনার উত্স। 

এটি 160 থেকে আজ পর্যন্ত 2014 টিরও বেশি ডেটাসেট অফার করে৷

সার্জারির বিশ্বব্যাংক ওপেন ডাটা গ্লোবাল ডেভেলপমেন্ট ডেটার চারপাশে আবর্তিত বিস্তৃত ডেটাসেট অফার করে। এই ডেটাতে বিশ্বের বিভিন্ন দেশের অর্থনীতি, পরিবেশ এবং সামাজিক সমস্যাগুলির সূচক অন্তর্ভুক্ত রয়েছে৷ আপনি যদি বিশ্বব্যাপী উন্নয়ন এবং আর্থ-সামাজিক বিষয়গুলিতে আগ্রহী হন তবে আপনি এখানে অনেক আকর্ষণীয় তথ্য পেতে পারেন।

GitHub কোড শেয়ার করার জন্য শুধুমাত্র একটি প্ল্যাটফর্ম নয়। এটি ডেটা প্রকল্পগুলির জন্য ডেটাসেটগুলি সন্ধানের জন্যও ব্যবহার করা যেতে পারে। অনেক প্রতিষ্ঠান এবং স্বতন্ত্র ব্যবহারকারীরা গিটহাব রিপোজিটরিতে তাদের ডেটাসেট হোস্ট করে। এই তথ্যটি বিস্তৃত বিষয় কভার করে, প্রায়শই বিস্তৃত ডকুমেন্টেশন এবং বিশ্লেষণের জন্য কোড দ্বারা সমর্থিত।

OpenML মেশিন লার্নিং জন্য একটি অনলাইন প্ল্যাটফর্ম. এর অর্থ হল আপনাকে প্রচুর ডেটা অ্যাক্সেস দেওয়া। আরও নির্দিষ্টভাবে, প্রায় 5,400 ডেটাসেট। এটি মেশিন লার্নিং পরীক্ষার ডেটা এবং ফলাফলগুলি ভাগ করে নেওয়া, সংগঠিত করা এবং আলোচনা করার জন্য ডিজাইন করা হয়েছে৷ OpenML জনপ্রিয় মেশিন লার্নিং এনভায়রনমেন্টের সাথে একীভূত করা যেতে পারে, যা আপনার ডেটা সায়েন্স লার্নিংয়ের জন্য একটি বোনাস। 

সার্জারির ডেটাসেট সাবরেডিট ডেটার একটি সম্প্রদায়-চালিত উৎস। লোকেরা রেডডিটে সবকিছু শেয়ার করে। ভাল, তারা ডেটা প্রকল্পগুলির জন্য ডেটাসেটগুলি ভাগ করে এবং অনুরোধ করে। কখনও কখনও সেখানে ডেটা খুঁজে পাওয়া কঠিন। কিন্তু তথ্যের অভাবের কারণে নয়। অপরদিকে! জায়গাটি ডেটা দিয়ে পূর্ণ, যা কখনও কখনও ডেটা অনুসন্ধানকে বেশ বিশৃঙ্খল করে তুলতে পারে। ডেটা অত্যন্ত নির্দিষ্ট এবং অস্বাভাবিক থেকে আরও ঐতিহ্যবাহী ডেটাসেট পর্যন্ত। যেহেতু এটি মূলত একটি ফোরাম, আপনি আলোচনায় অংশগ্রহণ করতে পারেন এবং ডেটাসেটের ব্যাপারে সহায়তা চাইতে পারেন। 

ইউরোপীয় ইউনিয়নের পরিসংখ্যান অফিস বলা হয় ইউরোস্ট্যাট, এবং এটি ডেটার একটি ব্যাপক উৎস। আপনি যদি EU সদস্য দেশগুলি সম্পর্কে উচ্চ-মানের পরিসংখ্যানগত ডেটাতে আগ্রহী হন তবে এটি আপনার প্রধান ডেটা উত্স হওয়া উচিত। EU দেশগুলির ডেটাতে অর্থনীতি, জনসংখ্যা, স্বাস্থ্য এবং বাণিজ্যের মতো বিষয়গুলি অন্তর্ভুক্ত রয়েছে৷

এইচডিএক্স একটি উন্মুক্ত প্ল্যাটফর্ম যেখানে আপনি মানবিক তথ্য খুঁজে পেতে পারেন। এটি মানবিক বিষয়ক সমন্বয়ের জন্য জাতিসংঘের কার্যালয় দ্বারা পরিচালিত হয়। এই প্ল্যাটফর্মটি বিশ্বের প্রতিটি দেশে মানবিক সংকট এবং জরুরী অবস্থার চারপাশে আবর্তিত ডেটা সরবরাহ করে। আপনি যদি বৈশ্বিক সমস্যা, দুর্যোগ প্রতিক্রিয়া এবং মানব কল্যাণের উপর ফোকাস করে এমন প্রকল্পগুলিতে থাকেন তবে আপনি এটি দরকারী খুঁজে পেতে পারেন।

বিভিন্ন বৈশিষ্ট্য এবং বিন্যাস সহ 20,344টি সক্রিয় এবং 2,570টি সংরক্ষণাগারভুক্ত ডেটাসেট রয়েছে।

উপরে সিডিসি, আপনি স্বাস্থ্য-সম্পর্কিত ডেটা খুঁজে পেতে পারেন। ডেটাসেটগুলি বিভিন্ন স্বাস্থ্য পরিস্থিতি, ঝুঁকির কারণ এবং জনস্বাস্থ্যের উপর দৃষ্টি নিবদ্ধ করে। সুতরাং, যদি এই বিষয়গুলি আপনি আগ্রহী হন তবে আপনি এখানে প্রচুর দরকারী ডেটা পাবেন।

সার্জারির BLS সাইটে মার্কিন অর্থনৈতিক অবস্থা, শ্রম বাজার, মূল্য পরিবর্তন, জীবনযাত্রার মান ইত্যাদির প্রচুর ডেটা রয়েছে৷ আপনি যদি এই বিষয়গুলিতে থাকেন তবে আপনি প্রচুর মানসম্পন্ন ডেটাসেট পাবেন৷ 

আমি উল্লেখ করব তথ্যের শেষ উৎস হল নাসা. মহাকাশ, ফলিত বিজ্ঞান, অ্যাপস, আর্থ সায়েন্স, ম্যানেজমেন্ট/অপারেশন, কাঁচা ডেটা, সফ্টওয়্যার এবং মহাকাশ বিজ্ঞানের প্রচুর ডেটা রয়েছে।

এটিতে 10,000 টিরও বেশি ডেটাসেট রয়েছে, তাই ডেটার মহাবিশ্বে হারিয়ে যাবেন না!

এই 16টি ওয়েবসাইটগুলি, আমি নিশ্চিত, সময়ের শেষ অবধি কাজ করার জন্য আপনাকে যথেষ্ট ডেটা দেবে, যা ছিল আমার লক্ষ্য! যাইহোক, ডেটার পরিমাণই সবকিছু নয়।

আমি এই সাইটগুলি বেছে নিয়েছি কারণ তারা আপনাকে বিভিন্ন ডেটা বিজ্ঞান প্রকল্পের জন্য উপযুক্ত ডেটাসেটের একটি খুব বৈচিত্র্যময় পরিসর সরবরাহ করবে। ডেটাসেট সুনির্দিষ্ট শিল্প থেকে শিল্পে ভিন্ন। সুতরাং, বিভিন্ন ডেটাসেটের সাথে কাজ করা আপনাকে ডোমেন জ্ঞান অর্জন করতে দেয়।

আপনি মেশিন লার্নিং, ডেটা বিশ্লেষণ, ডেটা সাংবাদিকতা, পরিসংখ্যান বিশ্লেষণ, বা ডেটা ভিজ্যুয়ালাইজেশনের মধ্যে ডুবে থাকুন না কেন, আপনি সর্বদা এই সংস্থানগুলির উপর নির্ভর করতে পারেন।

এখন, আপনি আপনার নিজস্ব ডেটা বিজ্ঞান প্রকল্প করতে পারেন! আপনি যদি আরো ধারণা প্রয়োজন, এখানে কিছু আছে তথ্য বিজ্ঞান প্রকল্প আপনি একটি শিক্ষানবিস হিসাবে করতে পারেন.
 
 

নাট রোসিদি একজন ডেটা সায়েন্টিস্ট এবং পণ্যের কৌশল। এছাড়াও তিনি একজন সহযোগী অধ্যাপক শিক্ষকতা বিশ্লেষণ, এবং এর প্রতিষ্ঠাতা স্ট্র্যাটাস্ক্র্যাচ, একটি প্ল্যাটফর্ম যা তথ্য বিজ্ঞানীদের তাদের ইন্টারভিউয়ের জন্য প্রস্তুত করতে সাহায্য করে যা শীর্ষ কোম্পানিগুলির বাস্তব ইন্টারভিউ প্রশ্ন নিয়ে। তার সাথে সংযোগ করুন টুইটার: StrataScratch or লিঙ্কডইন.

সময় স্ট্যাম্প:

থেকে আরো কেডনুগেটস

KDnuggets™ News 21:n17, মে 5: Charticulator: Microsoft Research ওপেন-সোর্স গেম-চেঞ্জিং ডেটা ভিজ্যুয়ালাইজেশন প্ল্যাটফর্ম; বাস্তব বিশ্বের সমস্যা পূর্বাভাস এবং প্রতিরোধ করার জন্য ডেটা বিজ্ঞান

উত্স নোড: 841122
সময় স্ট্যাম্প: 5 পারে, 2021