แหล่งข้อมูลทางเทคนิค 16 อันดับแรกสำหรับโครงการวิทยาศาสตร์ข้อมูลขั้นสูง - KDnuggets

แหล่งข้อมูลทางเทคนิค 16 อันดับแรกสำหรับโครงการวิทยาศาสตร์ข้อมูลขั้นสูง – KDnuggets

โหนดต้นทาง: 3081921

แหล่งข้อมูลทางเทคนิค 16 อันดับแรกสำหรับโครงการวิทยาศาสตร์ข้อมูลขั้นสูง
ภาพโดยผู้เขียน
 

คุณได้อ่านหน้าเหล่านี้แล้ว (และฉันรู้สึกผิดที่เขียนบทความบางส่วนเหล่านั้น) ว่าโครงการวิทยาศาสตร์ข้อมูลมีความสำคัญอย่างยิ่งต่อการพัฒนาทักษะวิทยาศาสตร์ข้อมูลทางเทคนิคทั้งหมด นั่นเป็นเรื่องจริง พวกเขาเป็น แต่สิ่งสำคัญก็คือการมีชุดข้อมูลคุณภาพสูงสำหรับโครงการวิทยาศาสตร์ข้อมูลของคุณ การรวบรวมข้อมูลที่มีคุณภาพเป็นเพียง หนึ่งในขั้นตอนของโครงงานวิทยาศาสตร์ข้อมูลแต่สิ่งที่สามารถสร้างหรือทำลายมันได้

คำถามคือ จะหาข้อมูลการตรึงนี้ได้ที่ไหน โชคดีที่เว็บไซต์จำนวนมากเสนอข้อมูลมากมายเพื่อวัตถุประสงค์ต่างๆ

 

แหล่งข้อมูลทางเทคนิค 16 อันดับแรกสำหรับโครงการวิทยาศาสตร์ข้อมูลขั้นสูง
ภาพโดยผู้เขียน

คุณเคยได้ยินเกี่ยวกับ Kaggleอาจเป็นแพลตฟอร์มที่มีชื่อเสียงที่สุดในชุมชนวิทยาศาสตร์ข้อมูล โฮสต์ชุดข้อมูลมากมายในรูปแบบต่างๆ (CSV, JSON, SQLite, BigQuery) และจากหลายอุตสาหกรรมและหัวข้อ เช่น สุขภาพ ยานยนต์ ศิลปะและความบันเทิง ชีววิทยา สังคมศาสตร์ การลงทุน เครือข่ายสังคม กีฬา และอื่นๆ บน. คุณยังสามารถค้นหาชุดข้อมูลโดยขึ้นอยู่กับจุดเน้นทางเทคนิค เช่น วิทยาการคอมพิวเตอร์ การจำแนกประเภท คอมพิวเตอร์วิทัศน์ NLP หรือการแสดงภาพข้อมูล

ปัจจุบันมีชุดข้อมูล 274,855 ชุด ดังนั้นคุณจะไม่ขาดข้อมูล

ส่วนต่อประสานที่ใช้งานง่ายของ Kaggle และฟอรัมชุมชนที่กระตือรือร้นทำให้ Kaggle เป็นแหล่งข้อมูลที่ยอดเยี่ยมสำหรับทั้งผู้เริ่มต้นและมืออาชีพ

หากคุณเป็นผู้ที่สนใจการเรียนรู้ของเครื่อง พื้นที่เก็บข้อมูลการเรียนรู้ของเครื่อง UCI ควรเป็นไซต์ที่เข้าชมของคุณ ตามชื่อที่กล่าวไว้ พื้นที่เก็บข้อมูลนี้สร้างขึ้นโดยมหาวิทยาลัยแคลิฟอร์เนีย เออร์ไวน์ (UCI) พวกเขารวบรวมชุดข้อมูลมากมายที่ออกแบบมาเพื่อการเรียนรู้ของเครื่องโดยเฉพาะ เนื่องจากชุดข้อมูลครอบคลุมหัวข้อต่างๆ จึงมีประโยชน์อย่างยิ่ง ชุดข้อมูลเหล่านี้ครอบคลุมหัวข้อที่หลากหลาย และมีประโยชน์อย่างยิ่งสำหรับผู้ที่ต้องการฝึกฝนและพัฒนาทักษะการเรียนรู้ของเครื่อง

ปัจจุบันมีชุดข้อมูล 653 ชุด; คุณสามารถเรียกดูได้ตามประเภทข้อมูล สาขาวิชา งาน จำนวนคุณสมบัติและอินสแตนซ์ และประเภทคุณสมบัติ

StrataScratch มีชุดข้อมูลและโครงการ 49 ชุดที่มาจากบริษัทจริง สิ่งนี้เป็นประโยชน์อย่างยิ่งสำหรับผู้ที่เตรียมตัวสำหรับการสัมภาษณ์ด้านวิทยาศาสตร์ข้อมูล เนื่องจากช่วยให้ผู้ใช้พัฒนาทักษะทางเทคนิคและความสามารถในการรับข้อมูลเชิงลึกทางธุรกิจจากข้อมูล ซึ่งช่วยให้มีแนวทางที่เป็นประโยชน์และเกี่ยวข้องกับอุตสาหกรรมสำหรับโครงการวิทยาศาสตร์ข้อมูล

โครงการครอบคลุมหัวข้อต่างๆ เช่น การสำรวจข้อมูล วิศวกรรมข้อมูล การวิเคราะห์ธุรกิจ การถดถอย การจำแนกประเภท NLP และการจัดกลุ่ม

การค้นหาชุดข้อมูลของ Google เป็นเครื่องมือที่มีวัตถุประสงค์เพื่อค้นหาชุดข้อมูลทั่วทั้งเว็บ คุณรู้วิธีใช้มันแล้ว แม้ว่าคุณจะไม่เคยได้ยินเกี่ยวกับมันมาก่อนจนกระทั่งบัดนี้ ทำไม มีลักษณะและทำงานเหมือนกับการค้นหาโดย Google ทั่วไป เพียงแต่เน้นไปที่การค้นหาชุดข้อมูลเท่านั้น มีประโยชน์อย่างยิ่งหากคุณกำลังมองหาข้อมูลจากแหล่งต่างๆ เอกสารทางวิชาการ และฐานข้อมูลของรัฐบาล

ของ Amazon ชุดข้อมูลสาธารณะ AWS โปรแกรมเป็นอีกเว็บไซต์หนึ่งที่คุณสามารถหาข้อมูลที่เปิดอยู่ได้มากมาย ด้วยชุดข้อมูลที่มีอยู่ในปัจจุบัน 494 ชุด จึงเป็นทรัพยากรอันมีค่าสำหรับนักวิทยาศาสตร์ข้อมูล ชุดข้อมูลที่คุณพบสามารถรวมเข้ากับบริการคลาวด์ของ AWS ได้ สิ่งนี้อาจมีประโยชน์หากโปรเจ็กต์ของคุณต้องการทรัพยากรการประมวลผลเพิ่มเติม 

ช่วงของข้อมูลที่มี ได้แก่ จีโนมิกส์ อุตุนิยมวิทยา และดาราศาสตร์ และอื่นๆ อีกมากมาย

Data.gov เป็นที่เก็บข้อมูลที่ได้รับการสนับสนุนจากรัฐบาลสหรัฐอเมริกาและมีข้อมูลจากองค์กรต่างๆ ของสหรัฐอเมริกา ประกอบด้วยชุดข้อมูล 283,935 ชุดจาก 132 องค์กรในสหรัฐฯ มีข้อมูลที่หลากหลาย เช่น ข้อมูลการเกษตร สาธารณสุข การเงิน การศึกษา ข้อมูลประชากร เศรษฐศาสตร์ และสิ่งแวดล้อม

ชุดข้อมูลมีรูปแบบที่แตกต่างกันเกือบ 50 รูปแบบ โดยรูปแบบที่ได้รับความนิยมมากที่สุด ได้แก่ HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON และ TEXT

FiveThirtyEight โดย ABC News เป็นคลังข้อมูลและโค้ดของบทความและกราฟิก เป็นแหล่งข้อมูลที่สมบูรณ์แบบสำหรับนักข่าวข้อมูลและทุกคนที่สนใจในการเล่าเรื่องเชิงสถิติ หากคุณสนใจที่จะทำโปรเจ็กต์ที่เกี่ยวข้องกับเหตุการณ์ปัจจุบัน การเมือง กีฬา และอื่นๆ นี่คือแหล่งข้อมูลของคุณ 

มีชุดข้อมูลมากกว่า 160 ชุดตั้งแต่ปี 2014 จนถึงปัจจุบัน

พื้นที่ ข้อมูลเปิดของธนาคารโลก นำเสนอชุดข้อมูลที่ครอบคลุมเกี่ยวกับข้อมูลการพัฒนาทั่วโลก ข้อมูลนี้รวมถึงตัวชี้วัดด้านเศรษฐกิจ สิ่งแวดล้อม และสังคมจากประเทศต่างๆ ทั่วโลก หากคุณสนใจหัวข้อการพัฒนาระดับโลกและเศรษฐกิจและสังคม คุณอาจพบข้อมูลที่น่าสนใจมากมายที่นี่

GitHub ไม่ใช่แค่แพลตฟอร์มสำหรับการแชร์โค้ดเท่านั้น นอกจากนี้ยังสามารถใช้เพื่อค้นหาชุดข้อมูลสำหรับโปรเจ็กต์ข้อมูลได้อีกด้วย องค์กรและผู้ใช้แต่ละรายจำนวนมากโฮสต์ชุดข้อมูลของตนบนที่เก็บ GitHub ข้อมูลนี้ครอบคลุมหัวข้อต่างๆ มากมาย ซึ่งมักได้รับการสนับสนุนโดยเอกสารประกอบและโค้ดสำหรับการวิเคราะห์ที่ครอบคลุม

โอเพนเอ็มแอล เป็นแพลตฟอร์มออนไลน์สำหรับการเรียนรู้ของเครื่อง นอกจากนี้ยังหมายถึงการให้คุณเข้าถึงข้อมูลจำนวนมากได้ โดยเฉพาะอย่างยิ่งมีชุดข้อมูลเกือบ 5,400 ชุด ได้รับการออกแบบมาเพื่อการแชร์ จัดระเบียบ และอภิปรายการข้อมูลและผลลัพธ์ของการทดลองแมชชีนเลิร์นนิง OpenML สามารถผสานรวมกับสภาพแวดล้อมการเรียนรู้ของเครื่องยอดนิยมได้ ซึ่งเป็นโบนัสสำหรับการเรียนรู้วิทยาศาสตร์ข้อมูลของคุณ 

พื้นที่ subreddit ชุดข้อมูล เป็นแหล่งข้อมูลที่ขับเคลื่อนโดยชุมชน ผู้คนแชร์ทุกอย่างใน Reddit พวกเขายังแบ่งปันและขอชุดข้อมูลสำหรับโครงการข้อมูลด้วย บางครั้งการค้นหาข้อมูลที่นั่นเป็นเรื่องยาก แต่ไม่ใช่เพราะขาดข้อมูล ในทางตรงกันข้าม! สถานที่นี้เต็มไปด้วยข้อมูล ซึ่งทำให้การค้นหาข้อมูลค่อนข้างวุ่นวายในบางครั้ง ข้อมูลมีตั้งแต่ชุดข้อมูลที่มีความเฉพาะเจาะจงสูงและผิดปกติไปจนถึงชุดข้อมูลแบบดั้งเดิม เนื่องจากโดยพื้นฐานแล้วนี่คือฟอรัม คุณจึงสามารถมีส่วนร่วมในการสนทนาและขอความช่วยเหลือเกี่ยวกับชุดข้อมูลได้ 

สำนักงานสถิติแห่งสหภาพยุโรปเรียกว่า Eurostatและเป็นแหล่งข้อมูลที่ครอบคลุม หากคุณสนใจข้อมูลทางสถิติคุณภาพสูงเกี่ยวกับประเทศสมาชิกสหภาพยุโรป นี่ควรเป็นแหล่งข้อมูลหลักของคุณ ข้อมูลของประเทศในสหภาพยุโรปประกอบด้วยหัวข้อต่างๆ เช่น เศรษฐกิจ ประชากร สุขภาพ และการค้า

HDX เป็นแพลตฟอร์มแบบเปิดที่คุณสามารถค้นหาข้อมูลด้านมนุษยธรรม บริหารจัดการโดยสำนักงานเพื่อการประสานงานกิจการด้านมนุษยธรรมแห่งสหประชาชาติ แพลตฟอร์มนี้ให้ข้อมูลที่เกี่ยวข้องกับวิกฤตการณ์ด้านมนุษยธรรมและเหตุฉุกเฉินในทุกประเทศทั่วโลก คุณจะพบว่าสิ่งนี้มีประโยชน์หากคุณเข้าร่วมโครงการที่มุ่งเน้นประเด็นระดับโลก การตอบสนองต่อภัยพิบัติ และสวัสดิภาพของมนุษย์

มีชุดข้อมูลที่ใช้งานอยู่ 20,344 ชุดและชุดข้อมูลที่เก็บถาวร 2,570 ชุดพร้อมคุณสมบัติและรูปแบบที่หลากหลาย

เกี่ยวกับ CDCคุณสามารถค้นหาข้อมูลที่เกี่ยวข้องกับสุขภาพได้ ชุดข้อมูลมุ่งเน้นไปที่สภาวะสุขภาพ ปัจจัยเสี่ยง และการสาธารณสุขต่างๆ ดังนั้น หากหัวข้อเหล่านี้เป็นหัวข้อที่คุณสนใจ คุณจะพบข้อมูลที่เป็นประโยชน์มากมายที่นี่

พื้นที่ BLS เว็บไซต์มีข้อมูลมากมายเกี่ยวกับภาวะเศรษฐกิจสหรัฐฯ ตลาดแรงงาน การเปลี่ยนแปลงราคา คุณภาพชีวิต ฯลฯ คุณจะพบชุดข้อมูลที่มีคุณภาพมากมายหากคุณสนใจหัวข้อเหล่านั้น 

แหล่งข้อมูลสุดท้ายที่ฉันจะพูดถึงคือ นาซา. มีข้อมูลมากมายเกี่ยวกับการบินและอวกาศ วิทยาศาสตร์ประยุกต์ แอพ วิทยาศาสตร์โลก การจัดการ/ปฏิบัติการ ข้อมูลดิบ ซอฟต์แวร์ และวิทยาศาสตร์อวกาศ

มีชุดข้อมูลมากกว่า 10,000 ชุด ดังนั้นอย่าหลงไปกับจักรวาลแห่งข้อมูล!

ฉันมั่นใจว่าเว็บไซต์ทั้ง 16 แห่งนี้จะให้ข้อมูลเพียงพอแก่คุณในการทำงานจนกว่าจะสิ้นสุดเวลา ซึ่งเป็นเป้าหมายของฉันอย่างแน่นอน! อย่างไรก็ตาม ปริมาณข้อมูลไม่ใช่ทุกอย่าง

ฉันเลือกไซต์เหล่านี้เนื่องจากจะมอบชุดข้อมูลที่หลากหลายซึ่งเหมาะสำหรับโครงการวิทยาศาสตร์ข้อมูลที่หลากหลาย ข้อมูลเฉพาะของชุดข้อมูลแตกต่างกันไปในแต่ละอุตสาหกรรม ดังนั้นการทำงานกับชุดข้อมูลต่างๆ ยังช่วยให้คุณได้รับความรู้เกี่ยวกับโดเมนอีกด้วย

ไม่ว่าคุณจะเจาะลึกเกี่ยวกับแมชชีนเลิร์นนิง การวิเคราะห์ข้อมูล การทำข่าวด้วยข้อมูล การวิเคราะห์ทางสถิติ หรือการแสดงภาพข้อมูล คุณก็สามารถวางใจในทรัพยากรเหล่านี้ได้เสมอ

ตอนนี้คุณสามารถทำโครงงานวิทยาศาสตร์ข้อมูลของคุณเองได้แล้ว! หากคุณต้องการแนวคิดเพิ่มเติม นี่คือบางส่วน โครงการวิทยาศาสตร์ข้อมูล คุณสามารถทำได้ในฐานะผู้เริ่มต้น
 
 

เนท โรซิดิ เป็นนักวิทยาศาสตร์ข้อมูลและในกลยุทธ์ผลิตภัณฑ์ เขายังเป็นผู้ช่วยศาสตราจารย์สอนการวิเคราะห์และเป็นผู้ก่อตั้ง StrataScratchซึ่งเป็นแพลตฟอร์มที่ช่วยให้นักวิทยาศาสตร์ด้านข้อมูลเตรียมพร้อมสำหรับการสัมภาษณ์ด้วยคำถามสัมภาษณ์จริงจากบริษัทชั้นนำ เชื่อมต่อกับเขาที่ ทวิตเตอร์: StrataScratch or LinkedIn.

ประทับเวลา:

เพิ่มเติมจาก KD นักเก็ต

KDnuggets™ News 21:n17, 5 พฤษภาคม: Charticulator: Microsoft Research โอเพ่นซอร์สที่เปลี่ยนเกม Data Visualization platform; วิทยาศาสตร์ข้อมูลเพื่อทำนายและป้องกันปัญหาในโลกแห่งความเป็นจริง

โหนดต้นทาง: 841122
ประทับเวลา: May 5, 2021