16 Sumber Data Teknis Teratas untuk Proyek Sains Data Tingkat Lanjut - KDnuggets

16 Sumber Data Teknis Teratas untuk Proyek Sains Data Tingkat Lanjut – KDnuggets

Node Sumber: 3081921

16 Sumber Data Teknis Teratas untuk Proyek Ilmu Data Tingkat Lanjut
Gambar oleh Penulis
 

Anda telah membaca di halaman ini (dan saya bersalah karena menulis beberapa artikel tersebut) bahwa proyek ilmu data sangat penting untuk mengembangkan keseluruhan paket keterampilan ilmu data teknis. Itu benar, memang benar. Namun yang juga penting adalah memiliki kumpulan data berkualitas tinggi untuk proyek ilmu data Anda. Mengumpulkan data berkualitas itu adil salah satu tahapan proyek ilmu data, tapi yang bisa membuat atau menghancurkannya.

Pertanyaannya adalah, di mana menemukan data yang sangat buruk ini? Untungnya, banyak situs web yang menawarkan banyak data untuk berbagai tujuan.

 

16 Sumber Data Teknis Teratas untuk Proyek Ilmu Data Tingkat Lanjut
Gambar oleh Penulis

Anda mendengar tentang Kaggle, mungkin platform paling terkenal di komunitas ilmu data. Ini menampung beragam kumpulan data dalam berbagai format (CSV, JSON, SQLite, BigQuery) dan dari berbagai industri dan topik, seperti kesehatan, otomotif, seni & hiburan, biologi, ilmu sosial, investasi, jejaring sosial, olahraga, dan sebagainya pada. Anda juga dapat mencari kumpulan data bergantung pada fokus teknisnya, misalnya ilmu komputer, klasifikasi, visi komputer, NLP, atau visualisasi data.

Saat ini terdapat 274,855 dataset yang tersedia, sehingga Anda tidak akan kekurangan data.

Antarmuka Kaggle yang ramah pengguna dan forum komunitas yang aktif menjadikannya sumber yang bagus untuk pemula dan profesional.

Jika Anda penggemar pembelajaran mesin, Repositori Pembelajaran Mesin UCI harus menjadi situs tujuan Anda. Sesuai dengan namanya, repositori ini dibuat oleh University of California, Irvine (UCI). Mereka mengumpulkan banyak kumpulan data yang disesuaikan untuk pembelajaran mesin. Karena kumpulan data mencakup berbagai topik, maka kumpulan data ini sangat berguna. Kumpulan data ini mencakup berbagai topik dan sangat berguna bagi mereka yang ingin berlatih dan meningkatkan keterampilan pembelajaran mesin.

Saat ini terdapat 653 kumpulan data; Anda dapat menelusurinya berdasarkan tipe data, bidang subjek, tugas, jumlah fitur & instance, dan tipe fitur.

Goresan Strata menyediakan 49 kumpulan data dan proyek yang bersumber dari perusahaan sebenarnya. Hal ini sangat bermanfaat bagi mereka yang mempersiapkan wawancara ilmu data, karena membantu pengguna mengembangkan keterampilan teknis dan kemampuan untuk memperoleh wawasan bisnis dari data. Hal ini memungkinkan adanya pendekatan praktis dan relevan dengan industri terhadap proyek ilmu data.

Proyek-proyek tersebut mencakup berbagai topik, seperti eksplorasi data, rekayasa data, analisis bisnis, regresi, klasifikasi, NLP, dan clustering.

Pencarian Kumpulan Data Google adalah alat yang tujuannya adalah menemukan kumpulan data di seluruh web. Anda sudah tahu cara menggunakannya, meskipun Anda belum pernah mendengarnya sampai sekarang. Mengapa? Yah, tampilannya dan berfungsi seperti pencarian Google biasa, hanya saja berfokus secara eksklusif pada pencarian kumpulan data. Ini sangat berguna jika Anda mencari data dari berbagai sumber, makalah akademis, dan database pemerintah.

Amazon Kumpulan Data Publik AWS program adalah situs lain di mana Anda dapat menemukan banyak data terbuka. Dengan 494 kumpulan data yang tersedia saat ini, ini merupakan sumber daya yang berharga bagi para ilmuwan data. Kumpulan data yang Anda temukan di sana dapat diintegrasikan dengan layanan cloud AWS. Ini mungkin berguna jika proyek Anda memerlukan lebih banyak sumber daya komputasi. 

Kisaran data yang tersedia antara lain mencakup genomik, meteorologi, dan astronomi.

Data.gov adalah gudang data yang disponsori oleh pemerintah AS dan berisi data dari berbagai organisasi AS. Ini mencakup 283,935 kumpulan data dari 132 organisasi AS. Ada beragam data, seperti data pertanian, kesehatan masyarakat, keuangan, pendidikan, demografi, ekonomi, dan lingkungan.

Kumpulan data hadir dalam hampir 50 format berbeda, dengan yang paling populer termasuk HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON, dan TEXT.

FiveThirtyEight oleh ABC News adalah tempat penyimpanan data dan kode artikel dan grafik mereka. Ini adalah sumber daya yang sempurna untuk jurnalis data dan siapa pun yang tertarik dengan penceritaan statistik. Jika Anda tertarik melakukan proyek yang melibatkan peristiwa terkini, politik, olahraga, dan banyak lagi, ini adalah sumber Anda. 

Ia menawarkan lebih dari 160 kumpulan data dari tahun 2014 hingga saat ini.

Grafik Data Terbuka Bank Dunia menawarkan kumpulan data ekstensif seputar data pembangunan global. Data ini mencakup indikator-indikator mengenai isu-isu ekonomi, lingkungan, dan sosial dari negara-negara di seluruh dunia. Jika Anda tertarik dengan topik pembangunan global dan sosio-ekonomi, Anda mungkin menemukan banyak data menarik di sini.

GitHub bukan hanya platform untuk berbagi kode. Ini juga dapat digunakan untuk menemukan kumpulan data untuk proyek data. Banyak organisasi dan pengguna individu menghosting kumpulan data mereka di repositori GitHub. Data ini mencakup berbagai topik, sering kali didukung oleh dokumentasi dan kode ekstensif untuk analisis.

BukaML adalah platform online untuk pembelajaran mesin. Ini juga berarti memberi Anda akses ke banyak data. Lebih khusus lagi, hampir 5,400 kumpulan data. Ini dirancang untuk berbagi, mengatur, dan mendiskusikan data dan hasil eksperimen pembelajaran mesin. OpenML dapat diintegrasikan dengan lingkungan pembelajaran mesin populer, yang merupakan bonus untuk pembelajaran ilmu data Anda. 

Grafik Subreddit kumpulan data adalah sumber data berbasis komunitas. Orang-orang membagikan segalanya di reddit. Ya, mereka juga membagikan dan meminta kumpulan data untuk proyek data. Terkadang sulit mencari data di sana. Namun bukan karena kurangnya data. Di sisi lain! Tempatnya penuh dengan data, yang terkadang membuat pencarian data menjadi kacau balau. Datanya berkisar dari kumpulan data yang sangat spesifik dan tidak biasa hingga yang lebih tradisional. Karena ini pada dasarnya adalah sebuah forum, Anda juga dapat berpartisipasi dalam diskusi dan meminta bantuan terkait kumpulan data. 

Kantor statistik Uni Eropa disebut Eurostat, dan ini merupakan sumber data yang komprehensif. Jika Anda tertarik dengan data statistik berkualitas tinggi tentang negara-negara anggota UE, ini harus menjadi sumber data utama Anda. Data negara-negara UE mencakup topik-topik seperti ekonomi, populasi, kesehatan, dan perdagangan.

HDX adalah platform terbuka tempat Anda dapat menemukan data kemanusiaan. Ini dikelola oleh Kantor PBB untuk Koordinasi Urusan Kemanusiaan. Platform ini menyediakan data seputar krisis kemanusiaan dan keadaan darurat di setiap negara di dunia. Anda mungkin merasakan manfaatnya jika Anda terlibat dalam proyek yang berfokus pada isu-isu global, tanggap bencana, dan kesejahteraan manusia.

Terdapat 20,344 data aktif dan 2,570 data arsip dengan berbagai fitur dan format.

pada CDC, Anda dapat menemukan data terkait kesehatan. Kumpulan data difokuskan pada berbagai kondisi kesehatan, faktor risiko, dan kesehatan masyarakat. Jadi, jika topik ini yang Anda minati, Anda akan menemukan banyak data berguna di sini.

Grafik BLS situs ini memiliki banyak data tentang kondisi ekonomi AS, pasar tenaga kerja, perubahan harga, kualitas hidup, dll. Anda akan menemukan banyak kumpulan data berkualitas jika Anda menyukai topik tersebut. 

Sumber data terakhir yang akan saya sebutkan adalah NASA. Ada banyak data tentang ruang angkasa, ilmu terapan, aplikasi, ilmu kebumian, manajemen/operasi, data mentah, perangkat lunak, dan ilmu luar angkasa.

Ia memiliki lebih dari 10,000 kumpulan data, jadi jangan sampai tersesat dalam dunia datanya!

Saya yakin, 16 situs web ini akan memberi Anda cukup data untuk digunakan hingga akhir zaman, dan itulah tujuan saya! Namun, jumlah data bukanlah segalanya.

Saya memilih situs-situs ini karena mereka akan memberi Anda beragam kumpulan data yang cocok untuk berbagai proyek ilmu data. Spesifik kumpulan data berbeda dari satu industri ke industri lainnya. Jadi, bekerja dengan berbagai kumpulan data juga memungkinkan Anda memperoleh pengetahuan domain.

Baik Anda mempelajari pembelajaran mesin, analisis data, jurnalisme data, analisis statistik, atau visualisasi data, Anda selalu dapat mengandalkan sumber daya ini.

Sekarang, Anda dapat mengerjakan proyek ilmu data Anda sendiri! Jika Anda membutuhkan lebih banyak ide, berikut beberapa proyek ilmu data bisa Anda lakukan sebagai pemula.
 
 

Nat Rosidi adalah seorang ilmuwan data dan dalam strategi produk. Dia juga seorang profesor yang mengajar analitik, dan merupakan pendiri Goresan Strata, sebuah platform yang membantu ilmuwan data mempersiapkan wawancara mereka dengan pertanyaan wawancara nyata dari perusahaan terkemuka. Terhubung dengan dia di Twitter: StrataScratch or LinkedIn.

Stempel Waktu:

Lebih dari KDnugget