İleri Veri Bilimi Projeleri için En İyi 16 Teknik Veri Kaynağı - KDnuggets

İleri Veri Bilimi Projeleri için En İyi 16 Teknik Veri Kaynağı – KDnuggets

Kaynak Düğüm: 3081921

İleri Veri Bilimi Projeleri için En İyi 16 Teknik Veri Kaynağı
Yazara göre resim
 

Bu sayfalarda veri bilimi projelerinin tüm teknik veri bilimi becerileri paketini geliştirmek için çok önemli olduğunu okudunuz (ve bu makalelerden bazılarını yazdığım için suçluyum). Bu doğru, öyleler. Ancak aynı zamanda hayati önem taşıyan şey, veri bilimi projeleriniz için yüksek kaliteli veri kümelerine sahip olmaktır. Kaliteli veri toplamak sadece veri bilimi projesinin aşamalarından biriama onu başarabilecek ya da bozabilecek olan.

Soru şu; bu kahrolası veriyi nerede bulabiliriz? Neyse ki çok sayıda web sitesi çeşitli amaçlar için zengin miktarda veri sunuyor.

 

İleri Veri Bilimi Projeleri için En İyi 16 Teknik Veri Kaynağı
Yazara göre resim

hakkında bir şeyler duydun Kagglemuhtemelen veri bilimi topluluğunun en bilinen platformudur. Çeşitli formatlarda (CSV, JSON, SQLite, BigQuery) ve sağlık, otomotiv, sanat ve eğlence, biyoloji, sosyal bilimler, yatırım, sosyal ağlar, spor vb. gibi birçok sektör ve konudan çok çeşitli veri kümelerini barındırır. Açık. Bilgisayar bilimi, sınıflandırma, bilgisayarlı görme, NLP veya veri görselleştirme gibi teknik odak noktalarına bağlı olarak veri kümelerini de arayabilirsiniz.

Şu anda 274,855 veri seti mevcut olduğundan veri eksikliği yaşamayacaksınız.

Kaggle'ın kullanıcı dostu arayüzü ve aktif topluluk forumları, onu hem yeni başlayanlar hem de profesyoneller için mükemmel bir kaynak haline getiriyor.

Makine öğrenimi meraklısıysanız, UCI Makine Öğrenimi Havuzu gideceğiniz site olmalı. Adından da anlaşılacağı gibi bu depo Irvine'deki California Üniversitesi (UCI) tarafından oluşturulmuştur. Makine öğrenimi için özel olarak tasarlanmış geniş bir veri kümesi koleksiyonu topladılar. Veri kümeleri çeşitli konuları kapsadığından özellikle faydalıdır. Bu veri kümeleri çok çeşitli konuları kapsar ve makine öğrenimi becerilerini geliştirmek ve pratik yapmak isteyenler için özellikle faydalıdır.

Şu anda 653 veri seti bulunmaktadır; bunlara veri türüne, konu alanına, göreve, özellik ve örnek sayısına ve özellik türüne göre göz atabilirsiniz.

StrataScratch Gerçek şirketlerden alınan 49 veri seti ve proje sağlar. Bu, kullanıcıların teknik becerilerini ve verilerden iş öngörüleri elde etme becerilerini geliştirmelerine yardımcı olduğundan, veri bilimi görüşmelerine hazırlananlar için özellikle faydalıdır. Bu, veri bilimi projelerine pratik ve sektörle ilgili bir yaklaşım sağlar.

Projeler veri araştırması, veri mühendisliği, iş analizi, regresyon, sınıflandırma, NLP ve kümeleme gibi çeşitli konuları kapsamaktadır.

Google Veri Kümesi Araması amacı web'deki veri kümelerini bulmak olan bir araçtır. Şimdiye kadar hiç duymamış olsanız bile, onu nasıl kullanacağınızı zaten biliyorsunuz. Neden? Normal bir Google araması gibi görünüyor ve çalışıyor, yalnızca yalnızca veri kümelerini bulmaya odaklanıyor. Çeşitli kaynaklardan, akademik makalelerden ve devlet veritabanlarından veri arıyorsanız son derece kullanışlıdır.

Amazon'un AWS Genel Veri Kümeleri programı, birçok açık veriyi bulabileceğiniz başka bir sitedir. Şu anda mevcut olan 494 veri kümesiyle veri bilimcileri için değerli bir kaynaktır. Burada bulduğunuz veri kümeleri AWS bulut hizmetleriyle entegre edilebilir. Projeleriniz daha fazla bilgi işlem kaynağı gerektiriyorsa bu yararlı olabilir. 

Mevcut veri aralığı, diğerlerinin yanı sıra genomik, meteoroloji ve astronomiyi içerir.

Data.gov ABD hükümeti tarafından desteklenen bir veri deposudur ve çeşitli ABD kuruluşlarından veriler içerir. 283,935 ABD kuruluşundan 132 veri kümesi içerir. Tarım, halk sağlığı, finans, eğitim, demografi, ekonomi ve çevresel veriler gibi çok çeşitli veriler var.

Veri kümeleri neredeyse 50 farklı formatta gelir; en popülerleri HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON ve TEXT'tir.

FiveThirtyEight ABC News'in makale ve grafik verileri ve kod deposudur. Veri gazetecileri ve istatistiksel hikaye anlatımıyla ilgilenen herkes için mükemmel bir kaynaktır. Güncel olayları, siyaseti, sporu ve daha fazlasını içeren projeler yapmakla ilgileniyorsanız, bu sizin kaynağınızdır. 

160 yılından bugüne 2014'tan fazla veri seti sunmaktadır.

The Dünya Bankası Açık Verileri küresel geliştirme verileri etrafında dönen kapsamlı veri kümeleri sunar. Bu veriler, dünya çapındaki ülkelerden ekonomi, çevre ve sosyal konulara ilişkin göstergeleri içerir. Küresel kalkınma ve sosyo-ekonomik konularla ilgileniyorsanız burada pek çok ilginç veri bulabilirsiniz.

GitHub yalnızca kod paylaşımı için bir platform değildir. Ayrıca veri projelerine yönelik veri kümelerini bulmak için de kullanılabilir. Pek çok kuruluş ve bireysel kullanıcı, veri kümelerini GitHub depolarında barındırıyor. Bu veriler, genellikle kapsamlı belgeler ve analiz kodlarıyla desteklenen çok çeşitli konuları kapsar.

OpenML makine öğrenimi için çevrimiçi bir platformdur. Bu aynı zamanda birçok veriye erişmenizi sağlamak anlamına da gelir. Daha spesifik olarak, neredeyse 5,400 veri kümesi. Makine öğrenimi deneylerinin verilerini ve sonuçlarını paylaşmak, düzenlemek ve tartışmak için tasarlanmıştır. OpenML, popüler makine öğrenimi ortamlarıyla entegre edilebilir; bu, veri bilimi öğreniminiz için bir avantajdır. 

The Veri kümeleri alt düzenlemesi topluluk odaklı bir veri kaynağıdır. İnsanlar reddit'te her şeyi paylaşıyor. Ayrıca veri projeleri için veri kümelerini paylaşıyor ve talep ediyorlar. Bazen orada veri bulmak zordur. Ancak veri eksikliğinden dolayı değil. Aksine! Bu yer verilerle dolup taşıyor ve bu da bazen veri aramayı oldukça kaotik hale getiriyor. Veriler oldukça spesifik ve olağandışı olanlardan daha geleneksel veri kümelerine kadar değişmektedir. Bu temelde bir forum olduğundan tartışmalara katılabilir ve veri kümeleriyle ilgili yardım isteyebilirsiniz. 

Avrupa Birliği istatistik ofisinin adı Eurostatve kapsamlı bir veri kaynağıdır. AB üye ülkeleri hakkında yüksek kaliteli istatistiksel verilerle ilgileniyorsanız, bu ana veri kaynağınız olmalıdır. AB ülkelerine ilişkin veriler ekonomi, nüfus, sağlık, ticaret gibi konuları içeriyor.

HDX insani verilere ulaşabileceğiniz açık bir platformdur. Birleşmiş Milletler İnsani İşler Koordinasyon Ofisi tarafından yönetilmektedir. Bu platform, dünyanın her ülkesindeki insani krizler ve acil durumlara ilişkin veriler sağlar. Küresel sorunlara, afetlere müdahaleye ve insan refahına odaklanan projelerle ilgileniyorsanız bunu faydalı bulabilirsiniz.

Çeşitli özellik ve formatlarda 20,344 aktif ve 2,570 arşivlenmiş veri seti bulunmaktadır.

Üzerinde CDC), sağlıkla ilgili verileri bulabilirsiniz. Veri kümeleri çeşitli sağlık koşullarına, risk faktörlerine ve halk sağlığına odaklanmaktadır. Yani eğer ilgilendiğiniz konular bunlarsa burada pek çok yararlı veri bulacaksınız.

The BLS sitede ABD'nin ekonomik koşulları, işgücü piyasası, fiyat değişiklikleri, yaşam kalitesi vb. hakkında birçok veri bulunmaktadır. Bu konulara ilginiz varsa çok sayıda kaliteli veri seti bulacaksınız. 

Bahsettiğim son veri kaynağı NASA. Havacılık, uygulamalı bilim, uygulamalar, Yer bilimleri, yönetim/operasyonlar, ham veriler, yazılım ve uzay bilimi hakkında çok sayıda veri var.

10,000'den fazla veri kümesi vardır, bu nedenle veri evreninde kaybolmayın!

Eminim ki bu 16 web sitesi size kıyamete kadar üzerinde çalışabileceğiniz yeterli veriyi verecektir, ki benim amacım da tam olarak buydu! Ancak veri miktarı her şey değildir.

Bu siteleri size çeşitli veri bilimi projelerine uygun çok çeşitli veri kümeleri sağlayacakları için seçtim. Veri kümesi özellikleri sektörden sektöre farklılık gösterir. Dolayısıyla çeşitli veri kümeleriyle çalışmak aynı zamanda alan bilgisi kazanmanıza da olanak tanır.

İster makine öğrenimi, veri analizi, veri gazeteciliği, istatistiksel analiz veya veri görselleştirme konularıyla ilgileniyor olun, bu kaynaklara her zaman güvenebilirsiniz.

Artık kendi veri bilimi projenizi yapabilirsiniz! Daha fazla fikre ihtiyacınız varsa işte bunlardan bazıları veri bilimi projeleri yeni başlayan biri olarak yapabilirsiniz.
 
 

Nate Rosidi bir veri bilimcisi ve ürün stratejisidir. Aynı zamanda analitik öğreten bir yardımcı profesördür ve kurucusudur. StrataScratch, veri bilimcilerinin en iyi şirketlerden gelen gerçek röportaj sorularıyla röportajlarına hazırlanmalarına yardımcı olan bir platform. onunla bağlantı kurun Twitter: StrataScratch or LinkedIn.

Zaman Damgası:

Den fazla KDNuggets