16 nguồn dữ liệu kỹ thuật hàng đầu cho các dự án khoa học dữ liệu nâng cao - KDnuggets

16 nguồn dữ liệu kỹ thuật hàng đầu cho các dự án khoa học dữ liệu nâng cao – KDnuggets

Nút nguồn: 3081921

16 nguồn dữ liệu kỹ thuật hàng đầu cho các dự án khoa học dữ liệu nâng cao
Hình ảnh của Tác giả
 

Bạn đã đọc trên những trang này (và tôi thật có lỗi khi viết một số bài báo đó) rằng các dự án khoa học dữ liệu rất quan trọng để phát triển toàn bộ gói kỹ năng khoa học dữ liệu kỹ thuật. Đúng vậy, đúng vậy. Nhưng điều quan trọng nữa là có bộ dữ liệu chất lượng cao cho các dự án khoa học dữ liệu của bạn. Việc thu thập dữ liệu có chất lượng chỉ là một trong những giai đoạn của dự án khoa học dữ liệu, nhưng là thứ có thể tạo nên hoặc phá vỡ nó.

Câu hỏi là, tìm dữ liệu đáng kinh ngạc này ở đâu? May mắn thay, nhiều trang web đang cung cấp rất nhiều dữ liệu cho nhiều mục đích khác nhau.

 

16 nguồn dữ liệu kỹ thuật hàng đầu cho các dự án khoa học dữ liệu nâng cao
Hình ảnh của Tác giả

Bạn đã nghe về Kaggle, có lẽ là nền tảng nổi tiếng nhất trong cộng đồng khoa học dữ liệu. Nó lưu trữ một loạt các bộ dữ liệu ở nhiều định dạng khác nhau (CSV, JSON, SQLite, BigQuery) và từ nhiều ngành và chủ đề, như sức khỏe, ô tô, nghệ thuật & giải trí, sinh học, khoa học xã hội, đầu tư, mạng xã hội, thể thao, v.v. TRÊN. Bạn cũng có thể tìm kiếm các tập dữ liệu tùy thuộc vào trọng tâm kỹ thuật của chúng, ví dụ: khoa học máy tính, phân loại, thị giác máy tính, NLP hoặc trực quan hóa dữ liệu.

Hiện tại có sẵn 274,855 bộ dữ liệu nên bạn sẽ không bị thiếu dữ liệu.

Giao diện thân thiện với người dùng và các diễn đàn cộng đồng tích cực của Kaggle khiến nó trở thành một nguồn tài nguyên tuyệt vời cho cả người mới bắt đầu và các chuyên gia.

Nếu bạn là người đam mê học máy, Kho lưu trữ máy học UCI nên là trang web bạn truy cập . Đúng như tên gọi, kho lưu trữ này được tạo ra bởi Đại học California, Irvine (UCI). Họ đã thu thập một bộ sưu tập dữ liệu phong phú được thiết kế riêng cho máy học. Vì các bộ dữ liệu bao gồm nhiều chủ đề khác nhau nên chúng đặc biệt hữu ích. Các bộ dữ liệu này bao gồm nhiều chủ đề và đặc biệt hữu ích cho những ai muốn thực hành và cải thiện kỹ năng học máy của mình.

Hiện có 653 bộ dữ liệu; bạn có thể duyệt chúng theo loại dữ liệu, lĩnh vực chủ đề, nhiệm vụ, số lượng tính năng & phiên bản cũng như loại tính năng.

StrataScratch cung cấp 49 bộ dữ liệu và dự án có nguồn gốc từ các công ty thực tế. Điều này đặc biệt có lợi cho những người chuẩn bị cho các cuộc phỏng vấn khoa học dữ liệu, vì nó giúp người dùng phát triển các kỹ năng kỹ thuật và khả năng rút ra những hiểu biết sâu sắc về kinh doanh từ dữ liệu. Điều này cho phép áp dụng cách tiếp cận thực tế và phù hợp với ngành đối với các dự án khoa học dữ liệu.

Các dự án bao gồm nhiều chủ đề khác nhau, chẳng hạn như khám phá dữ liệu, kỹ thuật dữ liệu, phân tích kinh doanh, hồi quy, phân loại, NLP và phân cụm.

Tìm kiếm tập dữ liệu của Google là một công cụ có mục đích là tìm các tập dữ liệu trên web. Bạn đã biết cách sử dụng nó, ngay cả khi bạn chưa bao giờ nghe nói về nó cho đến bây giờ. Tại sao? Chà, nó trông và hoạt động giống như một tìm kiếm thông thường của Google, chỉ có điều nó tập trung hoàn toàn vào việc tìm kiếm các tập dữ liệu. Nó cực kỳ hữu ích nếu bạn đang tìm kiếm dữ liệu từ nhiều nguồn, tài liệu học thuật và cơ sở dữ liệu của chính phủ.

Của Amazon Bộ dữ liệu công cộng AWS chương trình là một trang khác nơi bạn có thể tìm thấy nhiều dữ liệu mở. Với 494 bộ dữ liệu hiện có, đây là nguồn tài nguyên quý giá cho các nhà khoa học dữ liệu. Các tập dữ liệu bạn tìm thấy ở đó có thể được tích hợp với các dịch vụ đám mây AWS. Điều này có thể hữu ích nếu dự án của bạn yêu cầu nhiều tài nguyên máy tính hơn. 

Phạm vi dữ liệu có sẵn bao gồm gen, khí tượng học và thiên văn học, cùng nhiều dữ liệu khác.

Dữ liệu là kho lưu trữ dữ liệu được chính phủ Hoa Kỳ tài trợ và chứa dữ liệu từ nhiều tổ chức khác nhau của Hoa Kỳ. Nó bao gồm 283,935 bộ dữ liệu từ 132 tổ chức của Hoa Kỳ. Có rất nhiều dữ liệu, chẳng hạn như nông nghiệp, y tế công cộng, tài chính, giáo dục, nhân khẩu học, kinh tế và dữ liệu môi trường.

Các bộ dữ liệu có gần 50 định dạng khác nhau, trong đó phổ biến nhất bao gồm HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON và TEXT.

FiveThirtyEight của ABC News là kho lưu trữ mã và dữ liệu bài viết cũng như đồ họa của họ. Đó là một nguồn tài nguyên hoàn hảo cho các nhà báo dữ liệu và bất kỳ ai quan tâm đến việc kể chuyện thống kê. Nếu bạn quan tâm đến việc thực hiện các dự án liên quan đến các sự kiện thời sự, chính trị, thể thao, v.v. thì đây là nguồn thông tin dành cho bạn. 

Nó cung cấp hơn 160 bộ dữ liệu từ năm 2014 cho đến ngày nay.

Sản phẩm Dữ liệu mở của Ngân hàng Thế giới cung cấp các bộ dữ liệu mở rộng xoay quanh dữ liệu phát triển toàn cầu. Dữ liệu này bao gồm các chỉ số về kinh tế, môi trường và các vấn đề xã hội từ các quốc gia trên thế giới. Nếu quan tâm đến các chủ đề phát triển toàn cầu và kinh tế xã hội, bạn có thể tìm thấy nhiều dữ liệu thú vị ở đây.

GitHub không chỉ là một nền tảng để chia sẻ mã. Nó cũng có thể được sử dụng để tìm bộ dữ liệu cho các dự án dữ liệu. Rất nhiều tổ chức và người dùng cá nhân lưu trữ bộ dữ liệu của họ trên kho GitHub. Dữ liệu này bao gồm nhiều chủ đề, thường được hỗ trợ bởi tài liệu và mã mở rộng để phân tích.

OpenML là một nền tảng trực tuyến cho máy học. Điều này cũng có nghĩa là cho phép bạn truy cập vào rất nhiều dữ liệu. Cụ thể hơn, gần 5,400 bộ dữ liệu. Nó được thiết kế để chia sẻ, sắp xếp và thảo luận về dữ liệu cũng như kết quả của các thí nghiệm học máy. OpenML có thể được tích hợp với các môi trường học máy phổ biến, đây là một phần thưởng cho việc học khoa học dữ liệu của bạn. 

Sản phẩm Subreddit bộ dữ liệu là nguồn dữ liệu hướng tới cộng đồng. Mọi người chia sẻ mọi thứ trên reddit. Vâng, họ cũng chia sẻ và yêu cầu bộ dữ liệu cho các dự án dữ liệu. Đôi khi rất khó để tìm thấy dữ liệu ở đó. Nhưng không phải vì thiếu dữ liệu. Ngược lại! Nơi này chứa đầy dữ liệu, điều này đôi khi có thể khiến việc tìm kiếm dữ liệu trở nên khá hỗn loạn. Dữ liệu trải dài từ các bộ dữ liệu rất cụ thể và khác thường đến các bộ dữ liệu truyền thống hơn. Vì về cơ bản đây là một diễn đàn nên bạn cũng có thể tham gia thảo luận và yêu cầu hỗ trợ về bộ dữ liệu. 

Cơ quan thống kê của Liên minh châu Âu được gọi là Eurostatvà đó là một nguồn dữ liệu toàn diện. Nếu bạn quan tâm đến dữ liệu thống kê chất lượng cao về các quốc gia thành viên EU thì đây sẽ là nguồn dữ liệu chính của bạn. Dữ liệu về các nước EU bao gồm các chủ đề như kinh tế, dân số, y tế và thương mại.

HĐX là một nền tảng mở nơi bạn có thể tìm thấy dữ liệu nhân đạo. Nó được quản lý bởi Văn phòng Điều phối các vấn đề nhân đạo của Liên hợp quốc. Nền tảng này cung cấp dữ liệu xoay quanh các cuộc khủng hoảng nhân đạo và tình trạng khẩn cấp ở mọi quốc gia trên thế giới. Bạn có thể thấy điều này hữu ích nếu bạn tham gia vào các dự án tập trung vào các vấn đề toàn cầu, ứng phó thảm họa và phúc lợi con người.

Có 20,344 bộ dữ liệu đang hoạt động và 2,570 bộ dữ liệu được lưu trữ với nhiều tính năng và định dạng khác nhau.

trên CDC, bạn có thể tìm thấy dữ liệu liên quan đến sức khỏe. Các bộ dữ liệu tập trung vào các tình trạng sức khỏe khác nhau, các yếu tố nguy cơ và sức khỏe cộng đồng. Vì vậy, nếu đây là những chủ đề bạn quan tâm thì bạn sẽ tìm thấy rất nhiều dữ liệu hữu ích ở đây.

Sản phẩm BLS trang web có nhiều dữ liệu về điều kiện kinh tế, thị trường lao động, thay đổi giá cả, chất lượng cuộc sống của Hoa Kỳ, v.v. Bạn sẽ tìm thấy nhiều bộ dữ liệu chất lượng nếu bạn quan tâm đến những chủ đề đó. 

Nguồn dữ liệu cuối cùng tôi sẽ đề cập là NASA. Có rất nhiều dữ liệu về hàng không vũ trụ, khoa học ứng dụng, ứng dụng, khoa học Trái đất, quản lý/vận hành, dữ liệu thô, phần mềm và khoa học vũ trụ.

Nó có hơn 10,000 bộ dữ liệu, vì vậy đừng để bị lạc trong vũ trụ dữ liệu của nó!

Tôi chắc chắn rằng 16 trang web này sẽ cung cấp cho bạn đủ dữ liệu để làm việc cho đến hết thời gian, đó chính xác là mục tiêu của tôi! Tuy nhiên, lượng dữ liệu không phải là tất cả.

Tôi đã chọn những trang web này vì chúng sẽ cung cấp cho bạn nhiều bộ dữ liệu rất đa dạng phù hợp với nhiều dự án khoa học dữ liệu. Các chi tiết cụ thể của tập dữ liệu khác nhau giữa các ngành. Vì vậy, làm việc với nhiều bộ dữ liệu khác nhau cũng cho phép bạn có được kiến ​​thức về miền.

Cho dù bạn đang nghiên cứu sâu về học máy, phân tích dữ liệu, báo chí dữ liệu, phân tích thống kê hay trực quan hóa dữ liệu, bạn luôn có thể tin tưởng vào những tài nguyên này.

Bây giờ, bạn có thể thực hiện dự án khoa học dữ liệu của riêng mình! Nếu bạn cần thêm ý tưởng, đây là một số dự án khoa học dữ liệu bạn có thể làm như một người mới bắt đầu.
 
 

Nate Rosidi là một nhà khoa học dữ liệu và trong chiến lược sản phẩm. Anh ấy cũng là một giáo sư trợ giảng dạy phân tích và là người sáng lập StrataScratch, một nền tảng giúp các nhà khoa học dữ liệu chuẩn bị cho cuộc phỏng vấn của họ với các câu hỏi phỏng vấn thực tế từ các công ty hàng đầu. Kết nối với anh ấy trên Twitter: StrataScratch or LinkedIn.

Dấu thời gian:

Thêm từ Xe đẩy