Được xuất bản lại bởi Plato

Người theo dõi: 0

Tại sao và làm thế nào bạn nên học “Khoa học dữ liệu hiệu quả”?

= Trước bài

Bài tiếp theo =>

tags: Sách, Tư vấn nghề nghiệp, Khóa học, Khoa học dữ liệu, Python

Khoa học dữ liệu năng suất là gì và một số thành phần của nó là gì?

By Tirthajyoti Sarkar, Adaptix Corp.

Bình luận

nguồn hình ảnh: Pixabay (Hình ảnh miễn phí)

Hiệu quả trong quy trình làm việc khoa học dữ liệu

Khoa học dữ liệu và học máy có thể được thực hành với các mức độ hiệu quả và năng suất khác nhau. Bất kể lĩnh vực ứng dụng hoặc chuyên môn, một nhà khoa học dữ liệu — người mới bắt đầu hoặc chuyên gia dày dạn kinh nghiệm — nên cố gắng nâng cao hiệu quả của mình ở tất cả các khía cạnh của nhiệm vụ khoa học dữ liệu điển hình,

Phân tích thống kê,
hình dung,
lựa chọn mô hình, kỹ thuật tính năng,
kiểm tra chất lượng mã, mô đun hóa,
tiến trình song song,
triển khai ứng dụng web dễ dàng

nguồn hình ảnh: Pixabay (Hình ảnh miễn phí)

Điều này có nghĩa là thực hiện tất cả các nhiệm vụ này,

ở tốc độ cao hơn
với gỡ lỗi nhanh hơn
một cách đồng bộ
bằng cách tận dụng tối đa bất kỳ và tất cả các tài nguyên phần cứng có sẵn

Bạn nên mong đợi học được gì trong quá trình này?

Hãy tưởng tượng ai đó đang dạy một “Khoa học dữ liệu năng suất” khóa học hoặc viết một cuốn sách về nó — sử dụng Python làm khung ngôn ngữ. Những kỳ vọng điển hình từ một khóa học hoặc cuốn sách như vậy là gì?

nguồn hình ảnh: Pixabay (Hình ảnh miễn phí)

Khóa học/cuốn sách nên dành cho những người muốn đi tắt đón đầu so với cách tiêu chuẩn thực hiện các nhiệm vụ khoa học dữ liệu và máy học, đồng thời sử dụng toàn bộ hệ sinh thái khoa học dữ liệu Python để đạt được mức năng suất cao hơn nhiều.

Người đọc nên được dạy cách phát hiện những điểm không hiệu quả và tắc nghẽn trong quy trình tiêu chuẩn và cách suy nghĩ vượt ra ngoài khuôn khổ.

Tự động hóa các nhiệm vụ khoa học dữ liệu lặp đi lặp lại là một tư duy quan trọng mà độc giả sẽ phát triển khi đọc cuốn sách này. Trong nhiều trường hợp, họ cũng sẽ học cách mở rộng thực hành viết mã hiện có để xử lý các tập dữ liệu lớn hơn với hiệu quả cao với sự trợ giúp của các công cụ phần mềm tiên tiến đã tồn tại trong hệ sinh thái Python nhưng không được dạy trong bất kỳ ngành khoa học dữ liệu tiêu chuẩn nào.

Đây không phải là một cuốn sách dạy nấu ăn Python thông thường dạy các thư viện tiêu chuẩn như Numpy hoặc Pandas.

Thay vào đó, nó nên tập trung vào các kỹ thuật hữu ích như làm thế nào để đo dung lượng bộ nhớ và tốc độ thực thi của các mô hình ML, kiểm tra chất lượng một đường ống khoa học dữ liệu, mô đun hóa một đường dẫn khoa học dữ liệu để phát triển ứng dụng, v.v. Nó cũng sẽ bao gồm các thư viện Python rất hữu ích cho tự động hóa và tăng tốc lên nhiệm vụ hàng ngày của bất kỳ nhà khoa học dữ liệu nào.

Hơn nữa, nó sẽ đề cập đến các công cụ và gói giúp nhà khoa học dữ liệu giải quyết các tập dữ liệu lớn và phức tạp theo cách tối ưu hơn nhiều so với những gì có thể thực hiện được bằng cách tuân theo sự khôn ngoan của công nghệ khoa học dữ liệu Python tiêu chuẩn.

Một số kỹ năng cụ thể để thành thạo

nguồn hình ảnh: Pixabay (Hình ảnh miễn phí)

Nói một cách cụ thể, chúng ta hãy tóm tắt một số kỹ năng cụ thể cần nắm vững để học tập và thực hành Khoa học dữ liệu năng suất. Tôi cũng đã cố gắng đưa vào các liên kết đến một số bài viết tiêu biểu đi kèm với từng kỹ năng để làm tài liệu tham khảo.

Làm thế nào để viết mã nhanh và hiệu quả cho khoa học dữ liệu/ML và cách đo tốc độ và hiệu quả của chúng (xem bài báo này)
Cách xây dựng các quy trình khoa học dữ liệu biểu cảm và được mô đun hóa để cải thiện năng suất (xem bài báo này)
Cách viết mô-đun thử nghiệm cho khoa học dữ liệu và mô hình ML (xem bài báo này)
Cách xử lý các tập dữ liệu lớn và phức tạp một cách hiệu quả (điều khó khăn với các công cụ DS truyền thống)
Cách sử dụng đầy đủ GPU và bộ xử lý đa lõi cho tất cả các loại tác vụ phân tích và khoa học dữ liệu chứ không chỉ cho mô hình học sâu chuyên biệt (xem bài báo này)
Cách khởi động nhanh các ứng dụng GUI để trình diễn ý tưởng khoa học dữ liệu/ML hoặc điều chỉnh mô hình (xem bài báo này) hoặc cách triển khai dễ dàng (và nhanh chóng) các mô hình ML và mã phân tích dữ liệu ở cấp ứng dụng (xem bài báo này)

Một cuốn sách lý tưởng về chủ đề này sẽ…

nguồn hình ảnh: Pixabay (Hình ảnh miễn phí)

Dạy cách quan sát sự thiếu hiệu quả và tắc nghẽn trong mã khoa học dữ liệu tiêu chuẩn và cách suy nghĩ vượt trội để giải quyết những vấn đề đó.
Dạy cách viết mã máy học và phân tích dữ liệu hiệu quả, được mô đun hóa để cải thiện năng suất trong nhiều tình huống — phân tích dữ liệu khám phá, trực quan hóa, học sâu, v.v.
Bao gồm một loạt các chủ đề bên lề như kiểm thử phần mềm, phát triển mô-đun, Lập trình GUI, triển khai mô hình ML dưới dạng ứng dụng web, đây là bộ kỹ năng vô giá mà các nhà khoa học dữ liệu mới bắt đầu sở hữu và khó có thể tìm thấy chung trong bất kỳ cuốn sách khoa học dữ liệu tiêu chuẩn nào.
Bao gồm tính toán song song (ví dụ: Dask, Ray), khả năng mở rộng (ví dụ: Vaex, Modin) và ngăn xếp khoa học dữ liệu do GPU hỗ trợ (NHANH CHÓNG) với các ví dụ thực hành.
Hiển thị và hướng dẫn người đọc đến với hệ sinh thái Python lớn hơn và ngày càng mở rộng của các công cụ khoa học dữ liệu được kết nối với các khía cạnh rộng lớn hơn của kỹ thuật phần mềm và triển khai ở cấp độ sản xuất.

Một ví dụ cụ thể: Khoa học dữ liệu phân tán và hỗ trợ GPU

Mặc dù việc sử dụng GPU và điện toán phân tán được thảo luận rộng rãi trong giới học thuật và doanh nghiệp cho các nhiệm vụ AI/ML cốt lõi, nhưng họ nhận thấy tiện ích của họ ít được sử dụng hơn cho các nhiệm vụ kỹ thuật dữ liệu và khoa học dữ liệu thông thường. Tuy nhiên, việc sử dụng GPU để phân tích thống kê hàng ngày hoặc các nhiệm vụ khoa học dữ liệu khác có thể còn lâu mới trở thành phương ngôn “Nhà khoa học dữ liệu năng suất".

Ví dụ, các RAPIDS bộ thư viện phần mềm và API cung cấp cho bạn - một nhà khoa học dữ liệu thông thường (và không nhất thiết phải là một người thực hành học sâu) - tùy chọn và tính linh hoạt để thực thi đường ống phân tích và khoa học dữ liệu end-to-end hoàn toàn trên GPU.

nguồn hình ảnh: Tác giả đã tạo ảnh ghép

Khi được sử dụng ngay cả với GPU khiêm tốn, các thư viện này cho thấy sự cải thiện đáng kể về tốc độ so với các đối tác Python thông thường của chúng. Đương nhiên, chúng ta nên nắm lấy những điều này bất cứ khi nào chúng ta có thể. Khoa học dữ liệu năng suất quy trình làm việc.

Tương tự như vậy, có những cơ hội nguồn mở tuyệt vời để vượt ra ngoài giới hạn của bản chất lõi đơn của ngôn ngữ Python và nắm lấy mô hình điện toán song song mà không cần rời xa tính cách nhà khoa học dữ liệu tinh túy.

nguồn hình ảnh: Tác giả đã tạo ảnh ghép

Tổng kết

Chúng tôi đã thảo luận về các tiện ích và thành phần cốt lõi của một Khoa học dữ liệu năng suất quy trình làm việc. Chúng tôi tưởng tượng một khóa học lý tưởng hoặc một cuốn sách về chủ đề này sẽ cung cấp cho độc giả như thế nào. Chúng tôi đã đề cập đến một số ví dụ cụ thể và minh họa những lợi ích. Một số tài nguyên liên quan cũng được cung cấp trong bối cảnh các kỹ năng cần thành thạo.

Bạn có thể kiểm tra tác giả GitHub kho cho mã, ý tưởng và tài nguyên trong học máy và khoa học dữ liệu. Nếu bạn cũng như tôi, đam mê AI / máy học / khoa học dữ liệu, xin vui lòng thêm tôi vào LinkedIn or theo dõi tôi trên Twitter.

Nguyên. Đăng lại với sự cho phép.

Liên quan:

= Trước bài

Bài tiếp theo =>

Câu chuyện hàng đầu trong 30 ngày qua

Phổ biến nhất
6 khóa học trực tuyến về khoa học dữ liệu hàng đầu vào năm 2021 Các nhà khoa học dữ liệu và kỹ sư ML là những nhân viên sang trọng Lời khuyên cho việc học Khoa học dữ liệu từ Giám đốc nghiên cứu của Google Các giải pháp thay thế mã nguồn mở GitHub Copilot Cơ sở hình học của Học sâu