Được xuất bản lại bởi Plato

Người theo dõi: 0

6 thư viện Python thú vị mà tôi đã đến gần đây

= Trước bài

Bài tiếp theo =>

tags: Khoa học dữ liệu, Machine Learning, Python

Hãy xem các thư viện Python tuyệt vời này cho Machine Learning.

Bình luận

By Dhilip Subramanian, Nhà khoa học dữ liệu và Người say mê AI

Hình ảnh

Python là một phần không thể thiếu của máy học và các thư viện giúp cuộc sống của chúng ta đơn giản hơn. Gần đây, tôi đã xem qua 6 thư viện tuyệt vời khi thực hiện các dự án ML của mình. Chúng đã giúp tôi tiết kiệm rất nhiều thời gian và tôi sẽ thảo luận về chúng trong blog này.

1. văn bản rõ ràng

Một thư viện thực sự đáng kinh ngạc, văn bản rõ ràng sẽ là lựa chọn bạn nên sử dụng khi bạn cần xử lý dữ liệu thu thập dữ liệu hoặc mạng xã hội. Điều thú vị nhất là nó không yêu cầu bất kỳ mã dài dòng hay biểu thức thông thường nào để làm sạch dữ liệu của chúng tôi. Hãy xem một số ví dụ:

của DINTEK

!pip install cleantext

Ví dụ

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

Đầu ra

Từ trên, chúng ta có thể thấy nó có Unicode trong từ Zurich (chữ ‘u’ đã được mã hóa), ký tự ASCII (trong Alu017eupine.), ký hiệu tiền tệ bằng rupee, liên kết HTML, dấu câu.

Bạn chỉ cần đề cập đến ASCII, Unicode, URL, số, tiền tệ và dấu câu được yêu cầu trong hàm clean. Hoặc, chúng có thể được thay thế bằng các tham số thay thế trong hàm trên. Chẳng hạn, tôi đã đổi biểu tượng rupee thành Rupee.

Hoàn toàn không cần sử dụng biểu thức thông thường hoặc mã dài. Thư viện rất tiện dụng, đặc biệt nếu bạn muốn xóa văn bản khỏi dữ liệu truyền thông xã hội hoặc dữ liệu mạng xã hội. Dựa trên yêu cầu của bạn, bạn cũng có thể chuyển các đối số riêng lẻ thay vì kết hợp tất cả chúng.

Để biết thêm chi tiết, xin vui lòng kiểm tra này Kho GitHub.

2. dữ liệu vẽ

Drawdata là một phát hiện thư viện python thú vị khác của tôi. Đã bao nhiêu lần bạn gặp phải tình huống cần giải thích các khái niệm ML cho nhóm? Điều này phải xảy ra thường xuyên vì khoa học dữ liệu chủ yếu là về tinh thần đồng đội. Thư viện này giúp bạn vẽ tập dữ liệu trong sổ ghi chép Jupyter.
Cá nhân tôi thực sự thích sử dụng thư viện này khi giải thích các khái niệm ML cho nhóm của mình. Kudos cho các nhà phát triển đã tạo ra thư viện này!

Drawdata chỉ dành cho bài toán phân loại với bốn lớp.

của DINTEK

!pip install drawdata

Ví dụ

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

Đầu ra

Hình ảnh của tác giả

Các cửa sổ vẽ ở trên sẽ mở sau khi thực hiện draw_Scatter(). Rõ ràng có bốn lớp là A, B, C và D. Bạn có thể nhấp vào bất kỳ lớp nào và vẽ những điểm bạn muốn. Mỗi lớp đại diện cho các màu khác nhau trong bản vẽ. Bạn cũng có tùy chọn tải xuống dữ liệu dưới dạng tệp csv hoặc json. Ngoài ra, dữ liệu có thể được sao chép vào khay nhớ tạm của bạn và đọc từ mã bên dưới

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

Một trong những hạn chế của thư viện này là nó chỉ cung cấp hai điểm dữ liệu với bốn lớp. Nhưng nếu không thì nó chắc chắn có giá trị. Để biết thêm chi tiết, vui lòng kiểm tra cái này Liên kết GitHub.

3. Tự động hóa

Tôi sẽ không bao giờ quên khoảng thời gian tôi thực hiện phân tích dữ liệu khám phá bằng matplotlib. Có rất nhiều thư viện trực quan đơn giản. Tuy nhiên, gần đây tôi đã phát hiện ra về Autoviz, tính năng tự động hiển thị bất kỳ tập dữ liệu nào chỉ bằng một dòng mã.

của DINTEK

!pip install autoviz

Ví dụ

Tôi đã sử dụng bộ dữ liệu IRIS cho ví dụ này.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

Các thông số trên là mặc định. Để biết thêm thông tin, vui lòng kiểm tra tại đây.

Đầu ra

Hình ảnh của tác giả

Chúng ta có thể xem tất cả hình ảnh và hoàn thành EDA của mình chỉ bằng một dòng mã. Có rất nhiều thư viện trực quan hóa tự động nhưng tôi thực sự thích làm quen với thư viện này.

4. Mito

Mọi người đều thích Excel phải không? Đây là một trong những cách dễ nhất để khám phá tập dữ liệu trong trường hợp đầu tiên. Tôi tình cờ gặp Mito cách đây vài tháng nhưng chỉ mới thử nó gần đây và tôi thực sự thích nó!

Đây là thư viện python mở rộng của Jupyter-lab có hỗ trợ GUI bổ sung chức năng bảng tính. Bạn có thể tải dữ liệu csv của mình và chỉnh sửa tập dữ liệu dưới dạng bảng tính và nó sẽ tự động tạo mã Pandas. Rất tuyệt.

Mito thực sự xứng đáng có một bài viết blog đầy đủ. Tuy nhiên, hôm nay tôi sẽ không đi sâu vào chi tiết. Thay vào đó, đây là một minh họa nhiệm vụ đơn giản dành cho bạn. Để biết thêm chi tiết, vui lòng kiểm tra tại đây.

của DINTEK

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

Để biết thêm thông tin về cài đặt, vui lòng kiểm tra tại đây.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

Sau khi thực thi đoạn mã trên, mitosheet sẽ mở trong phòng thí nghiệm jupyter. Tôi đang sử dụng bộ dữ liệu IRIS. Đầu tiên, tôi tạo hai cột mới. Một là chiều dài trung bình của Sepal và cái còn lại là tổng chiều rộng của Sepal. Thứ hai, tôi đã thay đổi tên cột theo độ dài trung bình của Sepal. Cuối cùng, tôi đã tạo biểu đồ cho cột có độ dài trung bình của Sepal.

Mã được tạo tự động sau khi thực hiện các bước được đề cập ở trên.

Đầu ra

Hình ảnh của tác giả

Mã bên dưới đã được tạo cho các bước trên:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. Nhà tạo ngữ pháp

Một thư viện ấn tượng khác, Gramformer dựa trên các mô hình tổng quát giúp chúng ta sửa ngữ pháp trong câu. Thư viện này có ba mô hình có máy dò, bút tô sáng và bộ hiệu chỉnh. Trình phát hiện xác định xem văn bản có sai ngữ pháp hay không. Người đánh dấu đánh dấu những phần bị lỗi trong lời nói và người sửa lỗi sẽ sửa lỗi. Gramformer là một nguồn mở hoàn toàn và đang ở giai đoạn đầu. Nhưng nó không phù hợp với những đoạn văn dài vì nó chỉ hoạt động ở cấp độ câu và đã được huấn luyện cho 64 câu dài.

Hiện tại, mô hình chỉnh sửa và tô sáng đang hoạt động. Hãy xem một số ví dụ.

của DINTEK

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Khởi tạo ngữ pháp

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

Ví dụ

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

Đầu ra

Hình ảnh của tác giả

Từ kết quả đầu ra trên, chúng ta có thể thấy nó sửa lỗi ngữ pháp và thậm chí cả lỗi chính tả. Một thư viện thực sự tuyệt vời và hoạt động rất tốt. Tôi chưa thử tô sáng ở đây, bạn có thể thử và kiểm tra tài liệu GitHub này để biết thêm chi tiết.

6. Máy tạo kiểu

Trải nghiệm tích cực của tôi với Gramformer đã khuyến khích tôi tìm kiếm những thư viện độc đáo hơn. Đó là cách tôi tìm thấy Styleformer, một thư viện Python rất hấp dẫn khác. Cả Gramformer và Styleformer đều được tạo bởi Prithiviraj Damodaran và cả hai đều dựa trên các mô hình tổng quát. Cảm ơn người sáng tạo đã cung cấp nguồn mở cho nó.

Styleformer giúp chuyển đổi câu thông thường sang câu trang trọng, câu trang trọng sang câu thông thường, câu chủ động sang câu bị động và câu bị động sang câu chủ động.

Hãy xem một số ví dụ

của DINTEK

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Khởi tạo Styleformer

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

Các ví dụ

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

Xem đầu ra ở trên, nó chuyển đổi chính xác. Tôi đã sử dụng thư viện này để chuyển đổi thông thường sang trang trọng, đặc biệt là đối với các bài đăng trên mạng xã hội trong một trong những phân tích của tôi. Để biết thêm chi tiết, vui lòng kiểm tra GitHub.

Bạn có thể quen thuộc với một số thư viện được đề cập trước đó nhưng những thư viện như Gramformer và Styleformer mới được sử dụng gần đây. Chúng bị đánh giá cực kỳ thấp và chắc chắn xứng đáng được biết đến vì chúng đã tiết kiệm rất nhiều thời gian của tôi và tôi đã sử dụng chúng rất nhiều cho các dự án NLP của mình.

Cảm ơn vì đã đọc. Nếu bạn có bổ sung gì hãy để lại bình luận nhé!

Bạn cũng có thể thích bài viết trước của tôi Năm thư viện Python tuyệt vời cho khoa học dữ liệu

Tiểu sử: Dhilip Subramanian là Kỹ sư cơ khí và đã hoàn thành bằng Thạc sĩ về Phân tích. Ông có 9 năm kinh nghiệm với chuyên môn trong các lĩnh vực khác nhau liên quan đến dữ liệu bao gồm CNTT, tiếp thị, ngân hàng, điện lực và sản xuất. Anh ấy đam mê NLP và học máy. Anh ấy là một người đóng góp cho Cộng đồng SAS và thích viết các bài báo kỹ thuật về các khía cạnh khác nhau của khoa học dữ liệu trên nền tảng Medium.

Nguyên. Đăng lại với sự cho phép.

Liên quan: