Diterbitkan Ulang Oleh Plato

Followers: 0

6 Pustaka Python Keren Yang Saya Temukan Baru-baru ini

= Previous post

Next post =>

Tags: Ilmu Data, Pembelajaran mesin, Ular sanca

Lihat perpustakaan Python yang luar biasa ini untuk Pembelajaran Mesin.

komentar

By Dhilip Subramanian, Ilmuwan Data dan Penggemar AI

Gambar

Python adalah bagian integral dari pembelajaran mesin dan perpustakaan membuat hidup kita lebih sederhana. Baru-baru ini, saya menemukan 6 perpustakaan luar biasa saat mengerjakan proyek ML saya. Mereka membantu saya menghemat banyak waktu dan saya akan membahasnya di blog ini.

1. teks bersih

Perpustakaan yang benar-benar luar biasa, teks bersih harus menjadi pilihan Anda saat Anda perlu menangani data scraping atau media sosial. Hal paling keren tentang ini adalah tidak memerlukan kode mewah atau ekspresi reguler yang panjang untuk membersihkan data kita. Mari kita lihat beberapa contoh:

Instalasi

!pip install cleantext

Contoh

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

Keluaran

Dari gambar di atas, kita dapat melihatnya memiliki Unicode pada kata Zurich (huruf 'u' telah dikodekan), karakter ASCII (dalam Alu017eupine.), simbol mata uang dalam rupee, tautan HTML, tanda baca.

Anda hanya perlu menyebutkan ASCII, Unicode, URL, angka, mata uang, dan tanda baca yang diperlukan dalam fungsi bersih. Atau, bisa diganti dengan replace parameter pada fungsi di atas. Misalnya saya mengubah simbol rupee menjadi Rupee.

Sama sekali tidak perlu menggunakan ekspresi reguler atau kode panjang. Pustaka yang sangat berguna terutama jika Anda ingin membersihkan teks dari goresan atau data media sosial. Berdasarkan kebutuhan Anda, Anda juga dapat menyampaikan argumen satu per satu daripada menggabungkan semuanya.

Untuk detail lebih lanjut, silakan periksa ini Repositori GitHub.

2. data gambar

Drawdata adalah satu lagi temuan perpustakaan python keren milik saya. Berapa kali Anda menghadapi situasi di mana Anda perlu menjelaskan konsep ML kepada tim? Hal ini harus sering terjadi karena ilmu data adalah tentang kerja tim. Pustaka ini membantu Anda menggambar kumpulan data di buku catatan Jupyter.
Secara pribadi, saya sangat menikmati penggunaan perpustakaan ini ketika saya menjelaskan konsep ML kepada tim saya. Kudos kepada pengembang yang membuat perpustakaan ini!

Drawdata hanya untuk masalah klasifikasi dengan empat kelas.

Instalasi

!pip install drawdata

Contoh

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

Keluaran

Gambar oleh penulis

Jendela gambar di atas akan terbuka setelah menjalankan draw_Scatter(). Jelasnya, ada empat kelas yaitu A, B, C, dan D. Anda bisa mengklik kelas mana saja dan menarik poin yang Anda inginkan. Setiap kelas mewakili warna berbeda dalam gambar. Anda juga memiliki opsi untuk mendownload data sebagai file csv atau json. Selain itu, data dapat disalin ke clipboard Anda dan dibaca dari kode di bawah ini

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

Salah satu keterbatasan perpustakaan ini adalah hanya memberikan dua titik data dengan empat kelas. Namun sebaliknya, itu pasti sepadan. Untuk lebih jelasnya, silakan periksa ini tautan GitHub.

3. Autoviz

Saya tidak akan pernah melupakan waktu yang saya habiskan untuk melakukan analisis data eksplorasi menggunakan matplotlib. Ada banyak perpustakaan visualisasi sederhana. Namun, baru-baru ini saya mengetahui tentang Autoviz yang secara otomatis memvisualisasikan kumpulan data apa pun dengan satu baris kode.

Instalasi

!pip install autoviz

Contoh

Saya menggunakan kumpulan data IRIS untuk contoh ini.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

Parameter di atas adalah parameter default. Untuk informasi lebih lanjut, silakan periksa di sini.

Keluaran

Gambar oleh penulis

Kita dapat melihat semua visual dan menyelesaikan EDA kita dengan satu baris kode. Ada banyak perpustakaan visualisasi otomatis, tetapi saya sangat menikmati membiasakan diri dengan perpustakaan ini khususnya.

4. Mito

Semua orang menyukai Excel, bukan? Ini adalah salah satu cara termudah untuk menjelajahi kumpulan data pada awalnya. Saya bertemu Mito beberapa bulan yang lalu, tetapi baru mencobanya baru-baru ini dan saya sangat menyukainya!

Ini adalah perpustakaan python ekstensi Jupyter-lab dengan dukungan GUI yang menambahkan fungsionalitas spreadsheet. Anda dapat memuat data csv dan mengedit kumpulan data sebagai spreadsheet, dan secara otomatis menghasilkan kode Pandas. Sangat keren.

Mito benar-benar layak mendapatkan postingan blog lengkap. Namun, saya tidak akan membahasnya secara detail hari ini. Berikut ini demonstrasi tugas sederhana untuk Anda. Untuk lebih jelasnya, silakan periksa di sini.

Instalasi

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

Untuk informasi lebih lanjut tentang instalasi, silakan periksa di sini.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

Setelah menjalankan kode di atas, mitossheet akan terbuka di lab jupyter. Saya menggunakan kumpulan data IRIS. Pertama, saya membuat dua kolom baru. Salah satunya adalah panjang rata-rata Sepal dan yang lainnya adalah jumlah lebar Sepal. Kedua, saya mengubah nama kolom untuk rata-rata panjang Sepal. Terakhir, saya membuat histogram untuk rata-rata panjang kolom Sepal.

Kode dibuat secara otomatis setelah langkah-langkah yang disebutkan di atas diikuti.

Keluaran

Gambar oleh penulis

Kode di bawah ini dibuat untuk langkah-langkah di atas:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. Gramformer

Perpustakaan mengesankan lainnya, Gramformer didasarkan pada model generatif yang membantu kita mengoreksi tata bahasa dalam kalimat. Perpustakaan ini memiliki tiga model yang memiliki a detektor, stabilo, dan korektor. Detektor mengidentifikasi apakah teks memiliki tata bahasa yang salah. Penyorot menandai bagian ucapan yang salah dan korektor memperbaiki kesalahan tersebut. Gramformer sepenuhnya open source dan masih dalam tahap awal. Namun ini tidak cocok untuk paragraf panjang karena hanya berfungsi pada tingkat kalimat dan telah dilatih untuk 64 kalimat panjang.

Saat ini, model korektor dan penyorot berfungsi. Mari kita lihat beberapa contoh.

Instalasi

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Buat instance Gramformer

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

Contoh

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

Keluaran

Gambar oleh penulis

Dari keluaran di atas, kita dapat melihatnya mengoreksi kesalahan tata bahasa dan bahkan ejaan. Perpustakaan yang sangat menakjubkan dan berfungsi dengan sangat baik juga. Saya belum mencoba penyorot di sini, Anda dapat mencoba dan memeriksa dokumentasi GitHub ini untuk mengetahui lebih lanjut rincian.

6. Pembentuk gaya

Pengalaman positif saya dengan Gramformer mendorong saya untuk mencari perpustakaan yang lebih unik. Begitulah cara saya menemukan Styleformer, perpustakaan Python lain yang sangat menarik. Gramformer dan Styleformer diciptakan oleh Prithiviraj Damodaran dan keduanya didasarkan pada model generatif. Kudos kepada pencipta untuk open source itu.

Styleformer membantu mengubah kalimat santai menjadi kalimat formal, kalimat formal menjadi kalimat santai, kalimat aktif menjadi pasif, dan kalimat pasif menjadi aktif.

Mari kita lihat beberapa contoh

Instalasi

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Buat instance Styleformer

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

contoh

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

Lihat keluaran di atas, konversinya akurat. Saya menggunakan perpustakaan ini untuk mengubah gaya kasual menjadi formal, terutama untuk postingan media sosial di salah satu analisis saya. Untuk lebih jelasnya, silakan periksa GitHub.

Anda mungkin familiar dengan beberapa perpustakaan yang disebutkan sebelumnya, tetapi perpustakaan seperti Gramformer dan Styleformer adalah yang terbaru. Mereka sangat diremehkan dan tentunya pantas untuk diketahui karena mereka menghemat banyak waktu saya dan saya banyak menggunakannya untuk proyek NLP saya.

Terima kasih sudah membaca. Jika Anda memiliki sesuatu untuk ditambahkan, silakan tinggalkan komentar!

Anda mungkin juga menyukai artikel saya sebelumnya Lima Pustaka Python Keren untuk Ilmu Data

Bio: Dhilip Subramanian adalah seorang Insinyur Mekanik dan telah menyelesaikan Master di bidang Analytics. Ia memiliki 9 tahun pengalaman dengan spesialisasi di berbagai domain yang berkaitan dengan data termasuk TI, pemasaran, perbankan, tenaga, dan manufaktur. Dia sangat menyukai NLP dan pembelajaran mesin. Dia adalah kontributor untuk Komunitas SAS dan suka menulis artikel teknis tentang berbagai aspek ilmu data pada platform Medium.

Original. Diposting ulang dengan izin.

Terkait:

= Previous post

Next post =>

Cerita Top Melewati 30 Hari

Paling Populer
Perbedaan Antara Ilmuwan Data dan Insinyur ML 3 Alasan Mengapa Anda Harus Menggunakan Model Regresi Linier Daripada Jaringan Neural Pertanyaan dan Jawaban Wawancara Ilmu Data Paling Umum Alternatif Sumber Terbuka GitHub Copilot Saran untuk Mempelajari Ilmu Data dari Direktur Riset Google

Paling Banyak Dibagikan
Perbedaan Antara Ilmuwan Data dan Insinyur ML Cara Menanyakan Kerangka Data Pandas Anda Mengapa dan bagaimana Anda harus mempelajari “Ilmu Data Produktif”? Tidak Hanya untuk Pembelajaran Mendalam: Bagaimana GPU Mempercepat Ilmu Data & Analisis Data Menulis Aplikasi Python Terdistribusi Pertama Anda dengan Ray