بازنشر افلاطون

دنبال: 0

6 کتابخانه جالب پایتون که اخیراً با آنها آشنا شدم

= پست قبلی

پست بعدی =>

برچسب ها: علم اطلاعات, فراگیری ماشین, پــایتــون

این کتابخانه های پایتون عالی برای یادگیری ماشین را بررسی کنید.

نظرات

By دیلیپ سوبرامانیان، دانشمند داده و علاقه مندان به هوش مصنوعی

پایتون بخشی جدایی ناپذیر از یادگیری ماشینی است و کتابخانه ها زندگی ما را ساده تر می کنند. اخیراً در حین کار بر روی پروژه های ML خود با 6 کتابخانه عالی روبرو شدم. آنها به من کمک کردند تا در زمان زیادی صرفه جویی کنم و می خواهم در این وبلاگ در مورد آنها صحبت کنم.

1. متن پاک

یک کتابخانه واقعاً باورنکردنی، متن پاک باید زمانی که نیاز به مدیریت داده‌های خراش یا رسانه‌های اجتماعی دارید، مورد استفاده شما باشد. جالب‌ترین چیز در مورد آن این است که برای پاک کردن داده‌های ما به هیچ کد فانتزی طولانی یا عبارات منظم نیاز ندارد. بیایید چند نمونه را ببینیم:

نصب و راه اندازی

!pip install cleantext

مثال

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

تولید

از موارد بالا، می‌توانیم متوجه شویم که یونیکد در کلمه زوریخ (حرف 'u' رمزگذاری شده است)، کاراکترهای ASCII (در Alu017eupine.)، نماد ارز به روپیه، پیوند HTML، علائم نگارشی.

فقط باید اسکی، یونیکد، URL ها، اعداد، ارز و علائم نگارشی مورد نیاز را در تابع پاک ذکر کنید. یا می توان آنها را با پارامترهای جایگزین در تابع بالا جایگزین کرد. به عنوان مثال، من نماد روپیه را به روپیه تغییر دادم.

مطلقاً نیازی به استفاده از عبارات منظم یا کدهای طولانی نیست. کتابخانه بسیار مفید به خصوص اگر می خواهید متون را از خراش دادن یا داده های رسانه های اجتماعی پاک کنید. بر اساس نیاز خود، همچنین می توانید به جای ترکیب همه آنها، آرگومان ها را به صورت جداگانه منتقل کنید.

برای جزئیات بیشتر، لطفا این را بررسی کنید مخزن GitHub.

2. داده های ترسیمی

Drawdata یکی دیگر از یافته های جالب کتابخانه پایتون من است. چند بار تا به حال با موقعیتی برخورد کرده اید که باید مفاهیم ML را برای تیم توضیح دهید؟ این باید اغلب اتفاق بیفتد زیرا علم داده در مورد کار تیمی است. این کتابخانه به شما کمک می کند تا یک مجموعه داده را در نوت بوک Jupyter ترسیم کنید.
وقتی مفاهیم ML را برای تیمم توضیح دادم، شخصاً از استفاده از این کتابخانه بسیار لذت بردم. آفرین به توسعه دهندگانی که این کتابخانه را ایجاد کردند!

Drawdata فقط برای مشکل طبقه بندی با چهار کلاس است.

نصب و راه اندازی

!pip install drawdata

مثال

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

تولید

تصویر توسط نویسنده

پنجره های طراحی بالا پس از اجرای draw_Scatter() باز خواهند شد. واضح است که چهار کلاس به نام‌های A، B، C و D وجود دارد. می‌توانید روی هر کلاسی کلیک کنید و نقاط مورد نظر خود را ترسیم کنید. هر کلاس نشان دهنده رنگ های مختلف در نقاشی است. شما همچنین گزینه ای برای دانلود داده ها به صورت فایل csv یا json دارید. همچنین، داده ها را می توان در کلیپ بورد شما کپی کرد و از کد زیر خواند

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

یکی از محدودیت های این کتابخانه این است که تنها دو نقطه داده با چهار کلاس ارائه می دهد. اما در غیر این صورت، قطعا ارزشش را دارد. برای جزئیات بیشتر، لطفا این را بررسی کنید پیوند GitHub.

3. اتوویز

من هرگز زمانی را که برای تجزیه و تحلیل داده های اکتشافی با استفاده از matplotlib صرف کردم را فراموش نمی کنم. بسیاری از کتابخانه های تجسم ساده وجود دارد. با این حال، اخیراً درباره Autoviz فهمیدم که به طور خودکار هر مجموعه داده را با یک خط کد تجسم می کند.

نصب و راه اندازی

!pip install autoviz

مثال

من از مجموعه داده IRIS برای این مثال استفاده کردم.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

پارامترهای بالا یک پارامتر پیش فرض هستند. برای اطلاعات بیشتر لطفا بررسی کنید اینجا کلیک نمایید.

تولید

تصویر توسط نویسنده

ما می توانیم تمام تصاویر را ببینیم و EDA خود را با یک خط کد کامل کنیم. کتابخانه های تجسم خودکار زیادی وجود دارد، اما من واقعاً از آشنایی با این یکی به ویژه لذت بردم.

4. میتو

همه اکسل را دوست دارند، درست است؟ این یکی از ساده‌ترین راه‌ها برای کاوش یک مجموعه داده در وهله اول است. من چند ماه پیش با میتو آشنا شدم، اما اخیراً آن را امتحان کردم و کاملاً آن را دوست داشتم!

این یک کتابخانه python افزونه Jupyter-lab با پشتیبانی از رابط کاربری گرافیکی است که عملکرد صفحه گسترده را اضافه می کند. می‌توانید داده‌های csv خود را بارگیری کنید و مجموعه داده را به‌عنوان صفحه‌گسترده ویرایش کنید، و به‌طور خودکار کد پاندا را تولید می‌کند. خیلی باحاله

میتو واقعاً سزاوار یک پست کامل وبلاگ است. با این حال، امروز زیاد وارد جزئیات نمی شوم. در اینجا یک نمایش کار ساده برای شما وجود دارد. برای جزئیات بیشتر، لطفا بررسی کنید اینجا کلیک نمایید.

نصب و راه اندازی

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

برای اطلاعات بیشتر در مورد نصب، لطفا بررسی کنید اینجا کلیک نمایید.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

پس از اجرای کد بالا، mitosheet در آزمایشگاه jupyter باز می شود. من از مجموعه داده IRIS استفاده می کنم. ابتدا دو ستون جدید ایجاد کردم. یکی طول سپال متوسط و دیگری مجموع عرض سپال است. ثانیاً، نام ستون را برای طول متوسط Sepal تغییر دادم. در نهایت، من یک هیستوگرام برای ستون طول متوسط Sepal ایجاد کردم.

پس از انجام مراحل فوق، کد به طور خودکار تولید می شود.

تولید

تصویر توسط نویسنده

کد زیر برای مراحل بالا ایجاد شد:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. گرامر

یکی دیگر از کتابخانه‌های چشمگیر، Gramformer بر اساس مدل‌های تولیدی است که به ما کمک می‌کند دستور زبان جملات را تصحیح کنیم. این کتابخانه دارای سه مدل است که دارای یک آشکارساز، هایلایتر و اصلاح کننده. آشکارساز تشخیص می دهد که متن دارای دستور زبان نادرست است. هایلایتر قسمت های معیوب گفتار را مشخص می کند و تصحیح کننده خطاها را برطرف می کند. Gramformer یک منبع کاملا باز است و در مراحل اولیه است. اما برای پاراگراف های طولانی مناسب نیست زیرا فقط در سطح جمله کار می کند و برای 64 جمله طولانی آموزش داده شده است.

در حال حاضر مدل اصلاح کننده و هایلایتر کار می کند. بیایید چند نمونه را ببینیم.

نصب و راه اندازی

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Instantiate Gramformer

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

مثال

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

تولید

تصویر توسط نویسنده

از خروجی بالا، می‌توانیم متوجه شویم که اشتباهات گرامری و حتی املایی را تصحیح می‌کند. یک کتابخانه واقعا شگفت انگیز و عملکرد بسیار خوبی نیز دارد. من در اینجا هایلایتر را امتحان نکرده ام، می توانید برای اطلاعات بیشتر این مستندات GitHub را امتحان کنید و بررسی کنید جزئیات.

6. Styleformer

تجربه مثبت من با Gramformer مرا تشویق کرد که به دنبال کتابخانه های منحصر به فرد بیشتری باشم. اینگونه بود که من Styleformer را پیدا کردم، یکی دیگر از کتابخانه های بسیار جذاب پایتون. هر دو Gramformer و Styleformer توسط Prithiviraj Damodaran ساخته شده‌اند و هر دو بر اساس مدل‌های مولد هستند. آفرین به سازنده برای منبع باز آن.

Styleformer به تبدیل جملات گاه به گاه به رسمی، جملات رسمی به گاه به گاه، فعال به غیرفعال و غیرفعال به فعال کمک می کند.

بیایید چند نمونه را ببینیم

نصب و راه اندازی

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Instantiate Styleformer

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

مثال ها

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

خروجی بالا را ببینید، دقیقا تبدیل می شود. من از این کتابخانه برای تبدیل گاه به گاه به رسمی، به ویژه برای پست های رسانه های اجتماعی در یکی از تحلیل هایم استفاده کردم. برای جزئیات بیشتر، لطفا بررسی کنید GitHub.

ممکن است با برخی از کتابخانه‌هایی که قبلاً ذکر شد آشنا باشید، اما مواردی مانند Gramformer و Styleformer جدیدترین بازیکنان هستند. آنها به شدت دست کم گرفته شده اند و مطمئناً سزاوار شناخته شدن هستند زیرا آنها در وقت من صرفه جویی کردند و من به شدت از آنها برای پروژه های NLP خود استفاده کردم.

با تشکر برای خواندن. اگر چیزی برای اضافه کردن دارید، لطفاً نظر خود را بنویسید!

ممکن است مقاله قبلی من را نیز دوست داشته باشید پنج کتابخانه جالب پایتون برای علم داده

بیوگرافی: دیلیپ سوبرامانیان مهندس مکانیک است و کارشناسی ارشد خود را در تجزیه و تحلیل گذرانده است. وی دارای 9 سال تجربه تخصصی در زمینه های مختلف مرتبط با داده ها از جمله IT، بازاریابی، بانکداری، قدرت و تولید است. او علاقه زیادی به NLP و یادگیری ماشین دارد. او یکی از همکاران است جامعه SAS و عاشق نوشتن مقالات فنی در مورد جنبه های مختلف علم داده در پلتفرم Medium است.

اصلی. مجدداً با اجازه دوباره ارسال شد.

مرتبط: