افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

6 ٹھنڈی Python لائبریریاں جو میں نے حال ہی میں حاصل کی۔

= پچھلا پیغام

اگلا، دوسرا پیغام =>

ٹیگز: ڈیٹا سائنس, مشین لرننگ, ازگر

مشین لرننگ کے لیے یہ شاندار Python لائبریریاں دیکھیں۔

تبصروں

By دلیپ سبرامنیم، ڈیٹا سائنٹسٹ اور اے آئی کے شوقین

Python مشین لرننگ کا ایک لازمی حصہ ہے اور لائبریریاں ہماری زندگی کو آسان بناتی ہیں۔ حال ہی میں، میں نے اپنے ML پروجیکٹس پر کام کرتے ہوئے 6 شاندار لائبریریوں کو دیکھا۔ انہوں نے میرا کافی وقت بچانے میں مدد کی اور میں اس بلاگ میں ان کے بارے میں بات کرنے جا رہا ہوں۔

1. صاف متن

جب آپ کو سکریپنگ یا سوشل میڈیا ڈیٹا کو ہینڈل کرنے کی ضرورت ہو تو واقعی ایک ناقابل یقین لائبریری، کلین ٹیکسٹ آپ کے لیے جانا چاہیے۔ اس کے بارے میں سب سے اچھی بات یہ ہے کہ اسے ہمارے ڈیٹا کو صاف کرنے کے لیے کسی لمبے فینسی کوڈ یا ریگولر ایکسپریشنز کی ضرورت نہیں ہے۔ آئیے کچھ مثالیں دیکھتے ہیں:

تنصیب

!pip install cleantext

مثال کے طور پر

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

آؤٹ پٹ

اوپر سے، ہم دیکھ سکتے ہیں کہ اس کا لفظ زیورخ میں یونیکوڈ ہے (حرف 'u' کو انکوڈ کیا گیا ہے)، ASCII حروف (Alu017eupine میں)، روپے میں کرنسی کی علامت، HTML لنک، اوقاف۔

آپ کو کلین فنکشن میں صرف مطلوبہ ASCII، یونیکوڈ، URLs، نمبرز، کرنسی اور اوقاف کا ذکر کرنا ہوگا۔ یا، وہ مندرجہ بالا فنکشن میں تبدیل کرنے والے پیرامیٹرز کے ساتھ تبدیل کیا جا سکتا ہے. مثال کے طور پر، میں نے روپے کی علامت کو روپے میں بدل دیا۔

ریگولر ایکسپریشنز یا لمبے کوڈز استعمال کرنے کی بالکل ضرورت نہیں ہے۔ بہت آسان لائبریری خاص طور پر اگر آپ متن کو سکریپنگ یا سوشل میڈیا ڈیٹا سے صاف کرنا چاہتے ہیں۔ آپ کی ضرورت کی بنیاد پر، آپ ان سب کو یکجا کرنے کے بجائے انفرادی طور پر بھی دلائل پاس کر سکتے ہیں۔

مزید تفصیلات کے لیے، براہ کرم اسے چیک کریں۔ GitHub ذخیرہ.

2. ڈرا ڈیٹا

Drawdata میری ایک اور ٹھنڈی پائیتھن لائبریری کی تلاش ہے۔ آپ کو کتنی بار ایسی صورتحال کا سامنا کرنا پڑا ہے جہاں آپ کو ٹیم کو ایم ایل کے تصورات کی وضاحت کرنے کی ضرورت ہے؟ یہ اکثر ہونا چاہئے کیونکہ ڈیٹا سائنس ٹیم ورک کے بارے میں ہے۔ یہ لائبریری آپ کو Jupyter نوٹ بک میں ڈیٹا سیٹ بنانے میں مدد کرتی ہے۔
ذاتی طور پر، جب میں نے اپنی ٹیم کو ML کے تصورات کی وضاحت کی تو مجھے اس لائبریری کے استعمال سے بہت لطف آیا۔ اس لائبریری کو تخلیق کرنے والے ڈویلپرز کو خراج تحسین!

ڈرا ڈیٹا صرف چار کلاسوں کے ساتھ درجہ بندی کے مسئلے کے لیے ہے۔

تنصیب

!pip install drawdata

مثال کے طور پر

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

آؤٹ پٹ

مصنف کی طرف سے تصویر

مذکورہ ڈرائنگ ونڈو ڈرا_Scatter() پر عمل کرنے کے بعد کھل جائے گی۔ واضح طور پر، A، B، C، اور D نام کی چار کلاسیں ہیں۔ آپ کسی بھی کلاس پر کلک کر کے اپنی مرضی کے پوائنٹس بنا سکتے ہیں۔ ہر کلاس ڈرائنگ میں مختلف رنگوں کی نمائندگی کرتی ہے۔ آپ کے پاس ڈیٹا کو csv یا json فائل کے طور پر ڈاؤن لوڈ کرنے کا اختیار بھی ہے۔ اس کے علاوہ، ڈیٹا کو آپ کے کلپ بورڈ پر کاپی کیا جا سکتا ہے اور نیچے دیئے گئے کوڈ سے پڑھا جا سکتا ہے۔

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

اس لائبریری کی ایک حد یہ ہے کہ یہ چار کلاسوں کے ساتھ صرف دو ڈیٹا پوائنٹس دیتی ہے۔ لیکن دوسری صورت میں، یہ یقینی طور پر اس کے قابل ہے. مزید تفصیلات کے لیے، براہ کرم اسے چیک کریں۔ گٹ ہب لنک.

3. آٹوویز

میں وہ وقت کبھی نہیں بھولوں گا جو میں نے میٹپلوٹلیب کا استعمال کرتے ہوئے ڈیٹا کا تجزیہ کرنے میں صرف کیا تھا۔ بہت سی سادہ ویژولائزیشن لائبریریاں ہیں۔ تاہم، مجھے حال ہی میں Autoviz کے بارے میں پتہ چلا ہے جو خود بخود کسی بھی ڈیٹاسیٹ کو کوڈ کی ایک لائن کے ساتھ تصور کرتا ہے۔

تنصیب

!pip install autoviz

مثال کے طور پر

میں نے اس مثال کے لیے IRIS ڈیٹاسیٹ استعمال کیا۔

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

مندرجہ بالا پیرامیٹرز پہلے سے طے شدہ ہیں۔ مزید معلومات کے لیے، براہ کرم چیک کریں۔ یہاں.

آؤٹ پٹ

مصنف کی طرف سے تصویر

ہم تمام بصری دیکھ سکتے ہیں اور اپنے EDA کو کوڈ کی ایک لائن کے ساتھ مکمل کر سکتے ہیں۔ آٹو ویژولائزیشن کی بہت سی لائبریریاں ہیں لیکن مجھے خاص طور پر اس سے خود کو واقف کر کے بہت اچھا لگا۔

4. Mito

ہر کوئی ایکسل کو پسند کرتا ہے، ٹھیک ہے؟ یہ پہلی مثال میں ڈیٹاسیٹ کو دریافت کرنے کے آسان ترین طریقوں میں سے ایک ہے۔ میں نے کچھ مہینے پہلے Mito سے ملاقات کی، لیکن اسے حال ہی میں آزمایا اور مجھے یہ بالکل پسند آیا!

یہ جی یو آئی سپورٹ کے ساتھ ایک Jupyter-lab ایکسٹینشن python لائبریری ہے جو اسپریڈشیٹ کی فعالیت میں اضافہ کرتی ہے۔ آپ اپنا csv ڈیٹا لوڈ کر سکتے ہیں اور ڈیٹاسیٹ کو بطور سپریڈ شیٹ ایڈٹ کر سکتے ہیں، اور یہ خود بخود پانڈاس کوڈ تیار کرتا ہے۔ بہت ٹھنڈا.

Mito حقیقی طور پر ایک مکمل بلاگ پوسٹ کا مستحق ہے۔ تاہم، میں آج زیادہ تفصیل میں نہیں جاؤں گا۔ اس کے بجائے یہاں آپ کے لیے ایک آسان کام کا مظاہرہ ہے۔ مزید تفصیلات کے لیے، براہ کرم چیک کریں۔ یہاں.

تنصیب

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

تنصیب کے بارے میں مزید معلومات کے لیے، براہ کرم چیک کریں۔ یہاں.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

مذکورہ کوڈ پر عمل کرنے کے بعد، mitosheet jupyter لیب میں کھل جائے گی۔ میں IRIS ڈیٹاسیٹ استعمال کر رہا ہوں۔ سب سے پہلے، میں نے دو نئے کالم بنائے۔ ایک اوسط سیپل لمبائی ہے اور دوسری رقم سیپل چوڑائی ہے۔ دوم، میں نے اوسط Sepal لمبائی کے لیے کالم کا نام تبدیل کر دیا۔ آخر میں، میں نے اوسط سیپل لمبائی کے کالم کے لیے ایک ہسٹوگرام بنایا۔

مذکورہ بالا مراحل پر عمل کرنے کے بعد کوڈ خود بخود تیار ہو جاتا ہے۔

آؤٹ پٹ

مصنف کی طرف سے تصویر

مندرجہ بالا مراحل کے لیے ذیل کا کوڈ تیار کیا گیا تھا۔

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. گرامر

پھر بھی ایک اور متاثر کن لائبریری، گرامفارمر جنریٹیو ماڈلز پر مبنی ہے جو جملوں میں گرامر کو درست کرنے میں ہماری مدد کرتے ہیں۔ اس لائبریری کے تین ماڈل ہیں جن میں اے پکڑنے والا، ایک ہائی لائٹر، اور ایک درست کرنے والا. ڈیٹیکٹر اس بات کی نشاندہی کرتا ہے کہ آیا متن میں گرامر غلط ہے۔ ہائی لائٹر تقریر کے ناقص حصوں کو نشان زد کرتا ہے اور درست کرنے والا غلطیوں کو ٹھیک کرتا ہے۔ گرامفارمر مکمل طور پر اوپن سورس ہے اور اپنے ابتدائی مراحل میں ہے۔ لیکن یہ طویل پیراگراف کے لیے موزوں نہیں ہے کیونکہ یہ صرف جملے کی سطح پر کام کرتا ہے اور اسے 64 طوالت کے جملوں کے لیے تربیت دی گئی ہے۔

فی الحال، درست کرنے والا اور ہائی لائٹر ماڈل کام کرتا ہے۔ آئیے کچھ مثالیں دیکھتے ہیں۔

تنصیب

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

فوری گرامفارمر

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

مثال کے طور پر

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

آؤٹ پٹ

مصنف کی طرف سے تصویر

مندرجہ بالا آؤٹ پٹ سے، ہم دیکھ سکتے ہیں کہ یہ گرامر اور حتیٰ کہ املا کی غلطیوں کو بھی درست کرتا ہے۔ واقعی ایک حیرت انگیز لائبریری اور بہت اچھی طرح سے کام کرتا ہے۔ میں نے یہاں ہائی لائٹر کی کوشش نہیں کی ہے، آپ مزید کے لیے اس GitHub دستاویزات کو آزما کر دیکھ سکتے ہیں۔ تفصیلات.

6. اسٹائلفارمر

گرامفارمر کے ساتھ میرے مثبت تجربے نے مجھے مزید منفرد لائبریریاں تلاش کرنے کی ترغیب دی۔ اس طرح میں نے اسٹائلفارمر پایا، ایک اور انتہائی دلکش ازگر کی لائبریری۔ گرامفارمر اور اسٹائلفارمر دونوں پرتھیویراج دامودرن نے بنائے تھے اور دونوں ہی تخلیقی ماڈلز پر مبنی ہیں۔ اس کی اوپن سورسنگ کے لیے خالق کو خراج تحسین۔

اسٹائلفارمر آرام دہ کو رسمی جملوں میں، رسمی کو آرام دہ جملوں میں، فعال سے غیر فعال اور غیر فعال جملوں میں تبدیل کرنے میں مدد کرتا ہے۔

آئیے کچھ مثالیں دیکھتے ہیں۔

تنصیب

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

اسٹائلفارمر کو فوری بنائیں

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

مثال کے طور پر

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

مندرجہ بالا آؤٹ پٹ دیکھیں، یہ درست طریقے سے تبدیل ہوتا ہے. میں نے اس لائبریری کو آرام دہ اور پرسکون کو رسمی میں تبدیل کرنے کے لیے استعمال کیا، خاص طور پر اپنے ایک تجزیے میں سوشل میڈیا پوسٹس کے لیے۔ مزید تفصیلات کے لیے، براہ کرم چیک کریں۔ GitHub کے.

ہوسکتا ہے کہ آپ پہلے ذکر کی گئی لائبریریوں میں سے کچھ سے واقف ہوں لیکن گرامفارمر اور اسٹائلفارمر جیسے حالیہ کھلاڑی ہیں۔ وہ انتہائی کم درجہ کے ہیں اور یقینی طور پر جانے کے مستحق ہیں کیونکہ انہوں نے میرا بہت سا وقت بچایا اور میں نے انہیں اپنے NLP پروجیکٹس کے لیے بہت زیادہ استعمال کیا۔

پڑھنے کا شکریہ. اگر آپ کے پاس شامل کرنے کے لئے کچھ ہے تو، براہ کرم ایک تبصرہ چھوڑنے کے لئے آزاد محسوس کریں!

آپ کو میرا پچھلا مضمون بھی پسند آئے گا۔ ڈیٹا سائنس کے لیے پانچ ٹھنڈی ازگر لائبریریاں

بیو: دلیپ سبرامنیم مکینیکل انجینئر ہیں اور تجزیات میں ماسٹرز مکمل کر چکے ہیں۔ ان کے پاس ڈیٹا سے متعلق مختلف ڈومینز بشمول آئی ٹی، مارکیٹنگ، بینکنگ، پاور، اور مینوفیکچرنگ میں مہارت کے ساتھ 9 سال کا تجربہ ہے۔ وہ NLP اور مشین لرننگ کے بارے میں پرجوش ہے۔ وہ ایک شراکت دار ہے ایس اے ایس کمیونٹی اور میڈیم پلیٹ فارم پر ڈیٹا سائنس کے مختلف پہلوؤں پر تکنیکی مضامین لکھنا پسند کرتے ہیں۔

حقیقی. اجازت کے ساتھ دوبارہ پوسٹ کیا۔

متعلقہ: