প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

6 টি দুর্দান্ত পাইথন লাইব্রেরি যা আমি সম্প্রতি পেয়েছি

= পূর্ববর্তী পোস্ট

পরবর্তী পোস্ট =>

ট্যাগ্স: ডেটা বিজ্ঞান, মেশিন লার্নিং, পাইথন

মেশিন লার্নিংয়ের জন্য এই দুর্দান্ত পাইথন লাইব্রেরিগুলি দেখুন।

মন্তব্য

By ধিলিপ সুব্রামানিয়ান, ডেটা সায়েন্টিস্ট এবং এআই উত্সাহী

ভাবমূর্তি

পাইথন মেশিন লার্নিং এর একটি অবিচ্ছেদ্য অংশ এবং লাইব্রেরি আমাদের জীবনকে সহজ করে তোলে। সম্প্রতি, আমার এমএল প্রকল্পগুলিতে কাজ করার সময় আমি 6টি দুর্দান্ত লাইব্রেরি জুড়ে এসেছি। তারা আমাকে অনেক সময় বাঁচাতে সাহায্য করেছে এবং আমি এই ব্লগে তাদের সম্পর্কে আলোচনা করতে যাচ্ছি।

1. ক্লিন-টেক্সট

একটি সত্যিই অবিশ্বাস্য লাইব্রেরি, ক্লিন-টেক্সট আপনার যেতে হবে যখন আপনাকে স্ক্র্যাপিং বা সোশ্যাল মিডিয়া ডেটা পরিচালনা করতে হবে। এটি সম্পর্কে দুর্দান্ত জিনিস হল যে এটি আমাদের ডেটা পরিষ্কার করার জন্য কোনও দীর্ঘ অভিনব কোড বা নিয়মিত এক্সপ্রেশনের প্রয়োজন হয় না। আসুন কিছু উদাহরণ দেখি:

স্থাপন

!pip install cleantext

উদাহরণ

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

আউটপুট

উপরোক্ত থেকে, আমরা দেখতে পাচ্ছি জুরিখ শব্দে ইউনিকোড ('u' অক্ষরটি এনকোড করা হয়েছে), ASCII অক্ষর (Alu017eupine ভাষায়), মুদ্রার প্রতীক, HTML লিঙ্ক, বিরাম চিহ্ন।

পরিষ্কার ফাংশনে আপনাকে শুধু প্রয়োজনীয় ASCII, ইউনিকোড, URL, সংখ্যা, মুদ্রা এবং বিরাম চিহ্ন উল্লেখ করতে হবে। অথবা, উপরের ফাংশনে প্রতিস্থাপন পরামিতি দিয়ে প্রতিস্থাপন করা যেতে পারে। উদাহরণ স্বরূপ, আমি রুপির চিহ্নটিকে রুপিতে পরিবর্তন করেছি।

রেগুলার এক্সপ্রেশন বা লম্বা কোড ব্যবহার করার একেবারেই দরকার নেই। খুব সহজ লাইব্রেরি বিশেষ করে যদি আপনি স্ক্র্যাপিং বা সোশ্যাল মিডিয়া ডেটা থেকে পাঠ্যগুলি পরিষ্কার করতে চান। আপনার প্রয়োজনীয়তার উপর ভিত্তি করে, আপনি তাদের সবগুলিকে একত্রিত করার পরিবর্তে পৃথকভাবে আর্গুমেন্টগুলি পাস করতে পারেন৷

আরো বিস্তারিত জানার জন্য, এটি চেক করুন GitHub সংগ্রহস্থল.

2. অঙ্কন ডেটা

Drawdata হল আমার আরেকটি দুর্দান্ত পাইথন লাইব্রেরি আবিষ্কার। আপনি কতবার এমন পরিস্থিতির মুখোমুখি হয়েছেন যেখানে আপনাকে দলকে এমএল ধারণাগুলি ব্যাখ্যা করতে হবে? এটা প্রায়ই ঘটতে হবে কারণ ডেটা সায়েন্স হল টিমওয়ার্ক। এই লাইব্রেরি আপনাকে জুপিটার নোটবুকে একটি ডেটাসেট আঁকতে সাহায্য করে।
ব্যক্তিগতভাবে, আমি এই লাইব্রেরিটি ব্যবহার করে সত্যিই উপভোগ করেছি যখন আমি আমার দলকে ML ধারণাগুলি ব্যাখ্যা করেছি। এই লাইব্রেরি তৈরি যারা ডেভেলপারদের ধন্যবাদ!

ড্রডাটা শুধুমাত্র চারটি শ্রেণীর সাথে শ্রেণীবিভাগের সমস্যার জন্য।

স্থাপন

!pip install drawdata

উদাহরণ

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

আউটপুট

লেখক দ্বারা চিত্র

উপরের অঙ্কন উইন্ডোগুলি draw_Scatter() কার্যকর করার পরে খুলবে। স্পষ্টতই, A, B, C, এবং D নামে চারটি শ্রেণী রয়েছে। আপনি যে কোনো ক্লাসে ক্লিক করে আপনার পছন্দের পয়েন্টগুলি আঁকতে পারেন। প্রতিটি শ্রেণী অঙ্কনের বিভিন্ন রঙের প্রতিনিধিত্ব করে। আপনার কাছে একটি csv বা json ফাইল হিসাবে ডেটা ডাউনলোড করার বিকল্পও রয়েছে। এছাড়াও, ডেটা আপনার ক্লিপবোর্ডে অনুলিপি করা যেতে পারে এবং নীচের কোড থেকে পড়তে পারে

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

এই লাইব্রেরির একটি সীমাবদ্ধতা হল এটি চারটি ক্লাস সহ মাত্র দুটি ডেটা পয়েন্ট দেয়। কিন্তু অন্যথায়, এটি অবশ্যই মূল্যবান। আরো বিস্তারিত জানার জন্য, এটি চেক করুন গিটহাব লিঙ্ক.

3. অটোভিজ

ম্যাটপ্লটলিব ব্যবহার করে অনুসন্ধানমূলক ডেটা বিশ্লেষণ করতে যে সময় ব্যয় করেছি তা আমি কখনই ভুলব না। অনেক সহজ ভিজ্যুয়ালাইজেশন লাইব্রেরি আছে. যাইহোক, আমি সম্প্রতি অটোভিজ সম্পর্কে জানতে পেরেছি যা স্বয়ংক্রিয়ভাবে কোডের একটি লাইনের সাথে যেকোনো ডেটাসেটকে কল্পনা করে।

স্থাপন

!pip install autoviz

উদাহরণ

আমি এই উদাহরণের জন্য IRIS ডেটাসেট ব্যবহার করেছি।

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

উপরের প্যারামিটারগুলি ডিফল্ট এক। আরো তথ্যের জন্য, চেক করুন এখানে.

আউটপুট

লেখক দ্বারা চিত্র

আমরা সমস্ত ভিজ্যুয়াল দেখতে পারি এবং কোডের একটি লাইন দিয়ে আমাদের EDA সম্পূর্ণ করতে পারি। অনেকগুলি স্বয়ংক্রিয় ভিজ্যুয়ালাইজেশন লাইব্রেরি রয়েছে তবে আমি বিশেষ করে এটির সাথে নিজেকে পরিচিত করতে সত্যিই উপভোগ করেছি।

4. মিটো

সবাই এক্সেল পছন্দ করে, তাই না? এটি একটি প্রথম উদাহরণে একটি ডেটাসেট অন্বেষণ করার সবচেয়ে সহজ উপায়গুলির মধ্যে একটি। আমি কয়েক মাস আগে Mito জুড়ে এসেছি, কিন্তু সম্প্রতি এটি চেষ্টা করেছিলাম এবং আমি একেবারে এটি পছন্দ করেছি!

এটি জিইউআই সমর্থন সহ একটি জুপিটার-ল্যাব এক্সটেনশন পাইথন লাইব্রেরি যা স্প্রেডশীট কার্যকারিতা যোগ করে। আপনি আপনার csv ডেটা লোড করতে পারেন এবং একটি স্প্রেডশীট হিসাবে ডেটাসেট সম্পাদনা করতে পারেন এবং এটি স্বয়ংক্রিয়ভাবে পান্ডাস কোড তৈরি করে। খুব ঠান্ডা.

Mito প্রকৃতপক্ষে একটি সম্পূর্ণ ব্লগ পোস্ট প্রাপ্য. যাইহোক, আমি আজ বেশি বিস্তারিত যাবো না। এর পরিবর্তে এখানে আপনার জন্য একটি সহজ টাস্ক প্রদর্শন রয়েছে। আরো বিস্তারিত জানার জন্য, চেক করুন এখানে.

স্থাপন

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

ইনস্টলেশন সম্পর্কে আরো তথ্যের জন্য, চেক করুন এখানে.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

উপরের কোডটি কার্যকর করার পরে, মিটোশিট জুপিটার ল্যাবে খুলবে। আমি IRIS ডেটাসেট ব্যবহার করছি। প্রথমত, আমি দুটি নতুন কলাম তৈরি করেছি। একটি হল গড় Sepal দৈর্ঘ্য এবং অন্যটি হল সমষ্টি Sepal প্রস্থ। দ্বিতীয়ত, আমি গড় Sepal দৈর্ঘ্যের জন্য কলামের নাম পরিবর্তন করেছি। অবশেষে, আমি গড় Sepal দৈর্ঘ্য কলামের জন্য একটি হিস্টোগ্রাম তৈরি করেছি।

উপরে উল্লিখিত পদক্ষেপগুলি অনুসরণ করার পরে কোডটি স্বয়ংক্রিয়ভাবে তৈরি হয়।

আউটপুট

লেখক দ্বারা চিত্র

উপরের ধাপগুলির জন্য নীচের কোড তৈরি করা হয়েছিল:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. গ্রামফর্মার

আরেকটি চিত্তাকর্ষক লাইব্রেরি, গ্রামফর্মার জেনারেটিভ মডেলের উপর ভিত্তি করে তৈরি করা হয়েছে যা আমাদের বাক্যে ব্যাকরণ সংশোধন করতে সাহায্য করে। এই লাইব্রেরিতে তিনটি মডেল রয়েছে যা একটি আবিষ্কারক, একটি হাইলাইটার এবং একটি সংশোধনকারী. পাঠ্যটিতে ভুল ব্যাকরণ আছে কিনা তা সনাক্তকারী সনাক্ত করে। হাইলাইটার বক্তৃতার ত্রুটিপূর্ণ অংশগুলি চিহ্নিত করে এবং সংশোধনকারী ত্রুটিগুলি সংশোধন করে। গ্রামফর্মার একটি সম্পূর্ণ ওপেন সোর্স এবং এটি প্রাথমিক পর্যায়ে রয়েছে। কিন্তু এটি দীর্ঘ অনুচ্ছেদের জন্য উপযুক্ত নয় কারণ এটি শুধুমাত্র একটি বাক্যের স্তরে কাজ করে এবং 64টি দৈর্ঘ্যের বাক্যের জন্য প্রশিক্ষিত হয়েছে।

বর্তমানে, সংশোধনকারী এবং হাইলাইটার মডেল কাজ করে। আসুন কিছু উদাহরণ দেখি।

স্থাপন

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

তাত্ক্ষণিক গ্রামফরমার

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

উদাহরণ

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

আউটপুট

লেখক দ্বারা চিত্র

উপরের আউটপুট থেকে, আমরা দেখতে পাচ্ছি এটি ব্যাকরণ এবং এমনকি বানান ভুল সংশোধন করে। একটি সত্যিই আশ্চর্যজনক লাইব্রেরি এবং খুব ভাল ফাংশন. আমি এখানে হাইলাইটার চেষ্টা করিনি, আপনি চেষ্টা করে দেখতে পারেন এই GitHub ডকুমেন্টেশন আরও জানতে বিস্তারিত.

6. স্টাইলফর্মার

গ্রামফর্মারের সাথে আমার ইতিবাচক অভিজ্ঞতা আমাকে আরও অনন্য লাইব্রেরি খুঁজতে উত্সাহিত করেছিল। এভাবেই আমি স্টাইলফর্মার পেয়েছি, আরেকটি অত্যন্ত আকর্ষণীয় পাইথন লাইব্রেরি। গ্রামফর্মার এবং স্টাইলফর্মার উভয়ই পৃথ্বীরাজ দামোদরন দ্বারা তৈরি করা হয়েছিল এবং উভয়ই জেনারেটিভ মডেলের উপর ভিত্তি করে। ওপেন সোর্সিং এর জন্য স্রষ্টাকে ধন্যবাদ।

স্টাইলফর্মার নৈমিত্তিক থেকে আনুষ্ঠানিক বাক্যে, আনুষ্ঠানিক থেকে নৈমিত্তিক বাক্যে, সক্রিয় থেকে প্যাসিভ এবং নিষ্ক্রিয় থেকে সক্রিয় বাক্যে রূপান্তর করতে সহায়তা করে।

আসুন কিছু উদাহরণ দেখি

স্থাপন

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

ইনস্ট্যান্টিয়েট স্টাইলফর্মার

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

উদাহরণ

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

উপরের আউটপুট দেখুন, এটি সঠিকভাবে রূপান্তর করে। আমি নৈমিত্তিক থেকে আনুষ্ঠানিক রূপান্তর করার জন্য এই লাইব্রেরিটি ব্যবহার করেছি, বিশেষ করে আমার একটি বিশ্লেষণে সোশ্যাল মিডিয়া পোস্টের জন্য। আরো বিস্তারিত জানার জন্য, অনুগ্রহ করে চেক করুন GitHub.

আপনি পূর্বে উল্লিখিত কিছু লাইব্রেরির সাথে পরিচিত হতে পারেন তবে গ্রামফর্মার এবং স্টাইলফর্মারের মতো সাম্প্রতিক খেলোয়াড়। তারা অত্যন্ত আন্ডাররেটেড এবং অবশ্যই পরিচিত হওয়ার যোগ্য কারণ তারা আমার অনেক সময় বাঁচিয়েছে এবং আমি আমার এনএলপি প্রকল্পগুলির জন্য তাদের ব্যাপকভাবে ব্যবহার করেছি।

পড়ার জন্য ধন্যবাদ. আপনি যোগ করার কিছু আছে, একটি মন্তব্য করতে নির্দ্বিধায় দয়া করে!

আপনি আমার আগের নিবন্ধ পছন্দ করতে পারে ডেটা সায়েন্সের জন্য পাঁচটি দুর্দান্ত পাইথন লাইব্রেরি

বায়ো: ধিলিপ সুব্রামানিয়ান একজন মেকানিক্যাল ইঞ্জিনিয়ার এবং তিনি অ্যানালিটিক্সে স্নাতকোত্তর সম্পন্ন করেছেন। আইটি, মার্কেটিং, ব্যাঙ্কিং, পাওয়ার এবং ম্যানুফ্যাকচারিং সহ ডেটা সম্পর্কিত বিভিন্ন ডোমেনে বিশেষীকরণের সাথে তার 9 বছরের অভিজ্ঞতা রয়েছে। তিনি এনএলপি এবং মেশিন লার্নিং সম্পর্কে উত্সাহী। তিনি একটি অবদানকারী এসএএস সম্প্রদায় এবং মিডিয়াম প্ল্যাটফর্মে ডেটা সায়েন্সের বিভিন্ন দিকের উপর প্রযুক্তিগত নিবন্ধ লিখতে ভালোবাসে।

মূল। অনুমতি নিয়ে পোস্ট করা।

সম্পর্কিত: