प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

6 कूल पायथन पुस्तकालय जो मैंने हाल ही में देखे हैं

= पिछला पोस्ट

अगला पोस्ट =>

टैग: डाटा विज्ञान, मशीन लर्निंग, अजगर

मशीन लर्निंग के लिए इन अद्भुत पायथन लाइब्रेरीज़ को देखें।

टिप्पणियाँ

By ढिलिप सुब्रमण्यन, डेटा वैज्ञानिक और एआई उत्साही

पायथन मशीन लर्निंग का एक अभिन्न अंग है और लाइब्रेरी हमारे जीवन को सरल बनाती है। हाल ही में, मुझे अपने एमएल प्रोजेक्ट्स पर काम करते समय 6 अद्भुत लाइब्रेरीज़ मिलीं। उन्होंने मेरा बहुत समय बचाने में मदद की और मैं इस ब्लॉग में उनके बारे में चर्चा करने जा रहा हूं।

1. स्वच्छ-पाठ

जब आपको स्क्रैपिंग या सोशल मीडिया डेटा को संभालने की आवश्यकता हो तो वास्तव में अविश्वसनीय लाइब्रेरी, क्लीन-टेक्स्ट आपका पसंदीदा होना चाहिए। इसके बारे में सबसे अच्छी बात यह है कि इसे हमारे डेटा को साफ करने के लिए किसी लंबे फैंसी कोड या रेगुलर एक्सप्रेशन की आवश्यकता नहीं है। आइए कुछ उदाहरण देखें:

स्थापना

!pip install cleantext

उदाहरण

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

उत्पादन

ऊपर से, हम देख सकते हैं कि इसमें ज्यूरिख शब्द में यूनिकोड है (अक्षर 'यू' को एन्कोड किया गया है), एएससीआईआई अक्षर (अलु017यूपिन में), रुपये में मुद्रा प्रतीक, एचटीएमएल लिंक, विराम चिह्न।

आपको बस क्लीन फ़ंक्शन में आवश्यक ASCII, यूनिकोड, यूआरएल, संख्याएं, मुद्रा और विराम चिह्न का उल्लेख करना होगा। या, उन्हें उपरोक्त फ़ंक्शन में रिप्लेस पैरामीटर से बदला जा सकता है। उदाहरण के लिए, मैंने रुपये के प्रतीक को रुपये में बदल दिया।

रेगुलर एक्सप्रेशन या लंबे कोड का उपयोग करने की बिल्कुल भी आवश्यकता नहीं है। बहुत उपयोगी लाइब्रेरी, खासकर यदि आप टेक्स्ट को स्क्रैपिंग या सोशल मीडिया डेटा से साफ़ करना चाहते हैं। अपनी आवश्यकता के आधार पर, आप सभी तर्कों को संयोजित करने के बजाय व्यक्तिगत रूप से भी पारित कर सकते हैं।

अधिक जानकारी के लिए कृपया इसे जांचें गिटहब भंडार.

2. ड्राडेटा

ड्रॉडेटा मेरी एक और बेहतरीन पायथन लाइब्रेरी खोज है। आप कितनी बार ऐसी स्थिति में आए हैं जहां आपको टीम को एमएल अवधारणाओं को समझाने की आवश्यकता है? ऐसा अक्सर होना चाहिए क्योंकि डेटा विज्ञान पूरी तरह से टीम वर्क के बारे में है। यह लाइब्रेरी आपको ज्यूपिटर नोटबुक में डेटासेट बनाने में मदद करती है।
व्यक्तिगत रूप से, जब मैंने अपनी टीम को एमएल अवधारणाओं को समझाया तो मुझे इस लाइब्रेरी का उपयोग करने में वास्तव में आनंद आया। इस लाइब्रेरी को बनाने वाले डेवलपर्स को धन्यवाद!

ड्राडेटा केवल चार वर्गों वाली वर्गीकरण समस्या के लिए है।

स्थापना

!pip install drawdata

उदाहरण

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

उत्पादन

लेखक द्वारा छवि

उपरोक्त ड्राइंग विंडो ड्रॉ_स्कैटर() को निष्पादित करने के बाद खुलेंगी। स्पष्ट रूप से, ए, बी, सी और डी नामक चार वर्ग हैं। आप किसी भी वर्ग पर क्लिक कर सकते हैं और अपने इच्छित बिंदु बना सकते हैं। प्रत्येक वर्ग ड्राइंग में विभिन्न रंगों का प्रतिनिधित्व करता है। आपके पास डेटा को सीएसवी या जेसन फ़ाइल के रूप में डाउनलोड करने का विकल्प भी है। साथ ही, डेटा को आपके क्लिपबोर्ड पर कॉपी किया जा सकता है और नीचे दिए गए कोड से पढ़ा जा सकता है

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

इस लाइब्रेरी की एक सीमा यह है कि यह चार कक्षाओं के साथ केवल दो डेटा पॉइंट देती है। लेकिन अन्यथा, यह निश्चित रूप से इसके लायक है। अधिक जानकारी के लिए कृपया इसे जांचें गिटहब लिंक.

3. ऑटोविज़

मैं matplotlib का उपयोग करके खोजपूर्ण डेटा विश्लेषण करने में बिताया गया समय कभी नहीं भूलूंगा। कई सरल विज़ुअलाइज़ेशन लाइब्रेरी हैं। हालाँकि, मुझे हाल ही में ऑटोविज़ के बारे में पता चला जो कोड की एक पंक्ति के साथ किसी भी डेटासेट को स्वचालित रूप से विज़ुअलाइज़ करता है।

स्थापना

!pip install autoviz

उदाहरण

इस उदाहरण के लिए मैंने IRIS डेटासेट का उपयोग किया।

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

उपरोक्त पैरामीटर डिफ़ॉल्ट हैं। अधिक जानकारी के लिए कृपया जांचें यहाँ उत्पन्न करें.

उत्पादन

लेखक द्वारा छवि

हम सभी दृश्य देख सकते हैं और कोड की एक पंक्ति के साथ अपना ईडीए पूरा कर सकते हैं। कई ऑटो विज़ुअलाइज़ेशन लाइब्रेरी हैं लेकिन विशेष रूप से इससे परिचित होने में मुझे वास्तव में आनंद आया।

4. मिटो

हर किसी को एक्सेल पसंद है, है ना? यह पहली बार में डेटासेट की खोज करने के सबसे आसान तरीकों में से एक है। कुछ महीने पहले मेरी मुलाकात मिटो से हुई थी, लेकिन मैंने इसे हाल ही में आज़माया और मुझे यह बेहद पसंद आया!

यह जीयूआई समर्थन के साथ एक ज्यूपिटर-लैब एक्सटेंशन पायथन लाइब्रेरी है जो स्प्रेडशीट कार्यक्षमता जोड़ता है। आप अपना सीएसवी डेटा लोड कर सकते हैं और डेटासेट को स्प्रेडशीट के रूप में संपादित कर सकते हैं, और यह स्वचालित रूप से पांडा कोड उत्पन्न करता है। बहुत ही शांत।

मिटो वास्तव में एक संपूर्ण ब्लॉग पोस्ट का हकदार है। हालाँकि, मैं आज ज्यादा विस्तार में नहीं जाऊंगा। इसके बजाय यहां आपके लिए एक सरल कार्य प्रदर्शन है। अधिक जानकारी के लिए कृपया जांचें यहाँ उत्पन्न करें.

स्थापना

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

स्थापना के बारे में अधिक जानकारी के लिए कृपया जांचें यहाँ उत्पन्न करें.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

उपरोक्त कोड को निष्पादित करने के बाद, माइटोशीट ज्यूपिटर लैब में खुल जाएगी। मैं आईआरआईएस डेटासेट का उपयोग कर रहा हूं। सबसे पहले, मैंने दो नए कॉलम बनाए। एक औसत सेपल लंबाई है और दूसरा सेपल चौड़ाई का योग है। दूसरे, मैंने औसत सेपल लंबाई के लिए कॉलम का नाम बदल दिया। अंत में, मैंने औसत सेपल लंबाई कॉलम के लिए एक हिस्टोग्राम बनाया।

उपर्युक्त चरणों का पालन करने के बाद कोड स्वचालित रूप से उत्पन्न होता है।

उत्पादन

लेखक द्वारा छवि

उपरोक्त चरणों के लिए नीचे दिया गया कोड तैयार किया गया था:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. ग्रामफॉर्मर

एक और प्रभावशाली लाइब्रेरी, ग्रामफॉर्मर जेनरेटिव मॉडल पर आधारित है जो हमें वाक्यों में व्याकरण को सही करने में मदद करती है। इस लाइब्रेरी में तीन मॉडल हैं जिनमें एक डिटेक्टर, एक हाइलाइटर, और एक सुधारक. डिटेक्टर पहचानता है कि पाठ में गलत व्याकरण है या नहीं। हाइलाइटर भाषण के दोषपूर्ण भागों को चिह्नित करता है और सुधारक त्रुटियों को ठीक करता है। ग्रामफॉर्मर पूरी तरह से खुला स्रोत है और अभी शुरुआती चरण में है। लेकिन यह लंबे अनुच्छेदों के लिए उपयुक्त नहीं है क्योंकि यह केवल वाक्य स्तर पर काम करता है और इसे 64 लंबे वाक्यों के लिए प्रशिक्षित किया गया है।

वर्तमान में, सुधारक और हाइलाइटर मॉडल काम करता है। आइए कुछ उदाहरण देखें.

स्थापना

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

इंस्टेंटियेट ग्रामफॉर्मर

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

उदाहरण

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

उत्पादन

लेखक द्वारा छवि

उपरोक्त आउटपुट से, हम देख सकते हैं कि यह व्याकरण और यहां तक कि वर्तनी की गलतियों को भी सुधारता है। सचमुच एक अद्भुत पुस्तकालय और बहुत अच्छे से काम भी करता है। मैंने यहां हाइलाइटर का प्रयास नहीं किया है, आप अधिक जानकारी के लिए इस GitHub दस्तावेज़ को आज़मा और देख सकते हैं विवरण.

6. स्टाइलफॉर्मर

ग्रामफॉर्मर के साथ मेरे सकारात्मक अनुभव ने मुझे और अधिक अद्वितीय पुस्तकालयों की तलाश करने के लिए प्रोत्साहित किया। इस तरह मुझे स्टाइलफॉर्मर मिला, जो एक और बेहद आकर्षक पायथन लाइब्रेरी है। ग्रामफॉर्मर और स्टाइलफॉर्मर दोनों पृथ्वीराज दामोदरन द्वारा बनाए गए थे और दोनों जेनरेटिव मॉडल पर आधारित हैं। इसे ओपन सोर्स करने के लिए निर्माता को धन्यवाद।

स्टाइलफ़ॉर्मर कैज़ुअल वाक्यों को औपचारिक वाक्यों, औपचारिक को कैज़ुअल वाक्यों, सक्रिय को निष्क्रिय और निष्क्रिय को सक्रिय वाक्यों में बदलने में मदद करता है।

आइए कुछ उदाहरण देखें

स्थापना

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

इंस्टेंटियेट स्टाइलफॉर्मर

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

उदाहरण

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

उपरोक्त आउटपुट देखें, यह सटीक रूप से परिवर्तित होता है। मैंने अपने एक विश्लेषण में इस लाइब्रेरी का उपयोग कैज़ुअल को औपचारिक में बदलने के लिए किया, विशेषकर सोशल मीडिया पोस्ट के लिए। अधिक जानकारी के लिए कृपया जांचें GitHub.

आप पहले उल्लिखित कुछ पुस्तकालयों से परिचित हो सकते हैं लेकिन ग्रामफॉर्मर और स्टाइलफॉर्मर जैसे पुस्तकालय हाल के खिलाड़ी हैं। उन्हें बेहद कम आंका गया है और वे निश्चित रूप से जाने जाने लायक हैं क्योंकि उन्होंने मेरा बहुत सारा समय बचाया और मैंने अपने एनएलपी प्रोजेक्ट्स के लिए उनका भरपूर उपयोग किया।

पढ़ने के लिए धन्यवाद। यदि आपके पास जोड़ने के लिए कुछ है, तो कृपया बेझिझक एक टिप्पणी छोड़ें!

आपको मेरा पिछला लेख भी पसंद आ सकता है डेटा साइंस के लिए पांच बेहतरीन पायथन लाइब्रेरी

जैव: ढिलिप सुब्रमण्यन वह एक मैकेनिकल इंजीनियर हैं और उन्होंने एनालिटिक्स में मास्टर डिग्री पूरी की है। उनके पास आईटी, मार्केटिंग, बैंकिंग, पावर और मैन्युफैक्चरिंग सहित डेटा से संबंधित विभिन्न क्षेत्रों में विशेषज्ञता का 9 साल का अनुभव है। उन्हें एनएलपी और मशीन लर्निंग का शौक है। वह इसमें योगदानकर्ता है एसएएस समुदाय और मीडियम प्लेटफॉर्म पर डेटा विज्ञान के विभिन्न पहलुओं पर तकनीकी लेख लिखना पसंद करते हैं।

मूल। अनुमति के साथ पुनर्प्रकाशित।

संबंधित: