Återutgiven av Platon

anhängare: 0

6 coola Python -bibliotek som jag kom över nyligen

= Tidigare inlägg

Nästa inlägg =>

Taggar: Data Science, Maskininlärning, Python

Kolla in dessa fantastiska Python-bibliotek för maskininlärning.

kommentarer

By Dhilip Subramanian, Data Scientist och AI Enthusiast

Bild

Python är en integrerad del av maskininlärning och bibliotek gör vårt liv enklare. Nyligen stötte jag på 6 fantastiska bibliotek när jag arbetade med mina ML-projekt. De hjälpte mig att spara mycket tid och jag kommer att diskutera dem i den här bloggen.

1. ren text

Ett verkligt otroligt bibliotek, ren text bör vara din favorit när du behöver hantera skrapning eller sociala medier. Det coolaste med det är att det inte kräver någon lång fancy kod eller reguljära uttryck för att rensa vår data. Låt oss se några exempel:

Installation

!pip install cleantext

Exempelvis

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

Produktion

Av ovanstående kan vi se att det har Unicode i ordet Zürich (bokstaven "u" har kodats), ASCII-tecken (i Alu017eupine.), valutasymbol i rupier, HTML-länk, skiljetecken.

Du behöver bara nämna de nödvändiga ASCII, Unicode, webbadresser, siffror, valuta och skiljetecken i rensningsfunktionen. Eller så kan de ersättas med ersättningsparametrar i ovanstående funktion. Till exempel ändrade jag rupier-symbolen till rupier.

Det finns absolut inget behov av att använda reguljära uttryck eller långa koder. Mycket praktiskt bibliotek, speciellt om du vill rensa texterna från skrapning eller sociala medier. Baserat på dina krav kan du också skicka argumenten individuellt istället för att kombinera dem alla.

För mer information, kolla detta GitHub repository.

2. ritdata

Drawdata är ännu en cool python-biblioteksfynd av mig. Hur många gånger har du stött på en situation där du behöver förklara ML-koncepten för teamet? Det måste hända ofta eftersom datavetenskap handlar om lagarbete. Det här biblioteket hjälper dig att rita en datauppsättning i Jupyter-anteckningsboken.
Personligen tyckte jag verkligen om att använda det här biblioteket när jag förklarade ML-koncept för mitt team. Kudos till utvecklarna som skapade det här biblioteket!

Drawdata är endast för klassificeringsproblemet med fyra klasser.

Installation

!pip install drawdata

Exempelvis

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

Produktion

Bild av författaren

Ovanstående ritfönster öppnas efter att ha kört draw_Scatter(). Det är klart att det finns fyra klasser, nämligen A, B, C och D. Du kan klicka på vilken klass som helst och dra de poäng du vill. Varje klass representerar de olika färgerna i ritningen. Du har också möjlighet att ladda ner data som en csv- eller json-fil. Dessutom kan data kopieras till ditt urklipp och läsas från koden nedan

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

En av begränsningarna med detta bibliotek är att det bara ger två datapunkter med fyra klasser. Men annars är det definitivt värt det. För mer information, kolla detta GitHub-länk.

3. Autoviz

Jag kommer aldrig att glömma den tid jag tillbringade med att göra utforskande dataanalyser med matplotlib. Det finns många enkla visualiseringsbibliotek. Men jag fick nyligen reda på Autoviz som automatiskt visualiserar alla dataset med en enda rad kod.

Installation

!pip install autoviz

Exempelvis

Jag använde IRIS-datauppsättningen för det här exemplet.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

Ovanstående parametrar är standard en. För mer information, vänligen kontrollera här..

Produktion

Bild av författaren

Vi kan se alla bilder och komplettera vår EDA med en enda rad kod. Det finns många autovisualiseringsbibliotek men jag gillade verkligen att bekanta mig med detta i synnerhet.

4. Mito

Alla gillar Excel, eller hur? Det är ett av de enklaste sätten att utforska en datauppsättning i en första instans. Jag stötte på Mito för några månader sedan, men provade det bara nyligen och jag älskade det absolut!

Det är ett Jupyter-lab extension python-bibliotek med GUI-stöd som lägger till kalkylbladsfunktionalitet. Du kan ladda din csv-data och redigera datamängden som ett kalkylblad, och det genererar automatiskt Pandas-kod. Väldigt coolt.

Mito förtjänar verkligen ett helt blogginlägg. Jag ska dock inte gå in på så mycket detaljer idag. Här är en enkel uppgiftsdemonstration för dig istället. För mer information, vänligen kontrollera här..

Installation

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

För mer information om installation, vänligen kontrollera här..

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

Efter exekvering av ovanstående kod öppnas mitosheet i jupyterlabbet. Jag använder IRIS-datauppsättningen. Först skapade jag två nya kolumner. Den ena är den genomsnittliga foderbladslängden och den andra är den totala foderbladsbredden. För det andra ändrade jag kolumnnamnet för genomsnittlig sepallängd. Slutligen skapade jag ett histogram för kolumnen för den genomsnittliga sepallängden.

Koden genereras automatiskt efter att ovan nämnda steg har följts.

Produktion

Bild av författaren

Nedanstående kod genererades för stegen ovan:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. Gramformer

Ännu ett imponerande bibliotek, Gramformer är baserat på generativa modeller som hjälper oss att korrigera grammatiken i meningarna. Detta bibliotek har tre modeller som har en detektor, en highlighter och en corrector. Detektorn identifierar om texten har felaktig grammatik. Markören markerar de felaktiga delarna av talet och korrigeraren fixar felen. Gramformer är en helt öppen källkod och är i ett tidigt skede. Men det är inte lämpligt för långa stycken eftersom det bara fungerar på meningsnivå och har tränats för 64 långa meningar.

För närvarande fungerar korrigerings- och överstrykningsmodellen. Låt oss se några exempel.

Installation

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Instantiera Gramformer

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

Exempelvis

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

Produktion

Bild av författaren

Från ovanstående utdata kan vi se att det korrigerar grammatik och till och med stavfel. Ett riktigt fantastiskt bibliotek och fungerar mycket bra också. Jag har inte provat highlighter här, du kan prova och kolla denna GitHub-dokumentation för mer detaljer.

6. Styleformer

Min positiva erfarenhet av Gramformer uppmuntrade mig att leta efter fler unika bibliotek. Det var så jag hittade Styleformer, ett annat mycket tilltalande Python-bibliotek. Både Gramformer och Styleformer skapades av Prithiviraj Damodaran och båda är baserade på generativa modeller. Kudos till skaparen för att ha öppnat det.

Styleformer hjälper till att konvertera tillfälliga till formella meningar, formella till tillfälliga meningar, aktiva till passiva och passiva till aktiva meningar.

Låt oss se några exempel

Installation

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Instantiera Styleformer

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

Exempel

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

Se ovanstående utdata, den konverterar exakt. Jag använde det här biblioteket för att konvertera casual till formellt, speciellt för inlägg på sociala medier i en av mina analyser. För mer information, vänligen kolla GitHub.

Du kanske är bekant med några av de tidigare nämnda biblioteken men sådana som Gramformer och Styleformer är nyare spelare. De är extremt underskattade och förtjänar verkligen att bli kända eftersom de sparade mycket av min tid och jag använde dem kraftigt för mina NLP-projekt.

Tack för att du läser. Om du har något att tillägga får du gärna lämna en kommentar!

Du kanske också gillar min tidigare artikel Fem coola Python-bibliotek för datavetenskap

Bio: Dhilip Subramanian är en maskiningenjör och har avslutat sin magisterexamen i Analytics. Han har 9 års erfarenhet av specialisering inom olika domäner relaterade till data inklusive IT, marknadsföring, bank, kraft och tillverkning. Han brinner för NLP och maskininlärning. Han är en bidragsgivare till SAS community och älskar att skriva tekniska artiklar om olika aspekter av datavetenskap på Medium-plattformen.

Ursprungliga. Skickas om med tillstånd.

Relaterat:

= Tidigare inlägg

Nästa inlägg =>

Topphistorier de senaste 30 dagarna

Mest populär
Skillnaden mellan datavetenskapare och ML -ingenjörer 3 skäl till varför du bör använda linjära regressionsmodeller istället för neurala nätverk Vanligaste datavetenskapintervjufrågor och svar GitHub Copilot -alternativ för öppen källkod Råd för lärande av datavetenskap från Googles forskningsdirektör

Mest delad
Skillnaden mellan datavetenskapare och ML -ingenjörer Hur du frågar din Pandas Dataframe Varför och hur ska du lära dig "Produktiv datavetenskap"? Inte bara för djupt lärande: Hur GPU: er påskyndar datavetenskap och dataanalys Skriva ditt första distribuerade Python -program med Ray