Genudgivet af Platon

Abonnenter: 0

6 seje Python-biblioteker, som jeg stødte på for nylig

= Forrige indlæg

Næste indlæg =>

tags: data, Science, Maskinelæring, Python

Tjek disse fantastiske Python-biblioteker til Machine Learning.

kommentarer

By Dhilip Subramanian, Data Scientist og AI-entusiast

Python er en integreret del af maskinlæring, og biblioteker gør vores liv enklere. For nylig stødte jeg på 6 fantastiske biblioteker, mens jeg arbejdede på mine ML-projekter. De hjalp mig med at spare en masse tid, og jeg vil diskutere dem i denne blog.

1. ren tekst

Et virkelig utroligt bibliotek, ren tekst bør være dit valg, når du skal håndtere skrabe eller sociale mediedata. Det fedeste ved det er, at det ikke kræver nogen lang fancy kode eller regulære udtryk for at rense vores data. Lad os se nogle eksempler:

Installation

!pip install cleantext

Eksempel

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

Produktion

Fra ovenstående kan vi se, at det har Unicode i ordet Zürich (bogstavet 'u' er blevet kodet), ASCII-tegn (i Alu017eupine.), valutasymbol i rupee, HTML-link, tegnsætninger.

Du skal blot nævne de påkrævede ASCII, Unicode, URL'er, tal, valuta og tegnsætning i rensningsfunktionen. Eller de kan erstattes med udskiftningsparametre i ovenstående funktion. For eksempel ændrede jeg rupee-symbolet til Rupees.

Der er absolut ingen grund til at bruge regulære udtryk eller lange koder. Meget praktisk bibliotek, især hvis du vil rense teksterne fra skrabning eller sociale mediedata. Baseret på dit krav kan du også videregive argumenterne enkeltvis i stedet for at kombinere dem alle.

For flere detaljer, tjek venligst dette GitHub repository.

2. tegnedata

Drawdata er endnu en af mine seje python-biblioteksfund. Hvor mange gange er du stødt på en situation, hvor du skal forklare ML-begreberne for teamet? Det skal ske ofte, fordi datavidenskab handler om teamwork. Dette bibliotek hjælper dig med at tegne et datasæt i Jupyter-notesbogen.
Personligt nød jeg virkelig at bruge dette bibliotek, da jeg forklarede ML-koncepter for mit team. Kudos til udviklerne, der har oprettet dette bibliotek!

Drawdata er kun til klassifikationsproblemet med fire klasser.

Installation

!pip install drawdata

Eksempel

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

Produktion

Billede af forfatteren

Ovenstående tegnevinduer åbnes efter udførelse af draw_Scatter(). Det er klart, at der er fire klasser, nemlig A, B, C og D. Du kan klikke på en hvilken som helst klasse og tegne de point, du ønsker. Hver klasse repræsenterer de forskellige farver på tegningen. Du har også mulighed for at downloade dataene som en csv- eller json-fil. Dataene kan også kopieres til dit udklipsholder og læses fra nedenstående kode

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

En af begrænsningerne ved dette bibliotek er, at det kun giver to datapunkter med fire klasser. Men ellers er det bestemt det værd. For flere detaljer, tjek venligst dette GitHub-link.

3. Autoviz

Jeg vil aldrig glemme den tid, jeg brugte på at lave sonderende dataanalyse ved hjælp af matplotlib. Der er mange simple visualiseringsbiblioteker. Men jeg fandt for nylig ud af Autoviz, som automatisk visualiserer ethvert datasæt med en enkelt kodelinje.

Installation

!pip install autoviz

Eksempel

Jeg brugte IRIS-datasættet til dette eksempel.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

Ovenstående parametre er standard en. For mere information, se venligst link..

Produktion

Billede af forfatteren

Vi kan se alt det visuelle og fuldende vores EDA med en enkelt kodelinje. Der er mange autovisualiseringsbiblioteker, men jeg nød virkelig at gøre mig bekendt med denne i særdeleshed.

4. Mito

Alle kan lide Excel, ikke? Det er en af de nemmeste måder at udforske et datasæt på i første omgang. Jeg stødte på Mito for et par måneder siden, men prøvede det først for nylig, og jeg var helt vild med det!

Det er et Jupyter-lab-udvidelsespython-bibliotek med GUI-understøttelse, som tilføjer regnearksfunktionalitet. Du kan indlæse dine csv-data og redigere datasættet som et regneark, og det genererer automatisk Pandas-kode. Meget sejt.

Mito fortjener virkelig et helt blogindlæg. Jeg vil dog ikke gå i detaljer i dag. Her er en simpel opgavedemonstration til dig i stedet for. For flere detaljer, tjek venligst link..

Installation

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

For mere information om installation, se venligst link..

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

Efter at have udført ovenstående kode, åbnes mitosheet i jupyter lab. Jeg bruger IRIS-datasættet. For det første oprettede jeg to nye kolonner. Den ene er den gennemsnitlige bægerbladslængde, og den anden er den samlede bægerbladsbredde. For det andet ændrede jeg kolonnenavnet for gennemsnitlig sepallængde. Til sidst oprettede jeg et histogram for den gennemsnitlige sepallængde kolonne.

Koden genereres automatisk efter de ovennævnte trin er fulgt.

Produktion

Billede af forfatteren

Nedenstående kode blev genereret til ovenstående trin:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. Gramformer

Endnu et imponerende bibliotek, Gramformer er baseret på generative modeller, som hjælper os med at rette grammatikken i sætningerne. Dette bibliotek har tre modeller, som har en detektor, en highlighter og en korrektor. Detektoren identificerer, om teksten har forkert grammatik. Markøren markerer de defekte dele af tale, og korrekturen retter fejlene. Gramformer er en fuldstændig open source og er i sin tidlige fase. Men det er ikke egnet til lange afsnit, da det kun fungerer på sætningsniveau og er blevet trænet til 64 sætninger.

I øjeblikket fungerer korrektor- og highlighter-modellen. Lad os se nogle eksempler.

Installation

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Instantiate Gramformer

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

Eksempel

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

Produktion

Billede af forfatteren

Fra ovenstående output kan vi se, at det retter grammatik og endda stavefejl. Et virkelig fantastisk bibliotek og fungerer også meget godt. Jeg har ikke prøvet highlighter her, du kan prøve at tjekke denne GitHub-dokumentation for mere detaljer.

6. Styleformer

Min positive oplevelse med Gramformer tilskyndede mig til at lede efter mere unikke biblioteker. Det var sådan jeg fandt Styleformer, et andet meget tiltalende Python-bibliotek. Både Gramformer og Styleformer blev skabt af Prithiviraj Damodaran og begge er baseret på generative modeller. Kudos til skaberen for open source det.

Styleformer hjælper med at konvertere casual til formelle sætninger, formelle til casual sætninger, aktive til passive og passive til aktive sætninger.

Lad os se nogle eksempler

Installation

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Instantiate Styleformer

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

Eksempler

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

Se ovenstående output, det konverterer nøjagtigt. Jeg brugte dette bibliotek til at konvertere afslappet til formelt, især til opslag på sociale medier i en af mine analyser. For flere detaljer, tjek venligst GitHub.

Du er måske bekendt med nogle af de tidligere nævnte biblioteker, men dem som Gramformer og Styleformer er nyere spillere. De er ekstremt undervurderede og fortjener bestemt at blive kendt, fordi de sparede meget af min tid, og jeg brugte dem i høj grad til mine NLP-projekter.

Tak fordi du læste med. Hvis du har noget at tilføje, er du velkommen til at skrive en kommentar!

Du kan måske også lide min tidligere artikel Fem seje Python-biblioteker til datavidenskab

Bio: Dhilip Subramanian er maskiningeniør og har afsluttet sin Master i Analytics. Han har 9 års erfaring med specialisering i forskellige domæner relateret til data, herunder IT, marketing, bank, power og produktion. Han brænder for NLP og machine learning. Han er en bidragyder til SAS samfund og elsker at skrive tekniske artikler om forskellige aspekter af datavidenskab på Medium-platformen.

Original. Genopslået med tilladelse.

Relateret:

= Forrige indlæg

Næste indlæg =>

Tophistorier de seneste 30 dage

Mest Populære
Forskellen mellem dataforskere og ML-ingeniører 3 grunde til at du bør bruge lineære regressionsmodeller i stedet for neurale netværk Mest almindelige datavidenskabelige interviewspørgsmål og svar GitHub Copilot Open Source-alternativer Råd til at lære datavidenskab fra Googles forskningsdirektør

Mest delt
Forskellen mellem dataforskere og ML-ingeniører Sådan forespørger du din Pandas dataramme Hvorfor og hvordan skal du lære "Produktiv datavidenskab"? Ikke kun til dyb læring: Hvordan GPU'er accelererer datavidenskab og dataanalyse At skrive din første distribuerede Python-applikation med Ray