Julkaissut Platon

seuraajia: 0

6 hienoa Python -kirjastoa, jotka löysin äskettäin

= Edellinen viesti

Seuraava viesti =>

Tunnisteet: data Science, Koneen oppiminen, Python

Tutustu näihin mahtaviin Python-kirjastoihin koneoppimista varten.

kommentit

By Dhilip Subramanian, Data Scientist ja AI-harrastaja

Python on olennainen osa koneoppimista, ja kirjastot tekevät elämästämme yksinkertaisempaa. Äskettäin törmäsin 6 mahtavaan kirjastoon työskennellessäni ML-projekteissani. Ne auttoivat minua säästämään paljon aikaa, ja aion keskustella niistä tässä blogissa.

1. puhdas teksti

Todella uskomaton kirjasto, puhtaan tekstin pitäisi olla sinun valintasi, kun sinun on käsiteltävä kaapattua tai sosiaalisen median dataa. Hienointa siinä on, että se ei vaadi pitkää hienoa koodia tai säännöllisiä lausekkeita tietojen puhdistamiseen. Katsotaanpa joitain esimerkkejä:

Asennus

!pip install cleantext

esimerkki

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

ulostulo

Yllä olevasta voimme nähdä, että siinä on Unicode sanassa Zurich (kirjain 'u' on koodattu), ASCII-merkkejä (Alu017eupine.), valuuttasymboli rupiassa, HTML-linkki, välimerkit.

Sinun tarvitsee vain mainita vaadittu ASCII, Unicode, URL-osoitteet, numerot, valuutta ja välimerkit puhtaassa toiminnossa. Tai ne voidaan korvata korvaavilla parametreilla yllä olevassa toiminnossa. Vaihdoin esimerkiksi rupia-symbolin rupiaksi.

Ei ole mitään tarvetta käyttää säännöllisiä lausekkeita tai pitkiä koodeja. Erittäin kätevä kirjasto varsinkin jos haluat puhdistaa tekstit kaavinta tai sosiaalisen median tiedoista. Vaatimuksesi perusteella voit myös välittää argumentit yksitellen sen sijaan, että yhdistäisit niitä kaikkia.

Katso lisätietoja tästä GitHub-arkisto.

2. piirtotiedot

Drawdata on jälleen yksi hieno python-kirjastolöytöni. Kuinka monta kertaa olet törmännyt tilanteeseen, jossa sinun täytyy selittää ML-käsitteet joukkueelle? Sen täytyy tapahtua usein, koska datatieteessä on kyse ryhmätyöstä. Tämä kirjasto auttaa sinua piirtämään tietojoukon Jupyter-muistikirjaan.
Itse pidin todella tämän kirjaston käyttämisestä, kun selitin ML-käsitteet tiimilleni. Kiitos kehittäjille, jotka loivat tämän kirjaston!

Drawdata on vain neljän luokan luokitteluongelmaa varten.

Asennus

!pip install drawdata

esimerkki

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

ulostulo

Kirjoittajan kuva

Yllä olevat piirustusikkunat avautuvat, kun draw_Scatter() on suoritettu. On selvää, että on neljä luokkaa, nimittäin A, B, C ja D. Voit napsauttaa mitä tahansa luokkaa ja piirtää haluamasi pisteet. Jokainen luokka edustaa piirustuksen eri värejä. Voit myös ladata tiedot csv- tai json-tiedostona. Tiedot voidaan myös kopioida leikepöydälle ja lukea alla olevasta koodista

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

Yksi tämän kirjaston rajoituksista on, että se antaa vain kaksi datapistettä neljällä luokalla. Mutta muuten se on ehdottomasti sen arvoista. Katso lisätietoja tästä GitHub-linkki.

3. Autoviz

En koskaan unohda aikaa, jonka vietin tutkivan data-analyysin tekemiseen matplotlibillä. On olemassa monia yksinkertaisia visualisointikirjastoja. Sain kuitenkin tietää äskettäin Autovizista, joka visualisoi automaattisesti minkä tahansa tietojoukon yhdellä koodirivillä.

Asennus

!pip install autoviz

esimerkki

Käytin tässä esimerkissä IRIS-tietojoukkoa.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

Yllä olevat parametrit ovat oletusarvoja. Katso lisätietoja tätä.

ulostulo

Kirjoittajan kuva

Näemme kaikki visuaalit ja täydennämme EDA:ta yhdellä koodirivillä. Automaattisen visualisoinnin kirjastoja on monia, mutta nautin todella tutustumisesta erityisesti tähän.

4. Mito

Kaikki pitävät Excelistä, eikö niin? Se on yksi helpoimmista tavoista tutkia tietojoukkoa ensimmäisessä vaiheessa. Törmäsin Mitoon muutama kuukausi sitten, mutta kokeilin sitä vasta äskettäin ja rakastin sitä ehdottomasti!

Se on Jupyter-lab-laajennus Python-kirjasto, jossa on GUI-tuki ja joka lisää laskentataulukkotoimintoja. Voit ladata csv-tietosi ja muokata tietojoukkoa laskentataulukkona, ja se luo automaattisesti Pandas-koodin. Todella siistiä.

Mito todellakin ansaitsee kokonaisen blogikirjoituksen. En kuitenkaan mene tänään sen enempää yksityiskohtiin. Tässä on sen sijaan yksinkertainen tehtäväesittely sinulle. Katso lisätietoja tätä.

Asennus

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

Katso lisätietoja asennuksesta tätä.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

Yllä olevan koodin suorittamisen jälkeen mitosheet avautuu jupyter-laboratoriossa. Käytän IRIS-tietojoukkoa. Ensin loin kaksi uutta saraketta. Toinen on verholehden keskipituus ja toinen verholeveyden summa. Toiseksi vaihdoin sarakkeen nimen keskimääräiselle Sepal-pituudelle. Lopuksi loin histogrammin keskimääräiselle Sepal-pituudelle.

Koodi luodaan automaattisesti, kun yllä mainitut vaiheet on suoritettu.

ulostulo

Kirjoittajan kuva

Alla oleva koodi luotiin yllä olevia vaiheita varten:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. Gramformer

Toinen vaikuttava kirjasto, Gramformer, perustuu generatiivisiin malleihin, jotka auttavat meitä korjaamaan lauseiden kielioppia. Tässä kirjastossa on kolme mallia, joissa on a ilmaisin, korostus ja korjain. Ilmaisin tunnistaa, jos tekstissä on kielioppivirheitä. Korostusvalo merkitsee puheen vialliset osat ja korjaaja korjaa virheet. Gramformer on täysin avoin lähdekoodi ja sen alkuvaiheessa. Mutta se ei sovellu pitkille kappaleille, koska se toimii vain lausetasolla ja on koulutettu 64 pituiselle lauseelle.

Tällä hetkellä korjaus- ja korostusmalli toimii. Katsotaanpa joitain esimerkkejä.

Asennus

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Instantiate Gramformer

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

esimerkki

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

ulostulo

Kirjoittajan kuva

Yllä olevasta tuloksesta voimme nähdä, että se korjaa kielioppi- ja jopa kirjoitusvirheet. Todella upea kirjasto ja toimii myös erittäin hyvin. En ole kokeillut korostustyökalua täällä, voit kokeilla ja tarkistaa tästä GitHub-dokumentaatiosta lisää yksityiskohdat.

6. Styleformer

Myönteinen kokemukseni Gramformerista rohkaisi minua etsimään ainutlaatuisempia kirjastoja. Näin löysin Styleformerin, toisen erittäin houkuttelevan Python-kirjaston. Sekä Gramformer että Styleformer ovat Prithiviraj Damodaranin luomia ja molemmat perustuvat generatiivisiin malleihin. Kiitos luojalle avoimesta lähdekoodista.

Styleformer auttaa muuttamaan satunnaiset lauseet muodollisiksi, muodolliset lauseet satunnaisiksi, aktiiviset lauseet passiivisiksi ja passiiviset lauseet aktiivisiksi.

Katsotaanpa joitain esimerkkejä

Asennus

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Instantiate Styleformer

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

Esimerkit

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

Katso yllä oleva tulos, se muuntaa tarkasti. Käytin tätä kirjastoa muuntaessani arkipäiväiset muodollisiksi, erityisesti sosiaalisen median julkaisuihin yhdessä analyysissäni. Jos haluat lisätietoja, tarkista ystävällisesti GitHub.

Saatat olla tuttuja joistakin aiemmin mainituista kirjastoista, mutta sellaiset kuten Gramformer ja Styleformer ovat uusia pelaajia. Ne ovat erittäin aliarvostettuja ja ansaitsevat varmasti tulla tunnetuksi, koska ne säästivät paljon aikaani ja käytin niitä voimakkaasti NLP-projekteissani.

Kiitos kun luit. Jos sinulla on jotain lisättävää, ole hyvä ja jätä kommentti!

Saatat pitää myös edellisestä artikkelistani Viisi hienoa Python-kirjastoa datatieteelle

Bio: Dhilip Subramanian on mekaaninen insinööri ja suorittanut maisterin Analyticsissa. Hänellä on 9 vuoden kokemus erikoistumisesta moniin tietoihin liittyviin aloihin, kuten IT, markkinointi, pankkitoiminta, voima ja valmistus. Hän on intohimoinen NLP: hen ja koneoppimiseen. Hän on avustaja SAS-yhteisö ja rakastaa kirjoittaa teknisiä artikkeleita tietotekniikan eri näkökohdista Medium-alustalla.

Alkuperäinen. Postitettu luvalla.

Related:

= Edellinen viesti

Seuraava viesti =>

Suosituimmat tarinat viimeisen 30 päivän aikana

Suosituin
Ero datatieteilijöiden ja ML -insinöörien välillä 3 syytä, miksi sinun pitäisi käyttää lineaarisia regressiomalleja hermoverkkojen sijaan Yleisimmät Data Science -haastattelukysymykset ja vastaukset GitHub Copilotin avoimen lähdekoodin vaihtoehdot Googlen tutkimusjohtajan neuvoja datatieteen oppimiseen

Eniten jaettu
Ero datatieteilijöiden ja ML -insinöörien välillä Pandas -tietokehyksen kysely Miksi ja miten sinun pitäisi oppia "tuottava datatiede"? Ei vain syvälliseen oppimiseen: kuinka GPU: t nopeuttavat datatiedettä ja data-analyysia Ensimmäisen jaetun Python -sovelluksen kirjoittaminen Rayn kanssa