Taasavaldanud Platon

järgijaid: 0

6 lahedat Pythoni raamatukogu, millega hiljuti tutvusin

= Eelmine post

Järgmine postitus =>

Sildid: andmed Science, Masinõpe, Python

Vaadake neid suurepäraseid Pythoni teeke masinõppe jaoks.

kommentaarid

By Dhilip Subramanian, andmeteadlane ja tehisintellekti entusiast

pilt

Python on masinõppe lahutamatu osa ja teegid muudavad meie elu lihtsamaks. Hiljuti sattusin oma ML-projektide kallal töötades kokku 6 vinge raamatukoguga. Need aitasid mul palju aega säästa ja ma kavatsen neid selles blogis arutada.

1. puhas tekst

Tõeliselt uskumatu raamatukogu, puhas tekst peaks olema teie valik, kui peate käsitlema kraapimist või sotsiaalmeedia andmeid. Kõige lahedam selle juures on see, et see ei nõua meie andmete puhastamiseks pikka väljamõeldud koodi ega regulaaravaldisi. Vaatame mõnda näidet:

paigaldamine

!pip install cleantext

Näide

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

Väljund

Ülaltoodust näeme, et sellel on Unicode sõnas Zürich (täht 'u' on kodeeritud), ASCII märgid (alu017eupine.), valuutasümbol ruupias, HTML link, kirjavahemärgid.

Puhasfunktsioonis peate lihtsalt mainima nõutavad ASCII, Unicode'i, URL-id, numbrid, valuuta ja kirjavahemärgid. Või saab need asendada ülaltoodud funktsiooni asendusparameetritega. Näiteks muutsin ruupia sümboli ruupiateks.

Regulaaravaldisi või pikki koode pole absoluutselt vaja kasutada. Väga mugav raamatukogu, eriti kui soovite tekstid kraapimisest või sotsiaalmeedia andmetest puhastada. Teie nõudest lähtuvalt saate argumendid esitada ka eraldi, mitte neid kõiki kombineerida.

Lisateabe saamiseks vaadake seda GitHubi hoidla.

2. joonistusandmed

Drawdata on minu järjekordne lahe pythoni raamatukogu leid. Kui palju kordi olete kokku puutunud olukorraga, kus peate meeskonnale ML-i kontseptsioone selgitama? Seda peab juhtuma sageli, sest andmeteadus seisneb meeskonnatöös. See teek aitab teil Jupyteri märkmikusse andmestikku joonistada.
Mulle isiklikult meeldis selle teegi kasutamine väga, kui selgitasin oma meeskonnale ML-i kontseptsioone. Aitäh arendajatele, kes selle raamatukogu lõid!

Drawdata on mõeldud ainult nelja klassi klassifikatsiooniprobleemi jaoks.

paigaldamine

!pip install drawdata

Näide

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

Väljund

Pilt autorilt

Ülaltoodud joonistusaknad avanevad pärast funktsiooni draw_Scatter() täitmist. On selge, et on neli klassi, nimelt A, B, C ja D. Võite klõpsata mis tahes klassil ja joonistada soovitud punktid. Iga klass esindab joonisel erinevaid värve. Samuti on teil võimalus andmed alla laadida csv- või json-failina. Samuti saab andmeid lõikelauale kopeerida ja lugeda allolevast koodist

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

Üks selle teegi piiranguid on see, et see annab ainult kaks andmepunkti nelja klassiga. Aga muidu on see kindlasti seda väärt. Lisateabe saamiseks vaadake seda GitHubi link.

3. Autoviz

Ma ei unusta kunagi aega, mille veetsin matplotlibi abil uurimusliku andmeanalüüsi tegemisel. Lihtsaid visualiseerimise teeke on palju. Hiljuti avastasin aga Autovizi kohta, mis visualiseerib kõik andmestikud automaatselt ühe koodireaga.

paigaldamine

!pip install autoviz

Näide

Selle näite jaoks kasutasin IRIS-i andmestikku.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

Ülaltoodud parameetrid on vaikeparameetrid. Lisateabe saamiseks kontrollige siin.

Väljund

Pilt autorilt

Näeme kõiki visuaale ja täiendame oma EDA-d ühe koodireaga. Autovisualiseerimise teeke on palju, kuid mulle meeldis eriti sellega tutvuda.

4. Mito

Kõigile meeldib Excel, eks? See on üks lihtsamaid viise andmestiku esmaseks uurimiseks. Sattusin Mito juurde paar kuud tagasi, kuid proovisin seda alles hiljuti ja mulle meeldis see täiega!

See on graafilise kasutajaliidese toega Jupyteri labori laiendusega Pythoni teek, mis lisab arvutustabeli funktsionaalsust. Saate laadida oma csv-andmeid ja redigeerida andmestikku arvutustabelina ning see genereerib automaatselt Pandase koodi. Väga lahe.

Mito väärib tõesti tervet blogipostitust. Siiski ma täna palju üksikasjadesse ei lasku. Siin on teile selle asemel lihtne ülesanne. Lisateabe saamiseks vaadake siin.

paigaldamine

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

Installimise kohta lisateabe saamiseks vaadake siin.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

Pärast ülaltoodud koodi käivitamist avaneb Jupyteri laboris mitosheet. Ma kasutan IRIS-i andmestikku. Esiteks lõin kaks uut veergu. Üks on tupplehe keskmine pikkus ja teine on tupplehe laiuse summa. Teiseks muutsin veeru nime keskmise Sepali pikkuse jaoks. Lõpuks lõin histogrammi keskmise Sepal pikkuse veeru jaoks.

Kood genereeritakse automaatselt pärast ülalnimetatud sammude järgimist.

Väljund

Pilt autorilt

Ülaltoodud sammude jaoks loodi allolev kood:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. Gramformer

Veel üks muljetavaldav raamatukogu, Gramformer, põhineb generatiivsetel mudelitel, mis aitavad meil lausetes grammatikat parandada. Sellel raamatukogul on kolm mudelit, millel on a detektor, highlighter ja korrektor. Detektor tuvastab, kas teksti grammatika on vale. Esiletõstja märgib vigased kõneosad ja korrektor parandab vead. Gramformer on täiesti avatud lähtekoodiga ja selle algusjärgus. Kuid see ei sobi pikkade lõikude jaoks, kuna see töötab ainult lause tasemel ja on treenitud 64 pikkuseks lauseks.

Hetkel töötab korrektori ja highlighteri mudel. Vaatame mõnda näidet.

paigaldamine

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Instantseerige Gramformer

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

Näide

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

Väljund

Pilt autorilt

Ülaltoodud väljundist näeme, et see parandab grammatika- ja isegi õigekirjavigu. Tõesti hämmastav raamatukogu ja töötab ka väga hästi. Ma pole siin esiletõstjat proovinud, võite proovida ja vaadata lisateavet sellest GitHubi dokumentatsioonist detailid.

6. Stiilikujundaja

Minu positiivne kogemus Gramformeriga julgustas mind otsima ainulaadsemaid teeke. Nii leidsin Styleformeri, teise väga ahvatleva Pythoni raamatukogu. Nii Gramformeri kui ka Styleformeri lõi Prithiviraj Damodaran ja mõlemad põhinevad generatiivsetel mudelitel. Au loojale selle avatud hankimise eest.

Styleformer aitab teisendada juhuslikud laused formaalseteks, formaalseteks lauseteks, aktiivsetest passiivseteks ja passiivsetest aktiivseteks lauseteks.

Vaatame mõnda näidet

paigaldamine

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Käivitage stiilikujundaja

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

Näited

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

Vaadake ülaltoodud väljundit, see teisendab täpselt. Kasutasin seda teeki juhusliku sisu muutmiseks ametlikuks, eriti sotsiaalmeedia postituste jaoks ühes oma analüüsis. Lisateabe saamiseks vaadake palun GitHub.

Võib-olla olete tuttav mõne eelnevalt mainitud raamatukoguga, kuid sellised, nagu Gramformer ja Styleformer, on hiljutised mängijad. Nad on äärmiselt alahinnatud ja väärivad kindlasti tuntust, sest säästsid palju mu aega ja ma kasutasin neid palju oma NLP-projektide jaoks.

Täname lugemise eest. Kui teil on midagi lisada, jätke julgelt kommentaar!

Sulle võib meeldida ka minu eelmine artikkel Viis lahedat Pythoni raamatukogu andmeteaduse jaoks

Bio: Dhilip Subramanian on mehaanikainsener ja omandanud magistrikraadi analüütikas. Tal on 9-aastane kogemus spetsialiseerumisega erinevatele andmetega seotud valdkondadele, sealhulgas IT, turundus, pangandus, elektrienergia ja tootmine. Ta on kirglik NLP ja masinõppe vastu. Ta on kaastööline SAS-i kogukond ja talle meeldib platvormil Medium kirjutada tehnilisi artikleid andmeteaduse erinevatest aspektidest.

Originaal. Loaga uuesti postitatud.

Seotud:

= Eelmine post

Järgmine postitus =>

Viimase 30 päeva populaarseimad lood

Populaarseim
Andmeteadlaste ja ML-i inseneride erinevus 3 põhjust, miks peaksite närvivõrkude asemel kasutama lineaarset regressioonimudeleid Levinumad andmeteaduse intervjuu küsimused ja vastused GitHubi kopiloodi avatud lähtekoodiga alternatiivid Google'i uurimisdirektori nõuanded andmeteaduse õppimiseks

Kõige rohkem jagatud
Andmeteadlaste ja ML-i inseneride erinevus Kuidas oma Panda andmeraami päringuid teha Miks ja kuidas peaksite õppima "produktiivset andmeteadust"? Mitte ainult süvaõppeks: kuidas GPU-d andmeteadust ja andmeanalüüsi kiirendavad Oma esimese levitatava Pythoni rakenduse kirjutamine Rayga