Ripubblicato da Platone

Seguaci: 0

6 fantastiche librerie Python che ho trovato di recente

= Post precedente

Post successivo =>

Tag: Science Data, machine Learning, Python

Dai un'occhiata a queste fantastiche librerie Python per Machine Learning.

Commenti

By Dhilip Subramaniano, Scienziato dei dati e appassionato di intelligenza artificiale

Immagine

Python è parte integrante dell'apprendimento automatico e le librerie ci semplificano la vita. Di recente, mi sono imbattuto in 6 fantastiche librerie mentre lavoravo ai miei progetti di machine learning. Mi hanno aiutato a risparmiare un sacco di tempo e ne parlerò in questo blog.

1. testo pulito

Una libreria davvero incredibile, il testo pulito dovrebbe essere il tuo punto di riferimento quando devi gestire dati di scraping o social media. La cosa più bella è che non richiede alcun codice lungo di fantasia o espressioni regolari per pulire i nostri dati. Vediamo alcuni esempi:

Installazione

!pip install cleantext

Esempio

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

Uscita

Da quanto sopra, possiamo vedere che ha Unicode nella parola Zurigo (la lettera 'u' è stata codificata), caratteri ASCII (in Alu017eupine.), simbolo di valuta in rupia, link HTML, punteggiatura.

Devi solo menzionare l'ASCII, Unicode, URL, numeri, valuta e punteggiatura richiesti nella funzione di pulizia. Oppure, possono essere sostituiti con i parametri di sostituzione nella funzione sopra. Ad esempio, ho cambiato il simbolo della rupia in rupie.

Non è assolutamente necessario utilizzare espressioni regolari o codici lunghi. Libreria molto utile soprattutto se si desidera pulire i testi da scraping o dati dei social media. In base alle tue esigenze, puoi anche passare gli argomenti singolarmente anziché combinarli tutti.

Per maggiori dettagli, controlla questo Repository GitHub.

2. dati di prelievo

Drawdata è un'altra mia fantastica scoperta della libreria Python. Quante volte ti sei imbattuto in una situazione in cui devi spiegare i concetti di ML al team? Deve succedere spesso perché la scienza dei dati è tutta una questione di lavoro di squadra. Questa libreria ti aiuta a disegnare un set di dati nel notebook Jupyter.
Personalmente, mi è piaciuto molto usare questa libreria quando ho spiegato i concetti di ML al mio team. Complimenti agli sviluppatori che hanno creato questa libreria!

Drawdata è solo per il problema di classificazione con quattro classi.

Installazione

!pip install drawdata

Esempio

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

Uscita

Immagine dell'autore

Le finestre di disegno sopra si apriranno dopo aver eseguito draw_Scatter(). Chiaramente, ci sono quattro classi, vale a dire A, B, C e D. Puoi fare clic su qualsiasi classe e disegnare i punti che desideri. Ogni classe rappresenta i diversi colori nel disegno. Hai anche un'opzione per scaricare i dati come file csv o json. Inoltre, i dati possono essere copiati negli appunti e letti dal codice sottostante

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

Uno dei limiti di questa libreria è che fornisce solo due punti dati con quattro classi. Ma per il resto, ne vale sicuramente la pena. Per maggiori dettagli, controlla questo Collegamento GitHub.

3. Visualizzazione automatica

Non dimenticherò mai il tempo che ho passato a fare analisi esplorative dei dati usando matplotlib. Esistono molte semplici librerie di visualizzazione. Tuttavia, ho scoperto di recente di Autoviz che visualizza automaticamente qualsiasi set di dati con una singola riga di codice.

Installazione

!pip install autoviz

Esempio

Ho usato il set di dati IRIS per questo esempio.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

I parametri di cui sopra sono quelli di default. Per ulteriori informazioni, si prega di controllare qui.

Uscita

Immagine dell'autore

Possiamo vedere tutte le immagini e completare il nostro EDA con una singola riga di codice. Ci sono molte librerie di visualizzazione automatica, ma mi è piaciuto molto familiarizzare con questa in particolare.

4. Mito

A tutti piace Excel, giusto? È uno dei modi più semplici per esplorare un set di dati in prima istanza. Mi sono imbattuto in Mito qualche mese fa, ma l'ho provato solo di recente e mi è piaciuto moltissimo!

È una libreria Python di estensione Jupyter-lab con supporto GUI che aggiunge funzionalità di foglio di calcolo. Puoi caricare i tuoi dati CSV e modificare il set di dati come foglio di calcolo e genera automaticamente il codice Pandas. Molto bello.

Mito merita davvero un intero post sul blog. Tuttavia, oggi non entrerò nei dettagli. Ecco invece una semplice dimostrazione di attività per te. Per maggiori dettagli, si prega di controllare qui.

Installazione

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

Per ulteriori informazioni sull'installazione, controllare qui.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

Dopo aver eseguito il codice sopra, mitosheet si aprirà nel laboratorio jupyter. Sto usando il set di dati IRIS. Innanzitutto, ho creato due nuove colonne. Uno è la lunghezza media del Sepalo e l'altro è la somma della larghezza del Sepalo. In secondo luogo, ho cambiato il nome della colonna per la lunghezza media del Sepalo. Infine, ho creato un istogramma per la colonna di lunghezza media del Sepalo.

Il codice viene generato automaticamente dopo aver seguito i passaggi sopra indicati.

Uscita

Immagine dell'autore

Di seguito è stato generato il codice per i passaggi precedenti:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. Grammoformatore

Ancora un'altra libreria impressionante, Gramformer si basa su modelli generativi che ci aiutano a correggere la grammatica nelle frasi. Questa libreria ha tre modelli che hanno un rilevatore, evidenziatore e correttore. Il rilevatore identifica se il testo ha una grammatica errata. L'evidenziatore segna le parti difettose del discorso e il correttore corregge gli errori. Gramformer è completamente open source ed è nelle sue fasi iniziali. Ma non è adatto per paragrafi lunghi poiché funziona solo a livello di frase ed è stato addestrato per 64 frasi di lunghezza.

Attualmente, il modello correttore ed evidenziatore funziona. Vediamo alcuni esempi.

Installazione

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Istanzia il Gramformer

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

Esempio

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

Uscita

Immagine dell'autore

Dall'output sopra, possiamo vedere che corregge la grammatica e persino gli errori di ortografia. Una libreria davvero straordinaria e funziona anche molto bene. Non ho provato l'evidenziatore qui, puoi provare a controllare questa documentazione di GitHub per ulteriori informazioni dettagli.

6. Formatore di stile

La mia esperienza positiva con Gramformer mi ha incoraggiato a cercare librerie più uniche. È così che ho trovato Styleformer, un'altra libreria Python molto interessante. Sia Gramformer che Styleformer sono stati creati da Prithiviraj Damodaran ed entrambi sono basati su modelli generativi. Complimenti al creatore per l'open source.

Styleformer aiuta a convertire frasi casuali in formali, frasi formali in casuali, frasi attive in passive e frasi passive in attive.

Vediamo alcuni esempi

Installazione

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Istanzia Styleformer

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

Esempi

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

Vedi l'output sopra, converte accuratamente. Ho usato questa libreria per convertire casual in formale, in particolare per i post sui social media in una delle mie analisi. Per maggiori dettagli, si prega di controllare GitHub.

Potresti avere familiarità con alcune delle librerie menzionate in precedenza, ma quelle come Gramformer e Styleformer sono giocatori recenti. Sono estremamente sottovalutati e sicuramente meritano di essere conosciuti perché mi hanno fatto risparmiare molto tempo e li ho usati pesantemente per i miei progetti di PNL.

Grazie per aver letto. Se hai qualcosa da aggiungere, non esitare a lasciare un commento!

Potrebbe piacerti anche il mio articolo precedente Cinque fantastiche librerie Python per Data Science

Bio: Dhilip Subramaniano è un ingegnere meccanico e ha completato il Master in Analytics. Ha 9 anni di esperienza con specializzazione in vari domini relativi ai dati, tra cui IT, marketing, banche, energia e produzione. È appassionato di PNL e apprendimento automatico. È un collaboratore di Comunità SAS e ama scrivere articoli tecnici su vari aspetti della scienza dei dati sulla piattaforma Medium.

Originale. Ripubblicato con il permesso.

Correlato:

= Post precedente

Post successivo =>

Le migliori storie degli ultimi 30 giorni

Più popolare
La differenza tra data scientist e ingegneri ML 3 motivi per cui dovresti usare modelli di regressione lineare invece di reti neurali Domande e risposte per le interviste più comuni sulla scienza dei dati Alternative open source di GitHub Copilot Consigli per l'apprendimento della scienza dei dati dal direttore della ricerca di Google

La maggior parte in comune
La differenza tra data scientist e ingegneri ML Come interrogare il tuo dataframe Panda Perché e come dovresti imparare la "scienza dei dati produttivi"? Non solo per il deep learning: come le GPU accelerano la scienza dei dati e l'analisi dei dati Scrivere la tua prima applicazione Python distribuita con Ray