Neuauflage von Plato

Verfolger: 0

6 coole Python-Bibliotheken, auf die ich kürzlich gestoßen bin

= Der vorherige Eintrag

Der nächste Eintrag =>

Stichworte: Daten Wissenschaft, Maschinelles lernen, Python

Schauen Sie sich diese fantastischen Python-Bibliotheken für maschinelles Lernen an.

Bemerkungen

By Dhilip Subramanian, Data Scientist und AI Enthusiast

Bild

Python ist ein integraler Bestandteil des maschinellen Lernens und Bibliotheken machen unser Leben einfacher. Kürzlich bin ich bei der Arbeit an meinen ML-Projekten auf 6 tolle Bibliotheken gestoßen. Sie haben mir geholfen, viel Zeit zu sparen, und ich werde in diesem Blog darüber sprechen.

1. Klartext

Clean-Text ist eine wirklich unglaubliche Bibliothek und sollte Ihre Anlaufstelle sein, wenn Sie mit Scraping oder Social-Media-Daten umgehen müssen. Das Coolste daran ist, dass zum Bereinigen unserer Daten kein langer, ausgefallener Code oder reguläre Ausdrücke erforderlich sind. Sehen wir uns einige Beispiele an:

Installation

!pip install cleantext

Beispiel

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

Output

Aus dem Obigen können wir erkennen, dass es Unicode im Wort Zürich (der Buchstabe „u“ wurde codiert), ASCII-Zeichen (in Alu017eupine), Währungssymbol in Rupie, HTML-Link und Satzzeichen enthält.

Sie müssen in der Clean-Funktion lediglich die erforderlichen ASCII-, Unicode-, URL-, Zahlen-, Währungs- und Interpunktionszeichen angeben. Alternativ können sie in der obigen Funktion durch Ersetzungsparameter ersetzt werden. Ich habe zum Beispiel das Rupie-Symbol in Rupien geändert.

Es besteht absolut keine Notwendigkeit, reguläre Ausdrücke oder lange Codes zu verwenden. Sehr praktische Bibliothek, besonders wenn Sie die Texte von Scraping- oder Social-Media-Daten befreien möchten. Abhängig von Ihrer Anforderung können Sie die Argumente auch einzeln übergeben, anstatt sie alle zu kombinieren.

Weitere Informationen finden Sie hier GitHub-Repository.

2. Daten zeichnen

Drawdata ist eine weitere coole Entdeckung meiner Python-Bibliothek. Wie oft sind Sie schon auf eine Situation gestoßen, in der Sie dem Team die ML-Konzepte erklären mussten? Das muss oft passieren, denn bei der Datenwissenschaft dreht sich alles um Teamarbeit. Diese Bibliothek hilft Ihnen beim Zeichnen eines Datensatzes im Jupyter-Notizbuch.
Persönlich hat mir die Nutzung dieser Bibliothek großen Spaß gemacht, als ich meinem Team ML-Konzepte erklärt habe. Ein großes Lob an die Entwickler, die diese Bibliothek erstellt haben!

Drawdata gilt nur für das Klassifizierungsproblem mit vier Klassen.

Installation

!pip install drawdata

Beispiel

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

Output

Bild vom Autor

Die obigen Zeichenfenster werden nach der Ausführung von draw_Scatter() geöffnet. Offensichtlich gibt es vier Klassen, nämlich A, B, C und D. Sie können auf jede Klasse klicken und die gewünschten Punkte zeichnen. Jede Klasse repräsentiert die verschiedenen Farben in der Zeichnung. Sie haben auch die Möglichkeit, die Daten als CSV- oder JSON-Datei herunterzuladen. Außerdem können die Daten in Ihre Zwischenablage kopiert und aus dem folgenden Code gelesen werden

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

Eine der Einschränkungen dieser Bibliothek besteht darin, dass sie nur zwei Datenpunkte mit vier Klassen bereitstellt. Aber ansonsten lohnt es sich auf jeden Fall. Weitere Einzelheiten finden Sie hier GitHub-Link.

3. Autoviz

Ich werde nie die Zeit vergessen, die ich mit der explorativen Datenanalyse mit Matplotlib verbracht habe. Es gibt viele einfache Visualisierungsbibliotheken. Allerdings habe ich kürzlich von Autoviz erfahren, das jeden Datensatz automatisch mit einer einzigen Codezeile visualisiert.

Installation

!pip install autoviz

Beispiel

Für dieses Beispiel habe ich den IRIS-Datensatz verwendet.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

Die oben genannten Parameter sind Standardparameter. Weitere Informationen finden Sie unter hier.

Output

Bild vom Autor

Wir können alle visuellen Elemente sehen und unsere EDA mit einer einzigen Codezeile vervollständigen. Es gibt viele Autovisualisierungsbibliotheken, aber es hat mir besonders viel Spaß gemacht, mich mit dieser vertraut zu machen.

4. Mito

Jeder mag Excel, oder? Dies ist eine der einfachsten Möglichkeiten, einen Datensatz zunächst zu untersuchen. Ich bin vor ein paar Monaten auf Mito gestoßen, habe es aber erst kürzlich ausprobiert und es hat mir total gut gefallen!

Es handelt sich um eine Jupyter-Lab-Erweiterungs-Python-Bibliothek mit GUI-Unterstützung, die Tabellenkalkulationsfunktionen hinzufügt. Sie können Ihre CSV-Daten laden und den Datensatz als Tabellenkalkulation bearbeiten, und es generiert automatisch Pandas-Code. Sehr cool.

Mito verdient wirklich einen ganzen Blogbeitrag. Allerdings werde ich heute nicht näher darauf eingehen. Hier ist stattdessen eine einfache Aufgabendemonstration für Sie. Weitere Einzelheiten finden Sie hier hier.

Installation

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

Weitere Informationen zur Installation finden Sie hier hier.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

Nach der Ausführung des obigen Codes wird Mitosheet im Jupyter-Labor geöffnet. Ich verwende den IRIS-Datensatz. Zuerst habe ich zwei neue Spalten erstellt. Eine davon ist die durchschnittliche Kelchblattlänge und die andere die gesamte Kelchblattbreite. Zweitens habe ich den Spaltennamen für die durchschnittliche Kelchblattlänge geändert. Schließlich habe ich ein Histogramm für die Spalte mit der durchschnittlichen Kelchblattlänge erstellt.

Der Code wird automatisch generiert, nachdem die oben genannten Schritte ausgeführt wurden.

Output

Bild vom Autor

Der folgende Code wurde für die oben genannten Schritte generiert:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. Grammformer

Eine weitere beeindruckende Bibliothek, Gramformer, basiert auf generativen Modellen, die uns helfen, die Grammatik in den Sätzen zu korrigieren. Diese Bibliothek verfügt über drei Modelle mit einem Detektor, ein Textmarker und ein Korrektor. Der Detektor erkennt, ob der Text eine falsche Grammatik aufweist. Der Textmarker markiert die fehlerhaften Wortarten und der Korrektor behebt die Fehler. Gramformer ist vollständig Open Source und befindet sich in einem frühen Stadium. Es eignet sich jedoch nicht für lange Absätze, da es nur auf Satzebene funktioniert und für Sätze mit einer Länge von 64 Jahren trainiert wurde.

Derzeit funktioniert das Korrektor- und Textmarker-Modell. Sehen wir uns einige Beispiele an.

Installation

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Instanziieren Sie den Grammformer

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

Beispiel

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

Output

Bild vom Autor

Aus der obigen Ausgabe können wir ersehen, dass Grammatik- und sogar Rechtschreibfehler korrigiert werden. Eine wirklich tolle Bibliothek und funktioniert auch sehr gut. Ich habe Textmarker hier noch nicht ausprobiert. Weitere Informationen finden Sie in dieser GitHub-Dokumentation Details.

6. Styleformer

Meine positiven Erfahrungen mit Gramformer haben mich ermutigt, nach einzigartigeren Bibliotheken zu suchen. So habe ich Styleformer gefunden, eine weitere äußerst ansprechende Python-Bibliothek. Sowohl Gramformer als auch Styleformer wurden von Prithiviraj Damodaran entwickelt und basieren beide auf generativen Modellen. Ein großes Lob an den Ersteller für das Open Sourcing.

Styleformer hilft bei der Umwandlung von Gelegenheitssätzen in formelle Sätze, von formellen in gelegentliche Sätze, von Aktiv- in Passivsätze und von Passiv- in Aktivsätze.

Sehen wir uns einige Beispiele an

Installation

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Styleformer instanziieren

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

Beispiele

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

Sehen Sie sich die obige Ausgabe an, sie konvertiert genau. Ich habe diese Bibliothek in einer meiner Analysen verwendet, um lockere in formelle Beiträge umzuwandeln, insbesondere für Social-Media-Beiträge. Weitere Einzelheiten finden Sie hier GitHub.

Möglicherweise kennen Sie einige der zuvor genannten Bibliotheken, aber solche wie Gramformer und Styleformer sind neuere Player. Sie werden extrem unterschätzt und verdienen es auf jeden Fall, bekannt zu werden, weil sie mir viel Zeit gespart haben und ich sie häufig für meine NLP-Projekte genutzt habe.

Danke fürs Lesen. Wenn Sie etwas hinzuzufügen haben, können Sie gerne einen Kommentar hinterlassen!

Vielleicht gefällt Ihnen auch mein vorheriger Artikel Fünf coole Python-Bibliotheken für Data Science

Bio: Dhilip Subramanian ist Maschinenbauingenieur und hat seinen Master in Analytics abgeschlossen. Er verfügt über 9 Jahre Erfahrung in der Spezialisierung auf verschiedene Bereiche im Zusammenhang mit Daten wie IT, Marketing, Bankwesen, Energie und Fertigung. Er ist begeistert von NLP und maschinellem Lernen. Er leistet einen Beitrag zum SAS-Community und liebt es, technische Artikel zu verschiedenen Aspekten der Datenwissenschaft auf der Medium-Plattform zu schreiben.

Original. Mit Genehmigung erneut veröffentlicht.

Related: