Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

6 Δροσερές βιβλιοθήκες Python που ήρθα πρόσφατα

= Προηγούμενο

Επόμενο μήνυμα =>

Ετικέτες: Επιστήμη δεδομένων, Μηχανική μάθηση, Python

Ελέγξτε αυτές τις εκπληκτικές βιβλιοθήκες Python για μηχανική εκμάθηση.

σχόλια

By Ντίλιπ Σουμπραμανιάν, Επιστήμονας δεδομένων και ενθουσιώδης τεχνητής νοημοσύνης

Εικόνα

Η Python είναι αναπόσπαστο μέρος της μηχανικής μάθησης και οι βιβλιοθήκες κάνουν τη ζωή μας πιο απλή. Πρόσφατα, συνάντησα 6 φοβερές βιβλιοθήκες ενώ δούλευα στα έργα μου ML. Με βοήθησαν να εξοικονομήσω πολύ χρόνο και πρόκειται να τα συζητήσω σε αυτό το ιστολόγιο.

1. καθαρό κείμενο

Μια πραγματικά απίστευτη βιβλιοθήκη, καθαρό κείμενο θα πρέπει να είναι η πηγή σας όταν πρέπει να χειρίζεστε δεδομένα απόξεσης ή κοινωνικών μέσων. Το πιο ωραίο πράγμα σε αυτό είναι ότι δεν απαιτεί μακρύ φανταχτερό κώδικα ή κανονικές εκφράσεις για τον καθαρισμό των δεδομένων μας. Ας δούμε μερικά παραδείγματα:

Εγκατάσταση

!pip install cleantext

Παράδειγμα

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

Παραγωγή

Από τα παραπάνω, μπορούμε να δούμε ότι έχει Unicode στη λέξη Ζυρίχη (το γράμμα 'u' έχει κωδικοποιηθεί), χαρακτήρες ASCII (σε Alu017eupine.), Σύμβολο νομίσματος σε ρουπία, σύνδεσμο HTML, σημεία στίξης.

Απλώς πρέπει να αναφέρετε το απαιτούμενο ASCII, Unicode, διευθύνσεις URL, αριθμούς, νόμισμα και σημεία στίξης στη λειτουργία καθαρισμού. Or, μπορούν να αντικατασταθούν με παραμέτρους αντικατάστασης στην παραπάνω συνάρτηση. Για παράδειγμα, άλλαξα το σύμβολο ρουπίας σε ρουπίες.

Δεν υπάρχει καμία απολύτως ανάγκη να χρησιμοποιείτε κανονικές εκφράσεις ή μεγάλους κωδικούς. Πολύ βολική βιβλιοθήκη, ειδικά αν θέλετε να καθαρίσετε τα κείμενα από το ξύσιμο ή τα δεδομένα των μέσων κοινωνικής δικτύωσης. Με βάση τις απαιτήσεις σας, μπορείτε επίσης να περάσετε τα επιχειρήματα μεμονωμένα αντί να τα συνδυάσετε όλα.

Για περισσότερες λεπτομέρειες, ελέγξτε αυτό Αποθετήριο GitHub.

2. σχέδια δεδομένων

Το Drawdata είναι ένα ακόμη δροσερό εύρημα της βιβλιοθήκης python. Πόσες φορές έχετε συναντήσει μια κατάσταση όπου πρέπει να εξηγήσετε τις έννοιες του ML στην ομάδα; Πρέπει να συμβαίνει συχνά επειδή η επιστήμη των δεδομένων αφορά την ομαδική εργασία. Αυτή η βιβλιοθήκη σας βοηθά να σχεδιάσετε ένα σύνολο δεδομένων στο σημειωματάριο Jupyter.
Προσωπικά, μου άρεσε πολύ να χρησιμοποιώ αυτήν τη βιβλιοθήκη όταν εξήγησα έννοιες ML στην ομάδα μου. Συγχαρητήρια στους προγραμματιστές που δημιούργησαν αυτή τη βιβλιοθήκη!

Το Drawdata είναι μόνο για το πρόβλημα ταξινόμησης με τέσσερις κλάσεις.

Εγκατάσταση

!pip install drawdata

Παράδειγμα

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

Παραγωγή

Εικόνα από τον συγγραφέα

Τα παραπάνω παράθυρα σχεδίασης θα ανοίξουν μετά την εκτέλεση του draw_Scatter (). Σαφώς, υπάρχουν τέσσερις κλάσεις, συγκεκριμένα οι Α, Β, Γ και Δ. Μπορείτε να κάνετε κλικ σε οποιαδήποτε τάξη και να σχεδιάσετε τα σημεία που θέλετε. Κάθε τάξη αντιπροσωπεύει τα διαφορετικά χρώματα στο σχέδιο. Έχετε επίσης τη δυνατότητα να κατεβάσετε τα δεδομένα ως αρχείο csv ή json. Επίσης, τα δεδομένα μπορούν να αντιγραφούν στο πρόχειρο και να διαβαστούν από τον παρακάτω κώδικα

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

Ένας από τους περιορισμούς αυτής της βιβλιοθήκης είναι ότι παρέχει μόνο δύο σημεία δεδομένων με τέσσερις κλάσεις. Κατά τα άλλα, σίγουρα αξίζει τον κόπο. Για περισσότερες λεπτομέρειες, ελέγξτε αυτό Σύνδεσμος GitHub.

3. Autoviz

Δεν θα ξεχάσω ποτέ τον χρόνο που πέρασα κάνοντας ανάλυση διερευνητικών δεδομένων χρησιμοποιώντας το matplotlib. Υπάρχουν πολλές απλές βιβλιοθήκες απεικόνισης. Ωστόσο, έμαθα πρόσφατα για το Autoviz που απεικονίζει αυτόματα οποιοδήποτε σύνολο δεδομένων με μία μόνο γραμμή κώδικα.

Εγκατάσταση

!pip install autoviz

Παράδειγμα

Χρησιμοποίησα το σύνολο δεδομένων IRIS για αυτό το παράδειγμα.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

Οι παραπάνω παράμετροι είναι προεπιλεγμένες. Για περισσότερες πληροφορίες, ελέγξτε εδώ.

Παραγωγή

Εικόνα από τον συγγραφέα

Μπορούμε να δούμε όλα τα γραφικά και να ολοκληρώσουμε την EDA μας με μια μόνο γραμμή κώδικα. Υπάρχουν πολλές βιβλιοθήκες αυτόματης απεικόνισης, αλλά μου άρεσε πολύ να εξοικειωθώ με αυτήν συγκεκριμένα.

4. Μήτο

Σε όλους αρέσει το Excel, σωστά; Είναι ένας από τους ευκολότερους τρόπους διερεύνησης ενός συνόλου δεδομένων σε πρώτη περίπτωση. Συνάντησα το Mito πριν από μερικούς μήνες, αλλά το δοκίμασα μόλις πρόσφατα και μου άρεσε πολύ!

Είναι μια βιβλιοθήκη επέκτασης python Jupyter-lab με υποστήριξη GUI που προσθέτει λειτουργικότητα υπολογιστικών φύλλων. Μπορείτε να φορτώσετε τα δεδομένα σας csv και να επεξεργαστείτε το σύνολο δεδομένων ως υπολογιστικό φύλλο και αυτόματα δημιουργεί κώδικα Pandas. Πολύ κουλ.

Ο Mito αξίζει πραγματικά μια ολόκληρη ανάρτηση ιστολογίου. Ωστόσο, δεν θα μπω σε πολλές λεπτομέρειες σήμερα. Ακολουθεί μια απλή επίδειξη εργασιών για εσάς. Για περισσότερες λεπτομέρειες, ελέγξτε εδώ.

Εγκατάσταση

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

Για περισσότερες πληροφορίες σχετικά με την εγκατάσταση, ελέγξτε εδώ.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

Μετά την εκτέλεση του παραπάνω κώδικα, το mitosheet θα ανοίξει στο εργαστήριο jupyter. Χρησιμοποιώ το σύνολο δεδομένων IRIS. Πρώτον, δημιούργησα δύο νέες στήλες. Το ένα είναι μέσο μήκος Sepal και το άλλο άθροισμα Sepal πλάτος. Δεύτερον, άλλαξα το όνομα της στήλης για το μέσο μήκος Sepal. Τέλος, δημιούργησα ένα ιστόγραμμα για τη μέση στήλη μήκους Sepal.

Ο κώδικας δημιουργείται αυτόματα αφού ακολουθηθούν τα παραπάνω βήματα.

Παραγωγή

Εικόνα από τον συγγραφέα

Ο παρακάτω κώδικας δημιουργήθηκε για τα παραπάνω βήματα:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. Γραμματοποιός

Μια ακόμη εντυπωσιακή βιβλιοθήκη, το Gramformer βασίζεται σε γεννήματα που μας βοηθούν να διορθώσουμε τη γραμματική στις προτάσεις. Αυτή η βιβλιοθήκη διαθέτει τρία μοντέλα τα οποία έχουν ένα ανιχνευτής, επισήμανση και διορθωτήςΤο Ο ανιχνευτής προσδιορίζει εάν το κείμενο έχει λανθασμένη γραμματική. Η επισήμανση επισημαίνει τα ελαττωματικά μέρη της ομιλίας και ο διορθωτής διορθώνει τα σφάλματα. Το Gramformer είναι ένας εντελώς ανοιχτός κώδικας και βρίσκεται στα πρώτα του στάδια. Αλλά δεν είναι κατάλληλο για μεγάλες παραγράφους καθώς λειτουργεί μόνο σε επίπεδο πρότασης και έχει εκπαιδευτεί για προτάσεις 64 μηνών.

Επί του παρόντος, λειτουργεί το μοντέλο διόρθωσης και επισήμανσης. Ας δούμε μερικά παραδείγματα.

Εγκατάσταση

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Instantiate Gramformer

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

Παράδειγμα

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

Παραγωγή

Εικόνα από τον συγγραφέα

Από την παραπάνω έξοδο, μπορούμε να δούμε ότι διορθώνει γραμματικά και ακόμη και ορθογραφικά λάθη. Μια πραγματικά εκπληκτική βιβλιοθήκη και λειτουργεί επίσης πολύ καλά. Δεν έχω δοκιμάσει highlighter εδώ, μπορείτε να δοκιμάσετε και να ελέγξετε αυτήν την τεκμηρίωση GitHub για περισσότερα καθέκαστα.

6. Styleformer

Η θετική μου εμπειρία με το Gramformer με ενθάρρυνε να αναζητήσω πιο μοναδικές βιβλιοθήκες. Έτσι βρήκα το Styleformer, μια άλλη εξαιρετικά ελκυστική βιβλιοθήκη Python. Τόσο το Gramformer όσο και το Styleformer δημιουργήθηκαν από τον Prithiviraj Damodaran και βασίζονται και τα δύο σε γενετικά μοντέλα. Συγχαρητήρια στον δημιουργό για την ανοιχτή προμήθεια.

Το Styleformer βοηθά στη μετατροπή περιστασιακών σε τυπικές προτάσεις, τυπικών σε περιστασιακές προτάσεις, ενεργητικών σε παθητικών και παθητικών σε ενεργητικές προτάσεις.

Ας δούμε μερικά παραδείγματα

Εγκατάσταση

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Instantiate Styleformer

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

Παραδείγματα

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

Δείτε την παραπάνω έξοδο, μετατρέπει με ακρίβεια. Χρησιμοποίησα αυτήν τη βιβλιοθήκη για τη μετατροπή της περιστασιακής σε επίσημη, ειδικά για αναρτήσεις στα μέσα κοινωνικής δικτύωσης σε μία από τις αναλύσεις μου. Για περισσότερες λεπτομέρειες, ελέγξτε GitHub.

Μπορεί να είστε εξοικειωμένοι με μερικές από τις βιβλιοθήκες που αναφέρθηκαν προηγουμένως, αλλά αυτές όπως το Gramformer και το Styleformer είναι πρόσφατες συσκευές αναπαραγωγής. Είναι εξαιρετικά υποτιμημένα και σίγουρα αξίζουν να γίνουν γνωστά επειδή μου έσωσαν πολύ χρόνο και τα χρησιμοποίησα σε μεγάλο βαθμό για τα έργα μου NLP.

Ευχαριστώ για την ανάγνωση. Αν έχετε κάτι να προσθέσετε, μη διστάσετε να αφήσετε ένα σχόλιο!

Μπορεί επίσης να σας αρέσει το προηγούμενο άρθρο μου Πέντε Cool Python Βιβλιοθήκες για την Επιστήμη των Δεδομένων

Bio: Ντίλιπ Σουμπραμανιάν είναι Μηχανολόγος Μηχανικός και έχει ολοκληρώσει τα μεταπτυχιακά του στο Analytics. Έχει 9 χρόνια εμπειρίας με εξειδίκευση σε διάφορους τομείς που σχετίζονται με δεδομένα, όπως IT, μάρκετινγκ, τραπεζικές συναλλαγές, δύναμη και κατασκευή. Είναι παθιασμένος με το NLP και τη μηχανική μάθηση. Είναι συνεισφέρων στο Κοινότητα SAS και λατρεύει να γράφει τεχνικά άρθρα για διάφορες πτυχές της επιστήμης δεδομένων στην πλατφόρμα Medium.

Πρωτότυπο. Αναδημοσιεύτηκε με άδεια.

Συγγενεύων: