Republié par Platon

Suiveurs: 0

6 bibliothèques Python sympas que j'ai rencontrées récemment

= Le post précédent

Le post suivant =>

Mots clés: Sciences des données, Machine Learning, Python

Découvrez ces impressionnantes bibliothèques Python pour l'apprentissage automatique.

commentaires

By Dhilip Subramanian, Data Scientist et AI Enthusiast

Image(s)

Python fait partie intégrante de l'apprentissage automatique et les bibliothèques nous simplifient la vie. Récemment, je suis tombé sur 6 bibliothèques géniales en travaillant sur mes projets ML. Ils m'ont permis de gagner beaucoup de temps et je vais en discuter dans ce blog.

1. texte clair

Une bibliothèque vraiment incroyable, le texte épuré devrait être votre référence lorsque vous devez gérer des données de grattage ou de médias sociaux. La chose la plus cool à ce sujet est qu'il ne nécessite pas de long code sophistiqué ou d'expressions régulières pour nettoyer nos données. Voyons quelques exemples :

Installation

!pip install cleantext

Exemple

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

Sortie

D'après ce qui précède, nous pouvons voir qu'il y a Unicode dans le mot Zurich (la lettre 'u' a été codée), des caractères ASCII (en Alu017eupine.), un symbole monétaire en roupie, un lien HTML, des ponctuations.

Il vous suffit de mentionner l'ASCII, l'Unicode, les URL, les chiffres, la devise et la ponctuation requis dans la fonction de nettoyage. Ou, ils peuvent être remplacés par des paramètres de remplacement dans la fonction ci-dessus. Par exemple, j'ai changé le symbole de la roupie en roupies.

Il n'est absolument pas nécessaire d'utiliser des expressions régulières ou des codes longs. Bibliothèque très pratique, surtout si vous souhaitez nettoyer les textes des données de grattage ou de médias sociaux. En fonction de vos besoins, vous pouvez également transmettre les arguments individuellement plutôt que de les combiner tous.

Pour plus de détails, veuillez vérifier ceci GitHub référentiel.

2. dessiner des données

Drawdata est encore une autre de mes trouvailles de bibliothèque python intéressantes. Combien de fois avez-vous rencontré une situation où vous devez expliquer les concepts de ML à l'équipe ? Cela doit arriver souvent car la science des données est une question de travail d'équipe. Cette bibliothèque vous aide à dessiner un ensemble de données dans le bloc-notes Jupyter.
Personnellement, j'ai vraiment apprécié d'utiliser cette bibliothèque lorsque j'ai expliqué les concepts de ML à mon équipe. Bravo aux développeurs qui ont créé cette bibliothèque !

Drawdata est uniquement pour le problème de classification avec quatre classes.

Installation

!pip install drawdata

Exemple

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

Sortie

Image de l'auteur

Les fenêtres de dessin ci-dessus s'ouvriront après l'exécution de draw_Scatter(). De toute évidence, il existe quatre classes, à savoir A, B, C et D. Vous pouvez cliquer sur n'importe quelle classe et dessiner les points que vous voulez. Chaque classe représente les différentes couleurs du dessin. Vous avez également la possibilité de télécharger les données sous forme de fichier csv ou json. En outre, les données peuvent être copiées dans votre presse-papiers et lues à partir du code ci-dessous

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

L'une des limitations de cette bibliothèque est qu'elle ne donne que deux points de données avec quatre classes. Mais sinon, ça vaut vraiment le coup. Pour plus de détails, veuillez vérifier ceci Lien GitHub.

3. Visualisation automatique

Je n'oublierai jamais le temps que j'ai passé à faire des analyses de données exploratoires à l'aide de matplotlib. Il existe de nombreuses bibliothèques de visualisation simples. Cependant, j'ai découvert récemment Autoviz qui visualise automatiquement n'importe quel ensemble de données avec une seule ligne de code.

Installation

!pip install autoviz

Exemple

J'ai utilisé le jeu de données IRIS pour cet exemple.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

Les paramètres ci-dessus sont ceux par défaut. Pour plus d'informations, veuillez vérifier ici.

Sortie

Image de l'auteur

Nous pouvons voir tous les visuels et compléter notre EDA avec une seule ligne de code. Il existe de nombreuses bibliothèques de visualisation automatique mais j'ai vraiment apprécié de me familiariser avec celle-ci en particulier.

4. mito

Tout le monde aime Excel, non ? C'est l'un des moyens les plus simples d'explorer un jeu de données dans un premier temps. J'ai découvert Mito il y a quelques mois, mais je ne l'ai essayé que récemment et j'ai vraiment adoré !

Il s'agit d'une bibliothèque python d'extension Jupyter-lab avec prise en charge de l'interface graphique qui ajoute une fonctionnalité de feuille de calcul. Vous pouvez charger vos données csv et modifier l'ensemble de données sous forme de feuille de calcul, et il génère automatiquement le code Pandas. Très cool.

Mito mérite vraiment un article de blog entier. Cependant, je n'entrerai pas dans les détails aujourd'hui. Voici une démonstration de tâche simple pour vous à la place. Pour plus de détails, veuillez vérifier ici.

Installation

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

Pour plus d'informations sur l'installation, veuillez vérifier ici.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

Après avoir exécuté le code ci-dessus, mitosheet s'ouvrira dans le laboratoire jupyter. J'utilise le jeu de données IRIS. Tout d'abord, j'ai créé deux nouvelles colonnes. L'un est la longueur moyenne du sépale et l'autre la somme de la largeur du sépale. Deuxièmement, j'ai changé le nom de la colonne pour la longueur moyenne de Sepal. Enfin, j'ai créé un histogramme pour la colonne de longueur moyenne de Sepal.

Le code est généré automatiquement après avoir suivi les étapes mentionnées ci-dessus.

Sortie

Image de l'auteur

Le code ci-dessous a été généré pour les étapes ci-dessus :

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. Gramformateur

Encore une autre bibliothèque impressionnante, Gramformer est basée sur des modèles génératifs qui nous aident à corriger la grammaire dans les phrases. Cette bibliothèque a trois modèles qui ont un détecteur, un surligneur et un correcteur. Le détecteur identifie si le texte a une grammaire incorrecte. Le surligneur marque les parties fautives du discours et le correcteur corrige les erreurs. Gramformer est une source complètement ouverte et en est à ses débuts. Mais il ne convient pas aux longs paragraphes car il ne fonctionne qu'au niveau de la phrase et a été entraîné pour 64 phrases de longueur.

Actuellement, le modèle correcteur et surligneur fonctionne. Voyons quelques exemples.

Installation

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Instancier Gramformer

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

Exemple

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

Sortie

Image de l'auteur

À partir de la sortie ci-dessus, nous pouvons voir qu'il corrige les fautes de grammaire et même d'orthographe. Une bibliothèque vraiment incroyable et qui fonctionne très bien aussi. Je n'ai pas essayé le surligneur ici, vous pouvez essayer de consulter cette documentation GitHub pour en savoir plus détails.

6. Style ancien

Mon expérience positive avec Gramformer m'a encouragé à rechercher des bibliothèques plus uniques. C'est ainsi que j'ai trouvé Styleformer, une autre bibliothèque Python très attrayante. Gramformer et Styleformer ont tous deux été créés par Prithiviraj Damodaran et sont tous deux basés sur des modèles génératifs. Félicitations au créateur pour son open source.

Styleformer aide à convertir des phrases informelles en phrases formelles, des phrases formelles en phrases informelles, des phrases actives en phrases passives et des phrases passives en phrases actives.

Voyons quelques exemples

Installation

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Instancier Styleformer

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

Exemples

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

Voir la sortie ci-dessus, il convertit avec précision. J'ai utilisé cette bibliothèque pour convertir le casual en formel, en particulier pour les publications sur les réseaux sociaux dans l'une de mes analyses. Pour plus de détails, veuillez vérifier GitHub.

Vous connaissez peut-être certaines des bibliothèques mentionnées précédemment, mais celles comme Gramformer et Styleformer sont des acteurs récents. Ils sont extrêmement sous-estimés et méritent certainement d'être connus car ils m'ont fait gagner beaucoup de temps et je les ai beaucoup utilisés pour mes projets PNL.

Merci d'avoir lu. Si vous avez quelque chose à ajouter, n'hésitez pas à laisser un commentaire !

Vous aimerez aussi mon article précédent Cinq bibliothèques Python sympas pour la science des données

Bio: Dhilip Subramanian est ingénieur en mécanique et a terminé sa maîtrise en analyse. Il a 9 ans d'expérience avec une spécialisation dans divers domaines liés aux données, y compris l'informatique, le marketing, la banque, l'énergie et la fabrication. Il est passionné par la PNL et l'apprentissage automatique. Il contribue à la Communauté SAS et aime écrire des articles techniques sur divers aspects de la science des données sur la plate-forme Medium.

ORIGINALE. Republié avec permission.

Connexe: