Reeditado por Platón

seguidores: 0

6 geniales bibliotecas de Python que encontré recientemente

= ← Publicación anterior

Publicación siguiente → =>

Tags: Data science, Aprendizaje automático (Machine learning & LLM), Python

Echa un vistazo a estas fantásticas bibliotecas de Python para aprendizaje automático.

comentarios

By Dhilip Subramanian, Científico de datos y entusiasta de IA

Imagen

Python es una parte integral del aprendizaje automático y las bibliotecas simplifican nuestra vida. Recientemente, encontré 6 bibliotecas increíbles mientras trabajaba en mis proyectos de ML. Me ayudaron a ahorrar mucho tiempo y voy a hablar de ellos en este blog.

1. texto limpio

Una biblioteca realmente increíble, con texto limpio, debería ser tu opción cuando necesites manejar datos de redes sociales o scraping. Lo mejor de esto es que no requiere ningún código largo y sofisticado o expresiones regulares para limpiar nuestros datos. Veamos algunos ejemplos:

Instalación

!pip install cleantext

Ejemplo

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

Salida

De lo anterior, podemos ver que tiene Unicode en la palabra Zurich (la letra 'u' ha sido codificada), caracteres ASCII (en Alu017eupine.), Símbolo de moneda en rupias, enlace HTML, puntuación.

Solo tiene que mencionar el ASCII, Unicode, URL, números, moneda y puntuación requeridos en la función de limpieza. O pueden reemplazarse con parámetros de reemplazo en la función anterior. Por ejemplo, cambié el símbolo de la rupia a rupias.

No hay absolutamente ninguna necesidad de utilizar expresiones regulares o códigos largos. Biblioteca muy útil, especialmente si desea limpiar los textos del raspado o los datos de las redes sociales. Según sus requisitos, también puede pasar los argumentos individualmente en lugar de combinarlos todos.

Para obtener más detalles, consulte este Repositorio GitHub.

2. dibujar datos

Drawdata es otro hallazgo genial de la biblioteca de Python. ¿Cuántas veces se ha encontrado con una situación en la que necesita explicar los conceptos de AA al equipo? Debe suceder a menudo porque la ciencia de datos tiene que ver con el trabajo en equipo. Esta biblioteca le ayuda a dibujar un conjunto de datos en el cuaderno de Jupyter.
Personalmente, disfruté mucho usando esta biblioteca cuando le expliqué los conceptos de ML a mi equipo. ¡Felicitaciones a los desarrolladores que crearon esta biblioteca!

Drawdata es solo para el problema de clasificación con cuatro clases.

Instalación

!pip install drawdata

Ejemplo

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

Salida

Imagen del autor.

Las ventanas de dibujo anteriores se abrirán después de ejecutar draw_Scatter (). Claramente, hay cuatro clases, a saber, A, B, C y D. Puede hacer clic en cualquier clase y dibujar los puntos que desee. Cada clase representa los diferentes colores del dibujo. También tiene la opción de descargar los datos como un archivo csv o json. Además, los datos se pueden copiar a su portapapeles y leer desde el siguiente código

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

Una de las limitaciones de esta biblioteca es que proporciona solo dos puntos de datos con cuatro clases. Pero por lo demás, definitivamente vale la pena. Para obtener más detalles, consulte este Enlace de GitHub.

3. Visualización automática

Nunca olvidaré el tiempo que pasé haciendo análisis de datos exploratorios usando matplotlib. Hay muchas bibliotecas de visualización simples. Sin embargo, descubrí recientemente acerca de Autoviz, que visualiza automáticamente cualquier conjunto de datos con una sola línea de código.

Instalación

!pip install autoviz

Ejemplo

Usé el conjunto de datos de IRIS para este ejemplo.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

Los parámetros anteriores son los predeterminados. Para obtener más información, consulte esta página.

Salida

Imagen del autor.

Podemos ver todas las imágenes y completar nuestro EDA con una sola línea de código. Hay muchas bibliotecas de visualización automática, pero realmente disfruté familiarizándome con esta en particular.

4. mito

A todo el mundo le gusta Excel, ¿verdad? Es una de las formas más sencillas de explorar un conjunto de datos en una primera instancia. Me encontré con Mito hace unos meses, pero lo probé recientemente y ¡me encantó!

Es una biblioteca de Python de extensión de Jupyter-lab con soporte GUI que agrega funcionalidad de hoja de cálculo. Puede cargar sus datos csv y editar el conjunto de datos como una hoja de cálculo, y automáticamente genera el código Pandas. Muy genial.

Mito realmente se merece una publicación de blog completa. Sin embargo, hoy no entraré en muchos detalles. En su lugar, aquí tienes una demostración sencilla de tareas. Para obtener más detalles, consulte esta página.

Instalación

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

Para obtener más información sobre la instalación, consulte esta página.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

Después de ejecutar el código anterior, mitosheet se abrirá en el laboratorio de jupyter. Estoy usando el conjunto de datos de IRIS. En primer lugar, creé dos columnas nuevas. Uno es la longitud media del sépalo y el otro es la suma del ancho del sépalo. En segundo lugar, cambié el nombre de la columna por la longitud promedio de Sepal. Finalmente, creé un histograma para la columna de longitud promedio de Sepal.

El código se genera automáticamente después de seguir los pasos mencionados anteriormente.

Salida

Imagen del autor.

El siguiente código se generó para los pasos anteriores:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. Gramformador

Otra biblioteca impresionante, Gramformer, se basa en modelos generativos que nos ayudan a corregir la gramática de las oraciones. Esta biblioteca tiene tres modelos que tienen un detector, resaltador y corrector. El detector identifica si el texto tiene una gramática incorrecta. El resaltador marca las partes del discurso defectuosas y el corrector corrige los errores. Gramformer es un código completamente abierto y se encuentra en sus primeras etapas. Pero no es adecuado para párrafos largos, ya que funciona solo a nivel de oración y ha sido entrenado para 64 oraciones de longitud.

Actualmente, funciona el modelo corrector y resaltador. Veamos algunos ejemplos.

Instalación

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Instanciar Gramformer

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

Ejemplo

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

Salida

Imagen del autor.

De la salida anterior, podemos ver que corrige errores gramaticales e incluso ortográficos. Una biblioteca realmente sorprendente y también funciona muy bien. No probé el resaltador aquí, puedes intentar consultar esta documentación de GitHub para obtener más información. detalles.

6. Formador de estilo

Mi experiencia positiva con Gramformer me animó a buscar bibliotecas más exclusivas. Así es como encontré Styleformer, otra biblioteca de Python muy atractiva. Tanto Gramformer como Styleformer fueron creados por Prithiviraj Damodaran y ambos se basan en modelos generativos. Felicitaciones al creador por su código abierto.

Styleformer ayuda a convertir oraciones casuales en formales, oraciones formales en casuales, activas en pasivas y pasivas en oraciones activas.

Veamos algunos ejemplos

Instalación

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Instancia de Styleformer

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

Ejemplos

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

Vea la salida anterior, se convierte con precisión. Usé esta biblioteca para convertir lo informal en formal, especialmente para publicaciones en redes sociales en uno de mis análisis. Para obtener más detalles, consulte amablemente GitHub.

Es posible que esté familiarizado con algunas de las bibliotecas mencionadas anteriormente, pero algunas como Gramformer y Styleformer son reproductores recientes. Están extremadamente subestimados y ciertamente merecen ser conocidos porque me ahorraron mucho tiempo y los usé mucho para mis proyectos de PNL.

Gracias por leer. Si tiene algo que agregar, ¡no dude en dejar un comentario!

También te puede gustar mi artículo anterior Cinco geniales bibliotecas de Python para la ciencia de datos

Bio: Dhilip Subramanian es ingeniero mecánico y ha completado su maestría en análisis. Tiene 9 años de experiencia con especialización en varios dominios relacionados con datos, incluidos TI, marketing, banca, energía y fabricación. Le apasiona la PNL y el aprendizaje automático. Es colaborador de la Comunidad SAS y le encanta escribir artículos técnicos sobre diversos aspectos de la ciencia de datos en la plataforma Medium.

Original. Publicado de nuevo con permiso.

Relacionado:

= ← Publicación anterior

Publicación siguiente → =>

Historias principales de los últimos 30 días

Más popular
La diferencia entre científicos de datos e ingenieros de ML 3 razones por las que debería utilizar modelos de regresión lineal en lugar de redes neuronales Preguntas y respuestas más comunes de entrevistas sobre ciencia de datos Alternativas de código abierto de Copiloto de GitHub Consejos para aprender ciencia de datos del director de investigación de Google

Lo más compartido
La diferencia entre científicos de datos e ingenieros de ML Cómo consultar su marco de datos de Pandas ¿Por qué y cómo debería aprender "Ciencia de datos productiva"? No solo para el aprendizaje profundo: cómo las GPU aceleran la ciencia y el análisis de datos Escribiendo su primera aplicación Python distribuida con Ray