Republicado por Platão

seguidores: 0

6 Bibliotecas interessantes de Python que descobri recentemente

= post anterior

Próximo post =>

Tags: Ciência dados, Machine Learning, Python

Confira essas bibliotecas Python incríveis para aprendizado de máquina.

comentários

By Dhilip Subramanian, Cientista de dados e entusiasta de IA

Imagem

Python é parte integrante do aprendizado de máquina e as bibliotecas tornam nossa vida mais simples. Recentemente, encontrei 6 bibliotecas incríveis enquanto trabalhava em meus projetos de ML. Eles me ajudaram a economizar muito tempo e vou falar sobre eles neste blog.

1. texto limpo

Uma biblioteca verdadeiramente incrível, o texto limpo deve ser a sua escolha quando você precisar lidar com dados de leitura ou de mídia social. A coisa mais legal sobre isso é que não requer nenhum código longo e sofisticado ou expressões regulares para limpar nossos dados. Vejamos alguns exemplos:

Instalação

!pip install cleantext

Exemplo

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

saída

Do acima, podemos ver que há Unicode na palavra Zurique (a letra 'u' foi codificada), caracteres ASCII (em Alu017eupin.), Símbolo de moeda em rúpia, link HTML, pontuações.

Você apenas tem que mencionar o ASCII, Unicode, URLs, números, moeda e pontuação necessários na função de limpeza. Ou, eles podem ser substituídos por parâmetros de substituição na função acima. Por exemplo, mudei o símbolo da rúpia para rúpias.

Não há absolutamente nenhuma necessidade de usar expressões regulares ou códigos longos. Biblioteca muito útil, especialmente se você deseja limpar os textos de dados de mídia social ou rascunho. Com base em seus requisitos, você também pode passar os argumentos individualmente, em vez de combiná-los todos.

Para mais detalhes, por favor, verifique este Repositório GitHub.

2. desenhar dados

Drawdata é mais um achado legal da minha biblioteca python. Quantas vezes você já se deparou com uma situação em que precisava explicar os conceitos de ML para a equipe? Deve acontecer com frequência, porque a ciência de dados trata do trabalho em equipe. Esta biblioteca ajuda você a desenhar um conjunto de dados no bloco de notas Jupyter.
Pessoalmente, gostei muito de usar essa biblioteca quando expliquei os conceitos de ML para minha equipe. Parabéns aos desenvolvedores que criaram esta biblioteca!

Drawdata é apenas para o problema de classificação com quatro classes.

Instalação

!pip install drawdata

Exemplo

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

saída

Imagem do autor

As janelas de desenho acima serão abertas após a execução de draw_Scatter (). Claramente, existem quatro classes: A, B, C e D. Você pode clicar em qualquer classe e desenhar os pontos que desejar. Cada classe representa as diferentes cores do desenho. Você também tem a opção de fazer download dos dados como um arquivo csv ou json. Além disso, os dados podem ser copiados para sua área de transferência e lidos a partir do código abaixo

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

Uma das limitações dessa biblioteca é que ela fornece apenas dois pontos de dados com quatro classes. Mas por outro lado, definitivamente vale a pena. Para mais detalhes, por favor, verifique este Link GitHub.

3. Visualização automática

Jamais esquecerei o tempo que gastei fazendo análise exploratória de dados usando matplotlib. Existem muitas bibliotecas de visualização simples. No entanto, descobri recentemente sobre o Autoviz que visualiza automaticamente qualquer conjunto de dados com uma única linha de código.

Instalação

!pip install autoviz

Exemplo

Usei o conjunto de dados IRIS para este exemplo.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

Os parâmetros acima são um padrão. Para mais informações, por favor, verifique SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

saída

Imagem do autor

Podemos ver todas as imagens e completar nosso EDA com uma única linha de código. Existem muitas bibliotecas de visualização automática, mas eu realmente gostei de me familiarizar com esta em particular.

4. Mito

Todo mundo gosta do Excel, certo? É uma das maneiras mais fáceis de explorar um conjunto de dados em uma primeira instância. Eu conheci o Mito há alguns meses, mas tentei apenas recentemente e eu simplesmente adorei!

É uma biblioteca python de extensão do Jupyter-lab com suporte a GUI que adiciona funcionalidade de planilha. Você pode carregar seus dados csv e editar o conjunto de dados como uma planilha, e ele gera automaticamente o código do Pandas. Muito legal.

Mito realmente merece uma postagem inteira no blog. No entanto, não vou entrar em muitos detalhes hoje. Aqui está uma demonstração de tarefa simples para você. Para mais detalhes, por favor, verifique SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

Instalação

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

Para obter mais informações sobre a instalação, verifique SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

Depois de executar o código acima, o mitosheet será aberto no laboratório do jupyter. Estou usando o conjunto de dados IRIS. Em primeiro lugar, criei duas novas colunas. Um é o comprimento médio da Sepal e o outro é a largura total da Sepal. Em segundo lugar, alterei o nome da coluna para o comprimento médio do Sepal. Finalmente, criei um histograma para a coluna de comprimento Sepal médio.

O código é gerado automaticamente após as etapas mencionadas acima serem seguidas.

saída

Imagem do autor

O código abaixo foi gerado para as etapas acima:

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. Gramformador

Mais uma biblioteca impressionante, Gramformer é baseada em modelos generativos que nos ajudam a corrigir a gramática nas frases. Esta biblioteca possui três modelos que possuem um detector, um marcador e um corretor. O detector identifica se o texto tem gramática incorreta. O marcador marca as classes gramaticais com defeito e o corretor corrige os erros. O Gramformer é um código-fonte totalmente aberto e está em seus estágios iniciais. Mas não é adequado para parágrafos longos, pois funciona apenas no nível de frase e foi treinado para 64 frases longas.

Atualmente, o modelo corretor e iluminador funciona. Vamos ver alguns exemplos.

Instalação

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

Instanciar Gramformer

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

Exemplo

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

saída

Imagem do autor

A partir da saída acima, podemos ver que corrige erros gramaticais e até mesmo ortográficos. Uma biblioteca realmente incrível e funciona muito bem também. Eu não tentei o marcador aqui, você pode tentar e verificar esta documentação do GitHub para mais detalhes.

6. Formador de estilo

Minha experiência positiva com o Gramformer me encorajou a procurar bibliotecas mais exclusivas. Foi assim que encontrei o Styleformer, outra biblioteca Python altamente atraente. Ambos Gramformer e Styleformer foram criados por Prithiviraj Damodaran e ambos são baseados em modelos generativos. Parabéns ao criador por abrir o código.

O Styleformer ajuda a converter sentenças casuais em formais, sentenças formais em casuais, sentenças ativas em passivas e passivas em ativas.

Vamos ver alguns exemplos

Instalação

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

Instancie o Styleformer

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

Exemplos

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

Veja a saída acima, ele converte com precisão. Usei essa biblioteca para converter o casual em formal, especialmente para postagens de mídia social em uma de minhas análises. Para mais detalhes, por favor, verifique GitHub.

Você pode estar familiarizado com algumas das bibliotecas mencionadas anteriormente, mas algumas como Gramformer e Styleformer são reprodutoras recentes. Eles são extremamente subestimados e certamente merecem ser conhecidos porque economizaram muito do meu tempo e eu os usei intensamente em meus projetos de PNL.

Obrigado pela leitura. Se você tiver algo a acrescentar, sinta-se à vontade para deixar um comentário!

Você também pode gostar do meu artigo anterior Cinco bibliotecas Python interessantes para ciência de dados

Bio: Dhilip Subramanian é Engenheiro Mecânico e concluiu seu Mestrado em Análise. Ele tem 9 anos de experiência com especialização em vários domínios relacionados a dados, incluindo TI, marketing, bancos, energia e manufatura. Ele é apaixonado por PNL e aprendizado de máquina. Ele é um contribuidor do Comunidade SAS e adora escrever artigos técnicos sobre vários aspectos da ciência de dados na plataforma do Medium.

Óptimo estado. Original. Republicado com permissão.

Relacionado:

= post anterior

Próximo post =>

Histórias principais nos últimos 30 dias

Mais populares
A diferença entre cientistas de dados e engenheiros de ML 3 razões pelas quais você deve usar modelos de regressão linear em vez de redes neurais Perguntas e respostas mais comuns para entrevistas em ciência de dados Alternativas de código aberto do copiloto do GitHub Conselhos para aprender ciência de dados do diretor de pesquisa do Google

mais Compartilhados
A diferença entre cientistas de dados e engenheiros de ML Como consultar o seu Dataframe Pandas Por que e como você deve aprender “Ciência de dados produtivos”? Não apenas para aprendizado profundo: como as GPUs aceleram a ciência de dados e a análise de dados Escrevendo seu primeiro aplicativo Python distribuído com Ray