Imagem do autor
CsvkitGenericName é o rei dos dados tabulares. Possui uma coleção de ferramentas que podem ser usadas para converter arquivos CSV, manipular os dados e realizar análises de dados.
Você pode instalar csvkit
usando o pip.
$ pip install csvkit
Exemplo 1
Neste exemplo, usaremos csvcut para selecionar apenas duas colunas e usaremos csvlook para exibir os resultados em formato tabular.
csvcut -c sepal_length,species iris.csv | csvlook --max-rows 5
Observação: você pode limitar o número de linhas com o argumento --max-rows
Exemplo 2
Vamos converter um arquivo CSV em um arquivo JSON usando csvjson.
csvjson iris.csv > iris.json
Observação: O csvkit também fornece ferramentas Excel para CSV e JSON para CSV.
Exemplo 3
Também podemos realizar análise de dados em um arquivo CSV usando a consulta SQL. Csvsql requer consulta SQL e caminho de arquivo CSV Você pode exibir os resultados ou salvá-los em CSV.
csvsql --query "select * from iris where species like 'Iris-setosa'" iris.csv | csvlook --max-rows 5
IPythonName é um shell Python interativo que traz algumas funcionalidades de um notebook jupyter para o seu terminal. Ele permite que você teste ideias mais rapidamente sem criar um arquivo Python.
Instale ipython
usando a instalação do pip.
$ pip install ipython
Observação: Ipython também vem com Anaconda e Jupyter Notebook. Portanto, na maioria dos casos, você não precisa instalá-lo.
Após a instalação, basta digitar ipython
no terminal e comece a realizar a análise de dados como você faz nos notebooks Jupyter. É fácil e rápido.
cURL significa URL do cliente e é uma ferramenta CLI para transferir dados de e para o servidor usando URLs. Você pode usá-lo para limitar a taxa, registrar erros, exibir o progresso e testar endpoints.
No exemplo, estamos baixando os dados de aprendizado de máquina da Universidade da Califórnia e salvando-os como um arquivo CSV.
curl -o blood.csv https://archive.ics.uci.edu/ml/machine-learning-databases/blood-transfusion/transfusion.data
Saída:
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed
100 12843 100 12843 0 0 7772 0 0:00:01 0:00:01 --:--:-- 7769
Você pode usar cURL para acessar APIs com tokens, enviar arquivos e automatizar os pipelines de dados.
Awk é uma linguagem de script de terminal que podemos usar para manipular os dados e realizar análises de dados. Não requer reclamação. Podemos usar variáveis, funções numéricas, funções de string e operadores lógicos para escrever qualquer tipo de script.
No exemplo, estamos exibindo a primeira e a última coluna do arquivo CSV e mostrando as últimas 10 linhas. O $1 no script significa as primeiras colunas. Você também pode alterá-lo para $ 3 para exibir a terceira coluna. O $NF representa as últimas colunas.
awk -F "," '{print $1 " | " $NF}' iris.csv | tail
API Kaggle permite que você baixe todos os tipos de conjuntos de dados do site Kaggle. Além disso, você pode atualizar seu conjunto de dados público, enviar o arquivo para a competição e executar e gerenciar o Jupyter Notebook. É uma super ferramenta de linha de comando.
Instale a API Kaggle usando pip.
$ pip install kaggle
Depois disso, vá para o Kaggle site e obtenha suas credenciais. você pode seguir isto guia para configurar seu nome de usuário e chave privada.
export KAGGLE_USERNAME=kingabzpro
export KAGGLE_KEY=xxxxxxxxxxxxxx
Exemplo 1
Depois de configurar a autenticação, você pode pesquisar conjuntos de dados aleatórios. No nosso caso, estamos usando o Pesquisa sobre Tendências de Emprego conjunto de dados.
Imagem da Pesquisa sobre Tendências de Emprego
Você pode executar o script de download com -d
argumento USERNAME/DATASET.
$ kaggle datasets download -d revathyta/survey-on-employment-trends
Ou,
Você pode simplesmente obter o comando da API clicando nos três pontos e selecionando a opção “Copiar comando da API”.
Imagem da Pesquisa sobre Tendências de Emprego
Ele fará o download do conjunto de dados na forma de um arquivo zip. Você também pode canalizar o script com o unzip
comando para extrair os dados.
Downloading survey-on-employment-trends.zip to C:Usersabida 0%| | 0.00/6.22k [00:00<?, ?B/s] 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 6.22k/6.22k [00:00<?, ?B/s]
Exemplo 2
Para criar e compartilhar seu conjunto de dados no Kaggle, você precisa primeiro iniciar um arquivo de metadados fornecendo o caminho do conjunto de dados.
$ kaggle datasets init -p /work/Kaggle/World-Vaccine-Progress
Depois disso, crie o conjunto de dados e envie o arquivo para o servidor Kaggle.
$ kaggle datasets create -p /work/Kaggle/World-Vaccine-Progress
Você também pode atualizar seu conjunto de dados usando o version
comando. Requer um caminho de arquivo e uma mensagem. Assim como git.
$ kaggle datasets version -p /work/Kaggle/World-Vaccine-Progress -m "second version"
Você também pode conferir meu projeto Painel de Atualização de Vacinas que implementou com sucesso a API Kaggle para atualizar o conjunto de dados regularmente.
Existem tantas ferramentas CLI incríveis que eu uso e elas melhoraram minha produtividade e me ajudaram a automatizar a maior parte do meu trabalho. Você pode até criar sua própria ferramenta CLI em Python usando click ou argparse.
Neste artigo, aprendemos sobre as ferramentas CLI para baixar o conjunto de dados, manipulá-lo, realizar análises, executar scripts e gerar relatórios.
Sou fã da API Kaalgle e do csvkit. Eu o uso regularmente para automatizar meus cadernos e análises. Se você quiser aprender a usar ferramentas de linha de comando em seu fluxo de trabalho de ciência de dados, leia Ciência de dados na linha de comando reserve online gratuitamente.
Abid Ali Awan (@ 1abidaliawan) é um profissional de cientista de dados certificado que adora criar modelos de aprendizado de máquina. Atualmente, ele está se concentrando na criação de conteúdo e escrevendo blogs técnicos sobre tecnologias de aprendizado de máquina e ciência de dados. Abid é mestre em Gestão de Tecnologia e bacharel em Engenharia de Telecomunicações. Sua visão é construir um produto de IA usando uma rede neural gráfica para estudantes que lutam contra doenças mentais.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
- Fonte: https://www.kdnuggets.com/2023/03/5-command-line-tools-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=5-more-command-line-tools-for-data-science
- :é
- $3
- $UP
- 10
- 100
- 7
- 8
- a
- Sobre
- acessando
- AI
- Todos os Produtos
- permite
- surpreendente
- análise
- e
- api
- APIs
- SOMOS
- argumento
- artigo
- AS
- At
- Autenticação
- automatizar
- média
- BE
- Blogs
- sangue
- livro
- Traz
- construir
- Prédio
- by
- Califórnia
- CAN
- casas
- casos
- Non-GMO
- alterar
- verificar
- clique
- cliente
- coleção
- Coluna
- colunas
- competição
- conteúdo
- converter
- crio
- Criar
- criação
- Credenciais
- Atual
- Atualmente
- dados,
- análise de dados
- ciência de dados
- cientista de dados
- conjuntos de dados
- Grau
- Ecrã
- exibindo
- não
- download
- ou
- emprego
- Engenharia
- erros
- Éter (ETH)
- Mesmo
- exemplo
- Excel
- exportar
- extrato
- extrair os dados
- ventilador
- RÁPIDO
- mais rápido
- Envie o
- Arquivos
- Primeiro nome
- focando
- seguir
- Escolha
- formulário
- formato
- Gratuito
- da
- funcionalidades
- funções
- Além disso
- gerar
- ter
- Git
- Go
- gráfico
- Rede Neural do Gráfico
- guia
- Ter
- ajudou
- detém
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTML
- HTTPS
- i
- ICS
- idéias
- doença
- implementado
- melhorado
- in
- iniciar
- instalar
- instalando
- interativo
- IT
- json
- Caderno Jupyter
- KDnuggetsGenericName
- Chave
- Rei
- língua
- Sobrenome
- APRENDER
- aprendido
- aprendizagem
- como
- LIMITE
- Line
- lógico
- máquina
- aprendizado de máquina
- gerencia
- de grupos
- muitos
- dominar
- significa
- mental
- Doença mental
- mensagem
- metadados
- modelos
- mais
- a maioria
- você merece...
- rede
- Neural
- rede neural
- caderno
- laptops
- número
- of
- on
- online
- operadores
- Opção
- próprio
- caminho
- realizar
- realização
- tubo
- platão
- Inteligência de Dados Platão
- PlatãoData
- privado
- chave privada
- Produto
- produtividade
- profissional
- Progresso
- projeto
- fornece
- fornecendo
- público
- Empurrar
- Python
- acaso
- Taxa
- Leia
- recebido
- regularmente
- Relatórios
- representa
- exige
- Resultados
- Execute
- s
- Salvar
- poupança
- Ciência
- Cientista
- Scripts
- Pesquisar
- Segundo
- selecionando
- conjunto
- contexto
- Partilhar
- concha
- simplesmente
- So
- alguns
- velocidade
- gasto
- SQL
- fica
- começo
- Lutando
- Estudantes
- enviar
- entraram com sucesso
- super
- Dados Técnicos:
- Tecnologias
- Tecnologia
- telecomunicação
- terminal
- teste
- que
- A
- três
- tempo
- para
- Tokens
- ferramenta
- ferramentas
- Total
- Transferir
- universidade
- Universidade da Califórnia
- Atualizar
- URL
- us
- usar
- versão
- visão
- Site
- qual
- QUEM
- precisarão
- de
- sem
- Atividades:
- de gestão de documentos
- escrever
- escrita
- investimentos
- zefirnet
- Zip