Bilde av forfatter
Csvkit er en konge av tabelldata. Den har en samling verktøy som kan brukes til å konvertere CSV-filer, manipulere dataene og utføre dataanalyse.
Du kan installere csvkit
ved hjelp av pip.
$ pip install csvkit
Eksempel 1
I dette eksemplet vil vi bruke csvcut for å velge kun to kolonner og bruke csvlook for å vise resultatene i tabellformat.
csvcut -c sepal_length,species iris.csv | csvlook --max-rows 5
OBS: du kan begrense antall rader med argumentet --max-rows
Eksempel 2
Vi vil konvertere en CSV-fil til en JSON-fil ved å bruke csvjson.
csvjson iris.csv > iris.json
OBS: csvkit gir oss også Excel til CSV og JSON til CSV-verktøy.
Eksempel 3
Vi kan også utføre dataanalyse på en CSV-fil ved å bruke SQL-spørring. Csvsql krever SQL-spørring og CSV-filbane Du kan vise resultatene eller lagre dem i CSV.
csvsql --query "select * from iris where species like 'Iris-setosa'" iris.csv | csvlook --max-rows 5
IPython er et interaktivt Python-skall som bringer noen funksjoner til en Jupyter-notebook inn i terminalen din. Det lar deg teste ideer raskere uten å lage en Python-fil.
Install ipython
ved hjelp av pip-installasjon.
$ pip install ipython
OBS: Ipython kommer også med Anaconda og Jupyter Notebook. Så i de fleste tilfeller trenger du ikke å installere den.
Etter installasjonen er det bare å skrive ipython
i terminalen og begynn å utføre dataanalyse akkurat som du gjør i Jupyter-notebooks. Det er enkelt og raskt.
cURL står for klient-URL og er et CLI-verktøy for å overføre data til og fra serveren ved hjelp av URL-er. Du kan bruke den til å begrense hastigheten, logge feil, vise fremdrift og teste endepunkter.
I eksemplet laster vi ned maskinlæringsdata fra University of California og lagrer dem som en CSV-fil.
curl -o blood.csv https://archive.ics.uci.edu/ml/machine-learning-databases/blood-transfusion/transfusion.data
Utgang:
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed
100 12843 100 12843 0 0 7772 0 0:00:01 0:00:01 --:--:-- 7769
Du kan bruke cURL for å få tilgang til APIer med tokens, push-filer og automatisere datarørledningene.
Awk er et terminal skriptspråk som vi kan bruke til å manipulere dataene og utføre dataanalyse. Det krever ingen klage. Vi kan bruke variabler, numeriske funksjoner, strengfunksjoner og logiske operatorer for å skrive alle typer skript.
I eksemplet viser vi den første og siste kolonnen i CSV-filen og viser de siste 10 radene. $1 i skriptet betyr de første kolonnene. Du kan også endre den til $3 for å vise den tredje kolonnen. $NF representerer de siste kolonnene.
awk -F "," '{print $1 " | " $NF}' iris.csv | tail
Kaggle API lar deg laste ned alle slags datasett fra Kaggle-nettstedet. Videre kan du oppdatere det offentlige datasettet ditt, sende inn filen til konkurransen og kjøre og administrere Jupyter Notebook. Det er et super kommandolinjeverktøy.
Installer Kaggle API ved hjelp av pip.
$ pip install kaggle
Etter det, gå til kaggle nettstedet og få legitimasjonen din. Du kan følge med denne veiledning for å sette opp brukernavnet og den private nøkkelen.
export KAGGLE_USERNAME=kingabzpro
export KAGGLE_KEY=xxxxxxxxxxxxxx
Eksempel 1
Etter å ha satt opp autentisering, kan du søke etter tilfeldige datasett. I vårt tilfelle bruker vi Undersøkelse om sysselsettingstrender datasett.
Bilde fra Undersøkelse om sysselsettingstrender
Du kan enten kjøre nedlastingsskriptet med -d
argument BRUKERNAVN/DATASETT.
$ kaggle datasets download -d revathyta/survey-on-employment-trends
Eller,
Du kan ganske enkelt få API-kommando ved å klikke på tre prikker og velge alternativet "Kopier API-kommando".
Bilde fra Undersøkelse om sysselsettingstrender
Det vil laste ned datasettet i form av en zip-fil. Du kan også pipe scriptet med unzip
kommando for å trekke ut dataene.
Downloading survey-on-employment-trends.zip to C:Usersabida 0%| | 0.00/6.22k [00:00<?, ?B/s] 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 6.22k/6.22k [00:00<?, ?B/s]
Eksempel 2
For å opprette og dele datasettet ditt på Kaggle, må du først starte en metadatafil ved å oppgi banen til datasettet.
$ kaggle datasets init -p /work/Kaggle/World-Vaccine-Progress
Deretter oppretter du datasettet og skyver filen til Kaggle-serveren.
$ kaggle datasets create -p /work/Kaggle/World-Vaccine-Progress
Du kan også oppdatere datasettet ditt ved å bruke version
kommando. Det krever en filbane og melding. Akkurat som git.
$ kaggle datasets version -p /work/Kaggle/World-Vaccine-Progress -m "second version"
Du kan også sjekke ut prosjektet mitt Dashboard for vaksineoppdatering som har implementert Kaggle API for å oppdatere datasettet regelmessig.
Det er så mange fantastiske CLI-verktøy jeg bruker, og de har forbedret produktiviteten min og hjulpet meg med å automatisere det meste av arbeidet mitt. Du kan til og med lage ditt eget CLI-verktøy i Python ved å bruke klikk eller argparse.
I denne artikkelen har vi lært om CLI-verktøy for å laste ned datasettet, manipulere det, utføre analyser, kjøre skript og generere rapporter.
Jeg er en fan av Kaalgle API og csvkit. Jeg bruker det regelmessig for å automatisere notatbøkene og analysere. Hvis du vil lære hvordan du bruker kommandolinjeverktøy i datavitenskapens arbeidsflyt, les Datavitenskap ved kommandolinjen bestill online gratis.
Abid Ali Awan (@1abidaliawan) er en sertifisert dataforsker som elsker å bygge maskinlæringsmodeller. For tiden fokuserer han på innholdsskaping og skriver tekniske blogger om maskinlæring og datavitenskapsteknologier. Abid har en mastergrad i teknologiledelse og en bachelorgrad i telekommunikasjonsteknikk. Hans visjon er å bygge et AI-produkt ved å bruke et grafisk nevralt nettverk for studenter som sliter med psykiske lidelser.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
- kilde: https://www.kdnuggets.com/2023/03/5-command-line-tools-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=5-more-command-line-tools-for-data-science
- :er
- $3
- $OPP
- 10
- 100
- 7
- 8
- a
- Om oss
- Tilgang
- AI
- Alle
- tillater
- utrolig
- analyse
- og
- api
- APIer
- ER
- argument
- Artikkel
- AS
- At
- Autentisering
- automatisere
- gjennomsnittlig
- BE
- blogger
- blod
- bok
- Bringer
- bygge
- Bygning
- by
- california
- CAN
- saken
- saker
- Sertifisert
- endring
- sjekk
- klikk
- kunde
- samling
- Kolonne
- kolonner
- konkurranse
- innhold
- konvertere
- skape
- Opprette
- skaperverket
- Credentials
- Gjeldende
- I dag
- dato
- dataanalyse
- datavitenskap
- dataforsker
- datasett
- Grad
- Vise
- visning
- ikke
- nedlasting
- enten
- sysselsetting
- Ingeniørarbeid
- feil
- Eter (ETH)
- Selv
- eksempel
- Excel
- eksportere
- trekke ut
- trekke ut dataene
- vifte
- FAST
- raskere
- filet
- Filer
- Først
- fokusering
- følge
- Til
- skjema
- format
- Gratis
- fra
- funksjonalitet
- funksjoner
- Dess
- generere
- få
- gå
- Go
- graf
- Graf Neural Network
- veilede
- Ha
- hjulpet
- holder
- Hvordan
- Hvordan
- HTML
- HTTPS
- i
- ICS
- Ideer
- sykdom
- implementert
- forbedret
- in
- initiere
- installere
- installere
- interaktiv
- IT
- JSON
- Jupyter Notebook
- KDnuggets
- nøkkel
- konge
- Språk
- Siste
- LÆRE
- lært
- læring
- i likhet med
- BEGRENSE
- linje
- logisk
- maskin
- maskinlæring
- administrer
- ledelse
- mange
- Master
- midler
- mental
- Mentalt syk
- melding
- metadata
- modeller
- mer
- mest
- Trenger
- nettverk
- neural
- nevrale nettverket
- bærbare
- notatbøker
- Antall
- of
- on
- på nett
- operatører
- Alternativ
- egen
- banen
- utføre
- utfører
- rør
- plato
- Platon Data Intelligence
- PlatonData
- privat
- private Key
- Produkt
- produktivitet
- profesjonell
- Progress
- prosjekt
- gir
- gi
- offentlig
- Skyv
- Python
- tilfeldig
- Sats
- Lese
- mottatt
- regelmessig
- Rapporter
- representerer
- Krever
- Resultater
- Kjør
- s
- Spar
- besparende
- Vitenskap
- Forsker
- skript
- Søk
- Sekund
- velge
- sett
- innstilling
- Del
- Shell
- ganske enkelt
- So
- noen
- fart
- brukt
- SQL
- står
- Begynn
- Sliter
- Studenter
- send
- vellykket
- Super
- Teknisk
- Technologies
- Teknologi
- telekommunikasjon
- terminal
- test
- Det
- De
- tre
- tid
- til
- tokens
- verktøy
- verktøy
- Totalt
- Overføre
- universitet
- University of California
- Oppdater
- URL
- us
- bruke
- versjon
- syn
- Nettsted
- hvilken
- HVEM
- vil
- med
- uten
- Arbeid
- arbeidsflyt
- skrive
- skriving
- Din
- zephyrnet
- Zip