Bild av författare
Csvkit är en kung av tabelldata. Den har en samling verktyg som kan användas för att konvertera CSV-filer, manipulera data och utföra dataanalys.
Du kan installera csvkit
använder pip.
$ pip install csvkit
Exempelvis 1
I det här exemplet kommer vi att använda csvcut för att bara välja två kolumner och använda csvlook för att visa resultaten i tabellformat.
csvcut -c sepal_length,species iris.csv | csvlook --max-rows 5
Notera: du kan begränsa antalet rader med argumentet --max-rows
Exempelvis 2
Vi kommer att konvertera en CSV-fil till en JSON-fil med hjälp av csvjson.
csvjson iris.csv > iris.json
Notera: csvkit ger oss också verktyg för Excel till CSV och JSON till CSV.
Exempelvis 3
Vi kan också utföra dataanalys på en CSV-fil genom att använda SQL-fråga. Csvsql kräver SQL-fråga och CSV-filsökväg Du kan visa resultaten eller spara dem i CSV.
csvsql --query "select * from iris where species like 'Iris-setosa'" iris.csv | csvlook --max-rows 5
ipython är ett interaktivt Python-skal som tar med vissa funktioner i en Jupyter-anteckningsbok till din terminal. Det låter dig testa idéer snabbare utan att skapa en Python-fil.
installera ipython
med hjälp av pipinstallation.
$ pip install ipython
Notera: Ipython kommer också med Anaconda och Jupyter Notebook. Så i de flesta fall behöver du inte installera den.
Efter installationen är det bara att skriva ipython
i terminalen och börja utföra dataanalys precis som du gör i Jupyters bärbara datorer. Det är enkelt och snabbt.
ringla står för klient-URL och är ett CLI-verktyg för att överföra data till och från servern med hjälp av URL:er. Du kan använda den för att begränsa hastigheten, logga fel, visa framsteg och testa slutpunkter.
I exemplet laddar vi ner maskininlärningsdata från University of California och sparar dem som en CSV-fil.
curl -o blood.csv https://archive.ics.uci.edu/ml/machine-learning-databases/blood-transfusion/transfusion.data
Produktion:
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed
100 12843 100 12843 0 0 7772 0 0:00:01 0:00:01 --:--:-- 7769
Du kan använda cURL för att komma åt API:er med tokens, push-filer och automatisera datapipelines.
Awk är ett terminal skriptspråk som vi kan använda för att manipulera data och utföra dataanalys. Det kräver inget klagomål. Vi kan använda variabler, numeriska funktioner, strängfunktioner och logiska operatorer för att skriva vilken typ av skript som helst.
I exemplet visar vi de första och sista kolumnerna i CSV-filen och visar de sista 10 raderna. $1 i skriptet betyder de första kolumnerna. Du kan också ändra den till $3 för att visa den tredje kolumnen. $NF representerar de sista kolumnerna.
awk -F "," '{print $1 " | " $NF}' iris.csv | tail
Kaggle API låter dig ladda ner alla typer av datauppsättningar från Kaggles webbplats. Dessutom kan du uppdatera din offentliga datauppsättning, skicka in filen till tävlingen och köra och hantera Jupyter Notebook. Det är ett superkommandoradsverktyg.
Installera Kaggle API med pip.
$ pip install kaggle
Efter det, gå till Kaggle webbplats och få dina referenser. Du kan följa detta guide för att ställa in ditt användarnamn och privata nyckel.
export KAGGLE_USERNAME=kingabzpro
export KAGGLE_KEY=xxxxxxxxxxxxxx
Exempelvis 1
Efter att ha ställt in autentisering kan du söka efter slumpmässiga datamängder. I vårt fall använder vi Undersökning om sysselsättningstrender datasätt.
Bild från Undersökning om sysselsättningstrender
Du kan antingen köra nedladdningsskriptet med -d
argument USERNAME/DATASET.
$ kaggle datasets download -d revathyta/survey-on-employment-trends
Eller
Du kan helt enkelt få API-kommando genom att klicka på tre punkter och välja alternativet "Kopiera API-kommando".
Bild från Undersökning om sysselsättningstrender
Det kommer att ladda ner datamängden i form av en zip-fil. Du kan också röra skriptet med unzip
kommando för att extrahera data.
Downloading survey-on-employment-trends.zip to C:Usersabida 0%| | 0.00/6.22k [00:00<?, ?B/s] 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 6.22k/6.22k [00:00<?, ?B/s]
Exempelvis 2
För att skapa och dela din datamängd på Kaggle måste du först initiera en metadatafil genom att ange sökvägen till datamängden.
$ kaggle datasets init -p /work/Kaggle/World-Vaccine-Progress
Skapa sedan datasetet och skicka filen till Kaggle-servern.
$ kaggle datasets create -p /work/Kaggle/World-Vaccine-Progress
Du kan också uppdatera din datauppsättning genom att använda version
kommando. Det kräver en sökväg och ett meddelande. Precis som git.
$ kaggle datasets version -p /work/Kaggle/World-Vaccine-Progress -m "second version"
Du kan också kolla in mitt projekt Dashboard för vaccinuppdatering som framgångsrikt har implementerat Kaggle API för att uppdatera datasetet regelbundet.
Det finns så många fantastiska CLI-verktyg som jag använder och de har förbättrat min produktivitet och hjälpt mig att automatisera det mesta av mitt arbete. Du kan till och med skapa ditt eget CLI-verktyg i Python med click eller argparse.
I den här artikeln har vi lärt oss om CLI-verktyg för att ladda ner datamängden, manipulera den, utföra analys, köra skript och generera rapporter.
Jag är ett fan av Kaalgle API och csvkit. Jag använder det regelbundet för att automatisera mina anteckningsböcker och analyser. Om du vill lära dig hur du använder kommandoradsverktyg i ditt datavetenskapliga arbetsflöde, läs Datavetenskap vid kommandoraden boka online gratis.
Abid Ali Awan (@1abidaliawan) är en certifierad datavetare som älskar att bygga modeller för maskininlärning. För närvarande fokuserar han på att skapa innehåll och skriva tekniska bloggar om maskininlärning och datavetenskap. Abid har en magisterexamen i Technology Management och en kandidatexamen i telekommunikationsteknik. Hans vision är att bygga en AI-produkt med hjälp av ett grafiskt neuralt nätverk för studenter som kämpar med psykisk ohälsa.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
- Källa: https://www.kdnuggets.com/2023/03/5-command-line-tools-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=5-more-command-line-tools-for-data-science
- :är
- $3
- $UPP
- 10
- 100
- 7
- 8
- a
- Om oss
- åtkomst
- AI
- Alla
- tillåter
- fantastiska
- analys
- och
- api
- API: er
- ÄR
- Argumentet
- Artikeln
- AS
- At
- Autentisering
- automatisera
- genomsnitt
- BE
- bloggar
- blod
- boken
- Bringar
- SLUTRESULTAT
- Byggnad
- by
- kalifornien
- KAN
- Vid
- fall
- Certifierad
- byta
- ta
- klick
- klient
- samling
- Kolumn
- Kolonner
- konkurrens
- innehåll
- konvertera
- skapa
- Skapa
- skapande
- referenser
- Aktuella
- För närvarande
- datum
- dataanalys
- datavetenskap
- datavetare
- datauppsättningar
- Examen
- Visa
- visning
- inte
- ladda ner
- antingen
- sysselsättning
- Teknik
- fel
- Eter (ETH)
- Även
- exempel
- excel
- export
- extrahera
- extrahera data
- fläkt
- SNABB
- snabbare
- Fil
- Filer
- Förnamn
- fokusering
- följer
- För
- formen
- format
- Fri
- från
- funktionaliteter
- funktioner
- Vidare
- generera
- skaffa sig
- gå
- Go
- diagram
- Graph Neural Network
- styra
- Har
- hjälpte
- innehar
- Hur ser din drömresa ut
- How To
- html
- HTTPS
- i
- ICS
- idéer
- sjukdom
- genomföras
- förbättras
- in
- initiera
- installera
- installera
- interaktiva
- IT
- json
- Jupyter Notebook
- KDnuggets
- Nyckel
- King
- språk
- Efternamn
- LÄRA SIG
- lärt
- inlärning
- tycka om
- BEGRÄNSA
- linje
- logisk
- Maskinen
- maskininlärning
- hantera
- ledning
- många
- Master
- betyder
- mentala
- Mental sjukdom
- meddelande
- metadata
- modeller
- mer
- mest
- Behöver
- nät
- neural
- neurala nätverk
- anteckningsbok
- bärbara datorer
- antal
- of
- on
- nätet
- operatörer
- Alternativet
- egen
- bana
- utföra
- utför
- Röret
- plato
- Platon Data Intelligence
- PlatonData
- privat
- privat nyckel
- Produkt
- produktivitet
- professionell
- Framsteg
- projektet
- ger
- tillhandahålla
- allmän
- Tryck
- Python
- slumpmässig
- Betygsätta
- Läsa
- mottagna
- regelbundet
- Rapport
- representerar
- Kräver
- Resultat
- Körning
- s
- Save
- sparande
- Vetenskap
- Forskare
- skript
- Sök
- Andra
- väljer
- in
- inställning
- Dela
- Shell
- helt enkelt
- So
- några
- fart
- spent
- SQL
- står
- starta
- Kämpar
- Studenter
- skicka
- Framgångsrikt
- super
- Teknisk
- Tekniken
- Teknologi
- telekommunikation
- terminal
- testa
- den där
- Smakämnen
- tre
- tid
- till
- tokens
- verktyg
- verktyg
- Totalt
- Överföra
- universitet
- University of California
- Uppdatering
- URL
- us
- användning
- version
- syn
- Webbplats
- som
- VEM
- kommer
- med
- utan
- Arbete
- arbetsflöde
- skriva
- skrivning
- Din
- zephyrnet
- Postnummer