Pilt autorilt
Csvkit on tabeliandmete kuningas. Sellel on tööriistade kogu, mida saab kasutada CSV-failide teisendamiseks, andmetega manipuleerimiseks ja andmete analüüsimiseks.
Võite installida csvkit
kasutades pip.
$ pip install csvkit
Näiteks 1
Selles näites kasutame klahvi csvcut ainult kahe veeru valimiseks ja csvlooki abil tulemuste kuvamiseks tabelivormingus.
csvcut -c sepal_length,species iris.csv | csvlook --max-rows 5
Märge: saate argumendiga ridade arvu piirata --max-rows
Näiteks 2
Teisendame CSV-faili csvjsoni abil JSON-failiks.
csvjson iris.csv > iris.json
Märge: csvkit pakub meile ka Exceli CSV-ks ja JSON-i CSV-ks tööriistu.
Näiteks 3
SQL-päringu abil saame teha ka CSV-faili andmete analüüsi. Csvsql nõuab SQL-päringut ja CSV-faili teed Saate tulemusi kuvada või CSV-vormingus salvestada.
csvsql --query "select * from iris where species like 'Iris-setosa'" iris.csv | csvlook --max-rows 5
IPython on interaktiivne Pythoni kest, mis toob teie terminali mõned Jupyteri sülearvuti funktsioonid. See võimaldab teil ideid kiiremini katsetada ilma Pythoni faili loomata.
paigaldama ipython
kasutades pip install.
$ pip install ipython
Märge: Ipythoniga on kaasas ka Anaconda ja Jupyter sülearvuti. Nii et enamikul juhtudel ei pea te seda installima.
Pärast installimist lihtsalt tippige ipython
terminalis ja alustage andmeanalüüsi täpselt nagu Jupyteri sülearvutites. See on lihtne ja kiire.
Curl tähistab kliendi URL-i ja on CLI-tööriist andmete edastamiseks serverisse ja serverist URL-ide abil. Saate seda kasutada kiiruse piiramiseks, vigade logimiseks, edenemise kuvamiseks ja lõpp-punktide testimiseks.
Näites laadime masinõppe andmed alla California ülikoolist ja salvestame need CSV-failina.
curl -o blood.csv https://archive.ics.uci.edu/ml/machine-learning-databases/blood-transfusion/transfusion.data
Väljund:
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed
100 12843 100 12843 0 0 7772 0 0:00:01 0:00:01 --:--:-- 7769
Saate kasutada cURL-i žetoonidega API-dele juurdepääsuks, tõukefailidele ja andmekonveieri automatiseerimiseks.
Awk on terminali skriptikeel, mida saame kasutada andmetega manipuleerimiseks ja andmete analüüsimiseks. See ei nõua kurtmist. Igat tüüpi skriptide kirjutamiseks saame kasutada muutujaid, arvfunktsioone, stringifunktsioone ja loogilisi operaatoreid.
Näites kuvame CSV-faili esimese ja viimase veeru ning näitame 10 viimast rida. $1 skriptis tähendab esimesi veerge. Kolmanda veeru kuvamiseks saate selle ka 3 dollariks muuta. $NF tähistab viimaseid veerge.
awk -F "," '{print $1 " | " $NF}' iris.csv | tail
Kaggle API võimaldab teil Kaggle veebisaidilt alla laadida igasuguseid andmekogumeid. Lisaks saate värskendada oma avalikku andmestikku, esitada faili konkursile ning käivitada ja hallata Jupyteri sülearvutit. See on super käsurea tööriist.
Installige Kaggle API, kasutades pip.
$ pip install kaggle
Pärast seda minge lehele Kaagutama veebisaiti ja hankige oma mandaadid. Saate jälgida see juhend oma kasutajanime ja privaatvõtme seadistamiseks.
export KAGGLE_USERNAME=kingabzpro
export KAGGLE_KEY=xxxxxxxxxxxxxx
Näiteks 1
Pärast autentimise seadistamist saate otsida juhuslikke andmekogumeid. Meie puhul kasutame Tööhõivetrendide uuring andmestik.
Allalaadimisskripti saate käivitada -d
argument USERNAME/DATASET.
$ kaggle datasets download -d revathyta/survey-on-employment-trends
Või
API-käsu saate lihtsalt hankida, klõpsates kolmel punktil ja valides valiku „Kopeeri API käsk”.
See laadib andmestiku alla ZIP-failina. Samuti saate skripti torujuhtme abil juhtida unzip
käsk andmete ekstraheerimiseks.
Downloading survey-on-employment-trends.zip to C:Usersabida 0%| | 0.00/6.22k [00:00<?, ?B/s] 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 6.22k/6.22k [00:00<?, ?B/s]
Näiteks 2
Andmestiku loomiseks ja jagamiseks Kaggle'is peate esmalt algatama metaandmete faili, esitades andmestiku tee.
$ kaggle datasets init -p /work/Kaggle/World-Vaccine-Progress
Pärast seda looge andmestik ja lükake fail Kaggle serverisse.
$ kaggle datasets create -p /work/Kaggle/World-Vaccine-Progress
Samuti saate oma andmestikku värskendada, kasutades version
käsk. See nõuab failiteed ja sõnumit. Täpselt nagu git.
$ kaggle datasets version -p /work/Kaggle/World-Vaccine-Progress -m "second version"
Võite ka minu projektiga tutvuda Vaktsiini värskendamise armatuurlaud mis on edukalt juurutanud Kaggle API andmestiku korrapäraseks värskendamiseks.
Kasutan nii palju hämmastavaid CLI tööriistu ja need on parandanud minu tootlikkust ja aidanud mul automatiseerida enamikku oma tööst. Võite isegi luua Pythonis oma CLI tööriista, kasutades kliki või argparse'i.
Sellest artiklist oleme õppinud CLI-tööriistu, mis võimaldavad andmestiku alla laadida, sellega manipuleerida, analüüsida, skripte käitada ja aruandeid luua.
Olen Kaalgle API ja csvkiti fänn. Kasutan seda regulaarselt oma märkmike ja analüüside automatiseerimiseks. Kui soovite õppida, kuidas kasutada oma andmeteaduse töövoos käsurea tööriistu, lugege Andmeteadus käsureal broneerige veebis tasuta.
Abid Ali Awan (@1abidaliawan) on sertifitseeritud andmeteadlase professionaal, kes armastab masinõppemudelite loomist. Praegu keskendub ta sisu loomisele ning tehniliste ajaveebide kirjutamisele masinõppe ja andmeteaduse tehnoloogiate kohta. Abid on omandanud magistrikraadi tehnoloogiajuhtimises ja bakalaureusekraadi telekommunikatsioonitehnikas. Tema visioon on luua graafilise närvivõrgu abil tehisintellekti toode vaimuhaigustega võitlevatele õpilastele.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. Juurdepääs siia.
- Allikas: https://www.kdnuggets.com/2023/03/5-command-line-tools-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=5-more-command-line-tools-for-data-science
- :on
- $3
- $ UP
- 10
- 100
- 7
- 8
- a
- MEIST
- Ligipääs
- AI
- Materjal: BPA ja flataatide vaba plastik
- võimaldab
- hämmastav
- analüüs
- ja
- API
- API-liidesed
- OLEME
- argument
- artikkel
- AS
- At
- Autentimine
- automatiseerima
- keskmine
- BE
- blogid
- veri
- raamat
- Toob
- ehitama
- Ehitus
- by
- California
- CAN
- juhul
- juhtudel
- atesteeritud
- muutma
- kontrollima
- klõps
- klient
- kogumine
- Veerg
- Veerud
- konkurents
- sisu
- muutma
- looma
- loomine
- loomine
- volikiri
- Praegune
- Praegu
- andmed
- andmete analüüs
- andmeteadus
- andmeteadlane
- andmekogumid
- Kraad
- Ekraan
- väljapanek
- Ära
- lae alla
- kumbki
- töö
- Inseneriteadus
- vead
- Eeter (ETH)
- Isegi
- näide
- Excel
- eksport
- väljavõte
- eraldada andmed
- lehvikut
- KIIRE
- kiiremini
- fail
- Faile
- esimene
- keskendumine
- järgima
- eest
- vorm
- formaat
- tasuta
- Alates
- funktsionaalsused
- funktsioonid
- Pealegi
- tekitama
- saama
- Git
- Go
- graafik
- Graafiline närvivõrk
- suunata
- Olema
- aitas
- omab
- Kuidas
- Kuidas
- HTML
- HTTPS
- i
- ICS
- ideid
- haigus
- rakendatud
- paranenud
- in
- algatama
- paigaldama
- paigaldamine
- interaktiivne
- IT
- Json
- Jupyteri sülearvuti
- KDnuggets
- Võti
- kuningas
- keel
- viimane
- Õppida
- õppinud
- õppimine
- nagu
- LIMIT
- joon
- loogiline
- masin
- masinõpe
- juhtima
- juhtimine
- palju
- meister
- vahendid
- vaimne
- Vaimuhaigus
- sõnum
- Metaandmed
- mudelid
- rohkem
- kõige
- Vajadus
- võrk
- Neural
- Närvivõrgus
- märkmik
- märkmikud
- number
- of
- on
- Internetis
- ettevõtjad
- valik
- enda
- tee
- täitma
- esitades
- toru
- Platon
- Platoni andmete intelligentsus
- PlatoData
- era-
- Private Key
- Toode
- tootlikkus
- professionaalne
- Edu
- projekt
- annab
- pakkudes
- avalik
- Lükkama
- Python
- juhuslik
- määr
- Lugenud
- saadud
- regulaarselt
- Aruanded
- esindab
- Vajab
- Tulemused
- jooks
- s
- Säästa
- säästmine
- teadus
- teadlane
- skripte
- Otsing
- Teine
- valides
- komplekt
- kehtestamine
- Jaga
- Shell
- lihtsalt
- So
- mõned
- kiirus
- kasutatud
- SQL
- seisab
- algus
- Võitlemine
- Õpilased
- esitama
- Edukalt
- super
- Tehniline
- Tehnoloogiad
- Tehnoloogia
- elekterside
- terminal
- test
- et
- .
- kolm
- aeg
- et
- märgid
- tööriist
- töövahendid
- Summa
- Ülekanne
- Ülikool
- California Ülikool
- Värskendused
- URL
- us
- kasutama
- versioon
- nägemus
- veebisait
- mis
- WHO
- will
- koos
- ilma
- Töö
- töövoog
- kirjutama
- kirjutamine
- Sinu
- sephyrnet
- Tõmblukk