Kuva tekijältä
Csvkit on taulukkotietojen kuningas. Siinä on kokoelma työkaluja, joita voidaan käyttää CSV-tiedostojen muuntamiseen, tietojen käsittelemiseen ja tietojen analysointiin.
Voit asentaa csvkit
käyttämällä pip.
$ pip install csvkit
Esimerkki 1
Tässä esimerkissä valitsemme vain kaksi saraketta käyttämällä csvcut-komentoa ja näytämme tulokset taulukkomuodossa käyttämällä csvlookia.
csvcut -c sepal_length,species iris.csv | csvlook --max-rows 5
Huomautus: voit rajoittaa rivien määrää argumentilla --max-rows
Esimerkki 2
Muunnamme CSV-tiedoston JSON-tiedostoksi csvjsonilla.
csvjson iris.csv > iris.json
Huomautus: csvkit tarjoaa myös Excel-CSV- ja JSON-CSV-työkalut.
Esimerkki 3
Voimme myös analysoida CSV-tiedostoa käyttämällä SQL-kyselyä. Csvsql vaatii SQL-kyselyn ja CSV-tiedostopolun Voit näyttää tulokset tai tallentaa ne CSV-muodossa.
csvsql --query "select * from iris where species like 'Iris-setosa'" iris.csv | csvlook --max-rows 5
IPython on interaktiivinen Python-kuori, joka tuo joitain jupyter-muistikirjan toimintoja päätteeseesi. Sen avulla voit testata ideoita nopeammin ilman Python-tiedostoa.
install ipython
käyttämällä pip asennusta.
$ pip install ipython
Huomautus: Ipythonin mukana tulee myös Anaconda ja Jupyter Notebook. Joten useimmissa tapauksissa sinun ei tarvitse asentaa sitä.
Asennuksen jälkeen kirjoita ipython
terminaalissa ja aloita tietojen analysointi aivan kuten Jupyter-muistikirjoissa. Se on helppoa ja nopeaa.
cURL tarkoittaa asiakkaan URL-osoitetta ja on CLI-työkalu tietojen siirtämiseen palvelimelle ja palvelimelta URL-osoitteiden avulla. Voit käyttää sitä rajoittamaan nopeutta, lokivirheitä, näyttämään edistymistä ja testaamaan päätepisteitä.
Esimerkissä lataamme koneoppimisdataa Kalifornian yliopistosta ja tallennamme ne CSV-tiedostona.
curl -o blood.csv https://archive.ics.uci.edu/ml/machine-learning-databases/blood-transfusion/transfusion.data
lähtö:
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed
100 12843 100 12843 0 0 7772 0 0:00:01 0:00:01 --:--:-- 7769
Voit käyttää cURL:iä sovellusliittymien käyttämiseen tunnuksilla, push-tiedostoilla ja automatisoida tietoputket.
Awk on terminaalin komentosarjakieli, jota voimme käyttää tietojen käsittelemiseen ja tietojen analysointiin. Se ei vaadi valittamista. Voimme käyttää muuttujia, numeerisia toimintoja, merkkijonofunktioita ja loogisia operaattoreita minkä tahansa tyyppisten komentosarjojen kirjoittamiseen.
Esimerkissä näytämme CSV-tiedoston ensimmäisen ja viimeisen sarakkeen sekä viimeiset 10 riviä. Skriptin $1 tarkoittaa ensimmäisiä sarakkeita. Voit myös muuttaa sen arvoksi $3 näyttääksesi kolmannen sarakkeen. $NF edustaa viimeisiä sarakkeita.
awk -F "," '{print $1 " | " $NF}' iris.csv | tail
Kaggle-sovellusliittymä voit ladata kaikenlaisia tietojoukkoja Kaggle-verkkosivustolta. Lisäksi voit päivittää julkisen tietojoukkosi, lähettää tiedoston kilpailuun sekä käyttää ja hallita Jupyter Notebookia. Se on super komentorivityökalu.
Asenna Kaggle API pip:n avulla.
$ pip install kaggle
Sen jälkeen, siirry Kaggle verkkosivuilla ja hanki kirjautumistietosi. Voit seurata tätä opas käyttäjätunnuksen ja yksityisen avaimen määrittämiseen.
export KAGGLE_USERNAME=kingabzpro
export KAGGLE_KEY=xxxxxxxxxxxxxx
Esimerkki 1
Todennuksen määrittämisen jälkeen voit etsiä satunnaisia tietojoukkoja. Meidän tapauksessamme käytämme Työllisyystrendejä koskeva tutkimus aineisto.
Kuva Työllisyystrendejä koskeva tutkimus
Voit joko suorittaa latausskriptin käyttämällä -d
argumentti KÄYTTÄJÄNIMI/TIEDOT.
$ kaggle datasets download -d revathyta/survey-on-employment-trends
Tai,
Voit yksinkertaisesti saada API-komennon napsauttamalla kolmea pistettä ja valitsemalla "Kopioi API-komento".
Kuva Työllisyystrendejä koskeva tutkimus
Se lataa tietojoukon zip-tiedostona. Voit myös ohjata skriptin unzip
komento tietojen purkamiseksi.
Downloading survey-on-employment-trends.zip to C:Usersabida 0%| | 0.00/6.22k [00:00<?, ?B/s] 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 6.22k/6.22k [00:00<?, ?B/s]
Esimerkki 2
Jos haluat luoda ja jakaa tietojoukon Kagglessa, sinun on ensin aloitettava metatietotiedosto antamalla tietojoukon polku.
$ kaggle datasets init -p /work/Kaggle/World-Vaccine-Progress
Luo sen jälkeen tietojoukko ja työnnä tiedosto Kaggle-palvelimelle.
$ kaggle datasets create -p /work/Kaggle/World-Vaccine-Progress
Voit myös päivittää tietojoukon käyttämällä version
komento. Se vaatii tiedostopolun ja viestin. Aivan kuten git.
$ kaggle datasets version -p /work/Kaggle/World-Vaccine-Progress -m "second version"
Voit myös tutustua projektiini Rokotteen päivityksen hallintapaneeli joka on onnistuneesti ottanut käyttöön Kaggle API:n päivittääkseen tietojoukon säännöllisesti.
Käytän niin monia uskomattomia CLI-työkaluja, jotka ovat parantaneet tuottavuuttani ja auttaneet minua automatisoimaan suurimman osan työstäni. Voit jopa luoda oman CLI-työkalun Pythonissa napsauttamalla tai argparsea.
Tässä artikkelissa olemme oppineet CLI-työkaluista, joilla voit ladata tietojoukon, käsitellä sitä, suorittaa analyyseja, suorittaa komentosarjoja ja luoda raportteja.
Olen Kaalgle API:n ja csvkitin fani. Käytän sitä säännöllisesti muistikirjojeni ja analyysien automatisointiin. Jos haluat oppia käyttämään komentorivityökaluja datatieteen työnkulussa, lue Tietotiede komentorivillä varaa verkossa ilmaiseksi.
Abid Ali Awan (@1abidaliawan) on sertifioitu datatieteilijä, joka rakastaa koneoppimismallien rakentamista. Tällä hetkellä hän keskittyy sisällöntuotantoon ja kirjoittaa teknisiä blogeja koneoppimisesta ja datatieteen teknologioista. Abidilla on maisterin tutkinto teknologiajohtamisesta ja kandidaatin tutkinto tietoliikennetekniikasta. Hänen visionsa on rakentaa tekoälytuote graafisen hermoverkon avulla opiskelijoille, jotka kamppailevat mielenterveysongelmista.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. Pääsy tästä.
- Lähde: https://www.kdnuggets.com/2023/03/5-command-line-tools-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=5-more-command-line-tools-for-data-science
- :On
- $3
- $ YLÖS
- 10
- 100
- 7
- 8
- a
- Meistä
- Pääsy
- AI
- Kaikki
- mahdollistaa
- hämmästyttävä
- analyysi
- ja
- api
- API
- OVAT
- perustelu
- artikkeli
- AS
- At
- Authentication
- automatisoida
- keskimäärin
- BE
- blogit
- veri
- kirja
- Tuo
- rakentaa
- Rakentaminen
- by
- Kalifornia
- CAN
- tapaus
- tapauksissa
- Todistettu
- muuttaa
- tarkastaa
- napsauttaa
- asiakas
- kokoelma
- Sarake
- Pylväät
- kilpailu
- pitoisuus
- muuntaa
- luoda
- Luominen
- luominen
- Valtakirja
- Nykyinen
- Tällä hetkellä
- tiedot
- tietojen analysointi
- tietojenkäsittely
- tietojen tutkija
- aineistot
- Aste
- näyttö
- näyttämällä
- Dont
- download
- myöskään
- työllisyys
- Tekniikka
- virheet
- Eetteri (ETH)
- Jopa
- esimerkki
- kunnostautua
- vienti
- uute
- poimia tiedot
- tuuletin
- FAST
- nopeampi
- filee
- Asiakirjat
- Etunimi
- tarkennus
- seurata
- varten
- muoto
- muoto
- Ilmainen
- alkaen
- toiminnallisuudet
- tehtävät
- Lisäksi
- tuottaa
- saada
- mennä
- Go
- kaavio
- Graafinen hermoverkko
- ohjaavat
- Olla
- auttanut
- pitää
- Miten
- Miten
- HTML
- HTTPS
- i
- ICS
- ideoita
- sairaus
- täytäntöön
- parani
- in
- aloittaa
- asentaa
- asentaminen
- vuorovaikutteinen
- IT
- json
- Jupyter Notebook
- KDnuggets
- avain
- kuningas
- Kieli
- Sukunimi
- OPPIA
- oppinut
- oppiminen
- pitää
- RAJOITA
- linja
- looginen
- kone
- koneoppiminen
- hoitaa
- johto
- monet
- mestari
- välineet
- henkinen
- Mielisairaus
- viesti
- Metadata
- mallit
- lisää
- eniten
- Tarve
- verkko
- hermo-
- neuroverkkomallien
- muistikirja
- kannettavat tietokoneet
- numero
- of
- on
- verkossa
- operaattorit
- Vaihtoehto
- oma
- polku
- suorittaa
- esittävä
- putki
- Platon
- Platonin tietotieto
- PlatonData
- yksityinen
- yksityinen avain
- Tuotteet
- tuottavuus
- ammatillinen
- Edistyminen
- projekti
- tarjoaa
- tarjoamalla
- julkinen
- Työnnä
- Python
- satunnainen
- hinta
- Lue
- sai
- säännöllisesti
- Raportit
- edustaa
- Vaatii
- tulokset
- ajaa
- s
- Säästä
- tallentaa
- tiede
- Tiedemies
- skriptejä
- Haku
- Toinen
- valitsemalla
- setti
- asetus
- Jaa:
- Kuori
- yksinkertaisesti
- So
- jonkin verran
- nopeus
- käytetty
- SQL
- seisoo
- Alkaa
- Struggling
- Opiskelijat
- antaa
- Onnistuneesti
- suuri
- Tekninen
- Technologies
- Elektroniikka
- tietoliikenne
- terminaali
- testi
- että
- -
- kolmella
- aika
- että
- tokens
- työkalu
- työkalut
- Yhteensä
- Siirtäminen
- yliopisto
- University of California
- Päivitykset
- URL
- us
- käyttää
- versio
- visio
- Verkkosivu
- joka
- KUKA
- tulee
- with
- ilman
- Referenssit
- työnkulku
- kirjoittaa
- kirjoittaminen
- Sinun
- zephyrnet
- Postinumero