5 weitere Befehlszeilentools für Data Science

Neuauflage von Plato

Verfolger: 0

5 weitere Befehlszeilentools für Data Science
Bild vom Autor

Csvkit ist ein König der tabellarischen Daten. Es verfügt über eine Sammlung von Tools, mit denen CSV-Dateien konvertiert, die Daten bearbeitet und Datenanalysen durchgeführt werden können.

Sie können installieren csvkit mit Pip.

$ pip install csvkit

Beispiel 1

In diesem Beispiel verwenden wir csvcut, um nur zwei Spalten auszuwählen, und verwenden csvlook, um die Ergebnisse im Tabellenformat anzuzeigen.

csvcut -c sepal_length,species iris.csv | csvlook --max-rows 5

5 weitere Befehlszeilentools für Data Science

Hinweis: Sie können die Anzahl der Zeilen mit dem Argument begrenzen --max-rows

Beispiel 2

Wir konvertieren eine CSV-Datei mit csvjson in eine JSON-Datei.

csvjson iris.csv > iris.json

Hinweis: csvkit bietet uns auch Excel-zu-CSV- und JSON-zu-CSV-Tools.

Beispiel 3

Wir können auch eine Datenanalyse an einer CSV-Datei durchführen, indem wir eine SQL-Abfrage verwenden. Csvsql erfordert SQL-Abfrage und CSV-Dateipfad Sie können die Ergebnisse anzeigen oder in CSV speichern.

csvsql --query "select * from iris where species like 'Iris-setosa'" iris.csv | csvlook --max-rows 5

5 weitere Befehlszeilentools für Data Science

IPython ist eine interaktive Python-Shell, die einige Funktionen eines Jupyter-Notebooks in Ihr Terminal bringt. Sie können Ideen schneller testen, ohne eine Python-Datei zu erstellen.

Installieren ipython mit Pip-Install.

$ pip install ipython

Hinweis: Ipython wird auch mit Anaconda und Jupyter Notebook geliefert. In den meisten Fällen müssen Sie es also nicht installieren.

Geben Sie nach der Installation einfach ein ipython im Terminal und beginnen Sie mit der Datenanalyse, genau wie Sie es in Jupyter-Notebooks tun. Es ist einfach und schnell.

5 weitere Befehlszeilentools für Data Science

cURL steht für Client-URL und ist ein CLI-Tool zum Übertragen von Daten zum und vom Server mithilfe von URLs. Sie können damit die Rate begrenzen, Fehler protokollieren, den Fortschritt anzeigen und Endpunkte testen.

Im Beispiel laden wir die Machine-Learning-Daten von der University of California herunter und speichern sie als CSV-Datei.

curl -o blood.csv https://archive.ics.uci.edu/ml/machine-learning-databases/blood-transfusion/transfusion.data

Ausgang:

% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed
100 12843 100 12843 0 0 7772 0 0:00:01 0:00:01 --:--:-- 7769

Sie können cURL verwenden, um mit Token auf APIs zuzugreifen, Dateien zu pushen und die Datenpipelines zu automatisieren.

Awk ist eine Terminal-Skriptsprache, mit der wir die Daten manipulieren und Datenanalysen durchführen können. Es bedarf keiner Klage. Wir können Variablen, numerische Funktionen, Zeichenfolgenfunktionen und logische Operatoren verwenden, um jede Art von Skript zu schreiben.

Im Beispiel zeigen wir die erste und letzte Spalte der CSV-Datei und die letzten 10 Zeilen. Das $1 im Skript bedeutet die ersten Spalten. Sie können es auch in $3 ändern, um die dritte Spalte anzuzeigen. Das $NF repräsentiert die letzten Spalten.

awk -F "," '{print $1 " | " $NF}' iris.csv | tail

5 weitere Befehlszeilentools für Data Science

Kaggle-API ermöglicht es Ihnen, alle Arten von Datensätzen von der Kaggle-Website herunterzuladen. Darüber hinaus können Sie Ihren öffentlichen Datensatz aktualisieren, die Datei beim Wettbewerb einreichen und Jupyter Notebook ausführen und verwalten. Es ist ein super Kommandozeilen-Tool.

Installieren Sie die Kaggle-API mit pip.

$ pip install kaggle

Danach gehen Sie zum Kaggle Website und erhalten Sie Ihre Anmeldeinformationen. Du kannst Folgen fehlen uns die Worte. Anleitung zum Einrichten Ihres Benutzernamens und privaten Schlüssels.

export KAGGLE_USERNAME=kingabzpro
export KAGGLE_KEY=xxxxxxxxxxxxxx

Beispiel 1

Nachdem Sie die Authentifizierung eingerichtet haben, können Sie nach zufälligen Datensätzen suchen. In unserem Fall verwenden wir die Umfrage zu Beschäftigungstrends Datensatz.

5 weitere Befehlszeilentools für Data Science
Bild aus Umfrage zu Beschäftigungstrends

Sie können das Download-Skript entweder mit ausführen -d Argument BENUTZERNAME/DATENSATZ.

$ kaggle datasets download -d revathyta/survey-on-employment-trends

Oder,

Sie können einfach den API-Befehl abrufen, indem Sie auf die drei Punkte klicken und die Option „API-Befehl kopieren“ auswählen.

5 weitere Befehlszeilentools für Data Science
Bild aus Umfrage zu Beschäftigungstrends

Der Datensatz wird in Form einer ZIP-Datei heruntergeladen. Sie können das Skript auch mit dem pipen unzip Befehl zum Extrahieren der Daten.

Downloading survey-on-employment-trends.zip to C:Usersabida 0%|                                                                                                   | 0.00/6.22k [00:00<?, ?B/s] 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 6.22k/6.22k [00:00<?, ?B/s]

Beispiel 2

Um Ihren Datensatz auf Kaggle zu erstellen und zu teilen, müssen Sie zunächst eine Metadatendatei erstellen, indem Sie den Pfad des Datensatzes angeben.

$ kaggle datasets init -p /work/Kaggle/World-Vaccine-Progress

Erstellen Sie danach das Dataset und übertragen Sie die Datei auf den Kaggle-Server.

$ kaggle datasets create -p /work/Kaggle/World-Vaccine-Progress

Sie können Ihren Datensatz auch aktualisieren, indem Sie die verwenden version Befehl. Es erfordert einen Dateipfad und eine Nachricht. Genau wie Git.

$ kaggle datasets version -p /work/Kaggle/World-Vaccine-Progress -m "second version"

Sie können sich auch mein Projekt ansehen Impfstoffaktualisierungs-Dashboard das die Kaggle-API erfolgreich implementiert hat, um den Datensatz regelmäßig zu aktualisieren.

Es gibt so viele erstaunliche CLI-Tools, die ich verwende, und sie haben meine Produktivität verbessert und mir geholfen, den größten Teil meiner Arbeit zu automatisieren. Sie können sogar Ihr eigenes CLI-Tool in Python mit click oder argparse erstellen.

In diesem Artikel haben wir CLI-Tools kennengelernt, um das Dataset herunterzuladen, zu manipulieren, Analysen durchzuführen, Skripte auszuführen und Berichte zu erstellen.

Ich bin ein Fan der Kaalgle-API und des csvkit. Ich verwende es regelmäßig, um meine Notizbücher und Analysen zu automatisieren. Wenn Sie lernen möchten, wie Sie Befehlszeilentools in Ihrem Data-Science-Workflow verwenden, lesen Sie Data Science an der Kommandozeile kostenlos online buchen.

Abid Ali Awan (@1abidaliawan) ist ein zertifizierter Datenwissenschaftler, der es liebt, Modelle für maschinelles Lernen zu erstellen. Derzeit konzentriert er sich auf die Erstellung von Inhalten und schreibt technische Blogs zu maschinellem Lernen und Data-Science-Technologien. Abid hat einen Master-Abschluss in Technologiemanagement und einen Bachelor-Abschluss in Telekommunikationstechnik. Seine Vision ist es, ein KI-Produkt mit einem grafisch-neuronalen Netzwerk für Schüler zu entwickeln, die mit psychischen Erkrankungen zu kämpfen haben.

Mehr zu diesem Thema

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
Quelle: https://www.kdnuggets.com/2023/03/5-command-line-tools-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=5-more-command-line-tools-for-data-science

Zeitstempel: 13. März 2023

Arbeiten mit Python-APIs für das Data Science-Projekt

Quellcluster:

KDnuggets

Quellknoten: 1074759

Zeitstempel: 10. September 2021

Top Posts 30. Januar – 5. Februar: Der ChatGPT-Spickzettel

Vier verschiedene Pfeifen für R mit magrittr

Quellcluster:

KDnuggets

Quellknoten: 1877513

Zeitstempel: 6. Oktober 2021

Neuauflage von Plato

Top 4 Datenextraktionstools

Techniken zur Optimierung von SQL-Abfragen

Eine Einführung in Markov-Ketten

Die Macht der Gedankenkettenaufforderung in großen Sprachmodellen entschlüsseln – KDnuggets

Erste Schritte mit Python-Generatoren

Arbeiten mit Python-APIs für das Data Science-Projekt

Top Posts 30. Januar – 5. Februar: Der ChatGPT-Spickzettel

Vier verschiedene Pfeifen für R mit magrittr

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto