लेखक द्वारा छवि
सीएसवीकिट सारणीबद्ध डेटा का राजा है। इसमें टूल का एक संग्रह है जिसका उपयोग सीएसवी फ़ाइलों को परिवर्तित करने, डेटा में हेरफेर करने और डेटा विश्लेषण करने के लिए किया जा सकता है।
आप स्थापित कर सकते हैं csvkit
पिप का उपयोग करना।
$ pip install csvkit
उदाहरण 1
इस उदाहरण में, हम केवल दो कॉलमों का चयन करने के लिए csvcut का उपयोग करेंगे और परिणामों को सारणीबद्ध प्रारूप में प्रदर्शित करने के लिए csvlook का उपयोग करेंगे।
csvcut -c sepal_length,species iris.csv | csvlook --max-rows 5
नोट: आप तर्क के साथ पंक्तियों की संख्या सीमित कर सकते हैं --max-rows
उदाहरण 2
हम csvjson का उपयोग करके एक CSV फ़ाइल को JSON फ़ाइल में परिवर्तित करेंगे।
csvjson iris.csv > iris.json
नोट: सीएसवीकिट हमें एक्सेल से सीएसवी और जेएसओएन से सीएसवी टूल भी प्रदान करता है।
उदाहरण 3
हम SQL क्वेरी का उपयोग करके CSV फ़ाइल पर डेटा विश्लेषण भी कर सकते हैं। Csvsql को SQL क्वेरी और CSV फ़ाइल पथ की आवश्यकता है आप परिणाम प्रदर्शित कर सकते हैं या इसे CSV में सहेज सकते हैं।
csvsql --query "select * from iris where species like 'Iris-setosa'" iris.csv | csvlook --max-rows 5
आईपीथन एक इंटरैक्टिव पायथन शेल है जो ज्यूपिटर नोटबुक की कुछ कार्यक्षमताओं को आपके टर्मिनल में लाता है। यह आपको पायथन फ़ाइल बनाए बिना विचारों का तेज़ी से परीक्षण करने की अनुमति देता है।
स्थापित करें ipython
पिप इंस्टॉल का उपयोग करना।
$ pip install ipython
नोट: इपाइथॉन एनाकोंडा और ज्यूपिटर नोटबुक के साथ भी आता है। इसलिए, अधिकांश मामलों में आपको इसे इंस्टॉल करने की आवश्यकता नहीं है।
इंस्टॉल करने के बाद बस टाइप करें ipython
टर्मिनल में और डेटा विश्लेषण करना शुरू करें जैसे आप ज्यूपिटर नोटबुक में करते हैं। यह आसान और तेज़ है.
कर्ल क्लाइंट यूआरएल के लिए खड़ा है और यूआरएल का उपयोग करके सर्वर से डेटा स्थानांतरित करने के लिए एक सीएलआई उपकरण है। आप इसका उपयोग दर को सीमित करने, त्रुटियों को लॉग करने, प्रगति प्रदर्शित करने और समापन बिंदुओं का परीक्षण करने के लिए कर सकते हैं।
उदाहरण में, हम कैलिफोर्निया विश्वविद्यालय से मशीन लर्निंग डेटा डाउनलोड कर रहे हैं और इसे सीएसवी फ़ाइल के रूप में सहेज रहे हैं।
curl -o blood.csv https://archive.ics.uci.edu/ml/machine-learning-databases/blood-transfusion/transfusion.data
आउटपुट:
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed
100 12843 100 12843 0 0 7772 0 0:00:01 0:00:01 --:--:-- 7769
आप टोकन, पुश फ़ाइलों के साथ एपीआई तक पहुंचने और डेटा पाइपलाइनों को स्वचालित करने के लिए कर्ल का उपयोग कर सकते हैं।
Awk एक टर्मिनल स्क्रिप्टिंग भाषा है जिसका उपयोग हम डेटा में हेरफेर करने और डेटा विश्लेषण करने के लिए कर सकते हैं। इसमें किसी शिकायत की आवश्यकता नहीं है। हम किसी भी प्रकार की स्क्रिप्ट लिखने के लिए वेरिएबल्स, न्यूमेरिक फ़ंक्शंस, स्ट्रिंग फ़ंक्शंस और लॉजिकल ऑपरेटर्स का उपयोग कर सकते हैं।
उदाहरण में, हम CSV फ़ाइल के पहले और अंतिम कॉलम प्रदर्शित कर रहे हैं और अंतिम 10 पंक्तियाँ दिखा रहे हैं। स्क्रिप्ट में $1 का अर्थ पहला कॉलम है। आप तीसरे कॉलम को प्रदर्शित करने के लिए इसे $3 में भी बदल सकते हैं। $NF अंतिम कॉलम का प्रतिनिधित्व करता है।
awk -F "," '{print $1 " | " $NF}' iris.csv | tail
कागल एपीआई आपको कागल वेबसाइट से सभी प्रकार के डेटासेट डाउनलोड करने की अनुमति देता है। इसके अलावा, आप अपने सार्वजनिक डेटासेट को अपडेट कर सकते हैं, प्रतियोगिता में फ़ाइल सबमिट कर सकते हैं, और ज्यूपिटर नोटबुक चला और प्रबंधित कर सकते हैं। यह एक सुपर कमांड लाइन टूल है।
पिप का उपयोग करके कागल एपीआई स्थापित करें।
$ pip install kaggle
उसके बाद, पर जाएँ Kaggle वेबसाइट और अपनी साख प्राप्त करें। आप अनुसरण कर सकते हैं इसका अपना उपयोगकर्ता नाम और निजी कुंजी सेट करने के लिए मार्गदर्शिका।
export KAGGLE_USERNAME=kingabzpro
export KAGGLE_KEY=xxxxxxxxxxxxxx
उदाहरण 1
प्रमाणीकरण स्थापित करने के बाद, आप यादृच्छिक डेटासेट खोज सकते हैं। हमारे मामले में, हम इसका उपयोग कर रहे हैं रोजगार रुझान पर सर्वेक्षण डाटासेट।
से छवि रोजगार रुझान पर सर्वेक्षण
आप या तो डाउनलोड स्क्रिप्ट चला सकते हैं -d
तर्क उपयोगकर्ता नाम/डेटासेट।
$ kaggle datasets download -d revathyta/survey-on-employment-trends
या,
आप केवल तीन बिंदुओं पर क्लिक करके और "कॉपी एपीआई कमांड" विकल्प का चयन करके एपीआई कमांड प्राप्त कर सकते हैं।
से छवि रोजगार रुझान पर सर्वेक्षण
यह डेटासेट को ज़िप फ़ाइल के रूप में डाउनलोड करेगा। आप स्क्रिप्ट को इसके साथ भी पाइप कर सकते हैं unzip
डेटा निकालने का आदेश.
Downloading survey-on-employment-trends.zip to C:Usersabida 0%| | 0.00/6.22k [00:00<?, ?B/s] 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 6.22k/6.22k [00:00<?, ?B/s]
उदाहरण 2
कागल पर अपना डेटासेट बनाने और साझा करने के लिए, आपको सबसे पहले डेटासेट का पथ प्रदान करके एक मेटाडेटा फ़ाइल आरंभ करनी होगी।
$ kaggle datasets init -p /work/Kaggle/World-Vaccine-Progress
उसके बाद डेटासेट बनाएं और फ़ाइल को कागल सर्वर पर पुश करें।
$ kaggle datasets create -p /work/Kaggle/World-Vaccine-Progress
आप इसका उपयोग करके भी अपने डेटासेट को अपडेट कर सकते हैं version
आज्ञा। इसके लिए फ़ाइल पथ और संदेश की आवश्यकता होती है. बिल्कुल गिट की तरह।
$ kaggle datasets version -p /work/Kaggle/World-Vaccine-Progress -m "second version"
आप मेरा प्रोजेक्ट भी देख सकते हैं वैक्सीन अपडेट डैशबोर्ड जिसने डेटासेट को नियमित रूप से अपडेट करने के लिए कागल एपीआई को सफलतापूर्वक लागू किया है।
ऐसे कई अद्भुत सीएलआई उपकरण हैं जिनका मैं उपयोग करता हूं और उन्होंने मेरी उत्पादकता में सुधार किया है और मुझे अपने अधिकांश काम को स्वचालित करने में मदद की है। आप क्लिक या आर्गपर्स का उपयोग करके पायथन में अपना स्वयं का सीएलआई टूल भी बना सकते हैं।
इस लेख में, हमने डेटासेट को डाउनलोड करने, उसमें हेरफेर करने, विश्लेषण करने, स्क्रिप्ट चलाने और रिपोर्ट तैयार करने के लिए सीएलआई टूल के बारे में सीखा है।
मैं कालगल एपीआई और सीएसवीकिट का प्रशंसक हूं। मैं अपनी नोटबुक और विश्लेषण को स्वचालित करने के लिए इसका नियमित रूप से उपयोग करता हूं। यदि आप सीखना चाहते हैं कि अपने डेटा साइंस वर्कफ़्लो में कमांड लाइन टूल का उपयोग कैसे करें, तो पढ़ें कमांड लाइन पर डेटा साइंस मुफ़्त में ऑनलाइन बुक करें.
आबिद अली अवनी (@1अबिदलियावान) एक प्रमाणित डेटा वैज्ञानिक पेशेवर है जो मशीन लर्निंग मॉडल बनाना पसंद करता है। वर्तमान में, वह सामग्री निर्माण और मशीन लर्निंग और डेटा विज्ञान प्रौद्योगिकियों पर तकनीकी ब्लॉग लिखने पर ध्यान केंद्रित कर रहा है। आबिद के पास प्रौद्योगिकी प्रबंधन में मास्टर डिग्री और दूरसंचार इंजीनियरिंग में स्नातक की डिग्री है। उनका दृष्टिकोण मानसिक बीमारी से जूझ रहे छात्रों के लिए ग्राफ न्यूरल नेटवर्क का उपयोग करके एआई उत्पाद बनाना है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://www.kdnuggets.com/2023/03/5-command-line-tools-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=5-more-command-line-tools-for-data-science
- :है
- $3
- $यूपी
- 10
- 100
- 7
- 8
- a
- About
- तक पहुँचने
- AI
- सब
- की अनुमति देता है
- अद्भुत
- विश्लेषण
- और
- एपीआई
- एपीआई
- हैं
- तर्क
- लेख
- AS
- At
- प्रमाणीकरण
- को स्वचालित रूप से
- औसत
- BE
- ब्लॉग
- रक्त
- किताब
- लाता है
- निर्माण
- इमारत
- by
- कैलिफ़ोर्निया
- कर सकते हैं
- मामला
- मामलों
- प्रमाणित
- परिवर्तन
- चेक
- क्लिक करें
- ग्राहक
- संग्रह
- स्तंभ
- स्तंभ
- प्रतियोगिता
- सामग्री
- बदलना
- बनाना
- बनाना
- निर्माण
- साख
- वर्तमान
- वर्तमान में
- तिथि
- डेटा विश्लेषण
- डेटा विज्ञान
- आँकड़े वाला वैज्ञानिक
- डेटासेट
- डिग्री
- डिस्प्ले
- प्रदर्शित
- dont
- डाउनलोड
- भी
- रोजगार
- अभियांत्रिकी
- त्रुटियाँ
- ईथर (ईटीएच)
- और भी
- उदाहरण
- एक्सेल
- निर्यात
- उद्धरण
- डेटा निकालें
- प्रशंसक
- फास्ट
- और तेज
- पट्टिका
- फ़ाइलें
- प्रथम
- ध्यान केंद्रित
- का पालन करें
- के लिए
- प्रपत्र
- प्रारूप
- मुक्त
- से
- कार्यक्षमताओं
- कार्यों
- और भी
- उत्पन्न
- मिल
- जाना
- Go
- ग्राफ
- ग्राफ तंत्रिका नेटवर्क
- गाइड
- है
- मदद की
- रखती है
- कैसे
- How To
- एचटीएमएल
- HTTPS
- i
- आईसीएस
- विचारों
- बीमारी
- कार्यान्वित
- उन्नत
- in
- आरंभ
- स्थापित
- स्थापित कर रहा है
- इंटरैक्टिव
- IT
- JSON
- जुपीटर नोटबुक
- केडनगेट्स
- कुंजी
- राजा
- भाषा
- पिछली बार
- जानें
- सीखा
- सीख रहा हूँ
- पसंद
- सीमा
- लाइन
- तार्किक
- मशीन
- यंत्र अधिगम
- प्रबंधन
- प्रबंध
- बहुत
- मास्टर
- साधन
- मानसिक
- मानसिक बीमारी
- message
- मेटाडाटा
- मॉडल
- अधिक
- अधिकांश
- आवश्यकता
- नेटवर्क
- तंत्रिका
- तंत्रिका नेटवर्क
- नोटबुक
- पुस्तिकाओं
- संख्या
- of
- on
- ऑनलाइन
- ऑपरेटरों
- विकल्प
- अपना
- पथ
- निष्पादन
- प्रदर्शन
- पाइप
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- निजी
- निजी कुंजी
- एस्ट्रो मॉल
- उत्पादकता
- पेशेवर
- प्रगति
- परियोजना
- प्रदान करता है
- प्रदान कर
- सार्वजनिक
- धक्का
- अजगर
- बिना सोचे समझे
- मूल्यांकन करें
- पढ़ना
- प्राप्त
- नियमित तौर पर
- रिपोर्ट
- का प्रतिनिधित्व करता है
- की आवश्यकता होती है
- परिणाम
- रन
- s
- सहेजें
- बचत
- विज्ञान
- वैज्ञानिक
- लिपियों
- Search
- दूसरा
- का चयन
- सेट
- की स्थापना
- Share
- खोल
- केवल
- So
- कुछ
- गति
- खर्च
- एसक्यूएल
- खड़ा
- प्रारंभ
- संघर्ष
- छात्र
- प्रस्तुत
- सफलतापूर्वक
- सुपर
- तकनीकी
- टेक्नोलॉजीज
- टेक्नोलॉजी
- दूरसंचार
- अंतिम
- परीक्षण
- कि
- RSI
- तीन
- पहर
- सेवा मेरे
- टोकन
- साधन
- उपकरण
- कुल
- स्थानांतरित कर रहा है
- विश्वविद्यालय
- यूनिवर्सिटी ऑफ कैलिफोर्निया
- अपडेट
- यूआरएल
- us
- उपयोग
- संस्करण
- दृष्टि
- वेबसाइट
- कौन कौन से
- कौन
- मर्जी
- साथ में
- बिना
- काम
- वर्कफ़्लो
- लिखना
- लिख रहे हैं
- आपका
- जेफिरनेट
- ज़िप