ภาพโดยผู้เขียน
Csvkit เป็นราชาแห่งข้อมูลแบบตาราง มีชุดเครื่องมือที่สามารถใช้ในการแปลงไฟล์ CSV จัดการข้อมูล และดำเนินการวิเคราะห์ข้อมูล
คุณสามารถติดตั้ง csvkit
ใช้ pip
$ pip install csvkit
1 ตัวอย่าง
ในตัวอย่างนี้ เราจะใช้ csvcut เพื่อเลือกเพียงสองคอลัมน์ และใช้ csvlook เพื่อแสดงผลในรูปแบบตาราง
csvcut -c sepal_length,species iris.csv | csvlook --max-rows 5
หมายเหตุ คุณสามารถจำกัดจำนวนแถวด้วยอาร์กิวเมนต์ --max-rows
2 ตัวอย่าง
เราจะแปลงไฟล์ CSV เป็นไฟล์ JSON โดยใช้ csvjson
csvjson iris.csv > iris.json
หมายเหตุ csvkit ยังให้บริการเครื่องมือ Excel เป็น CSV และ JSON เป็น CSV
3 ตัวอย่าง
เรายังสามารถวิเคราะห์ข้อมูลในไฟล์ CSV ได้โดยใช้แบบสอบถาม SQL Csvsql ต้องการการสืบค้น SQL และเส้นทางไฟล์ CSV คุณสามารถแสดงผลลัพธ์หรือบันทึกเป็น CSV
csvsql --query "select * from iris where species like 'Iris-setosa'" iris.csv | csvlook --max-rows 5
ไอไพธอน เป็นเชลล์ Python แบบโต้ตอบที่นำฟังก์ชันบางอย่างของโน้ตบุ๊ก jupyter มาสู่เทอร์มินัลของคุณ ช่วยให้คุณทดสอบแนวคิดได้เร็วขึ้นโดยไม่ต้องสร้างไฟล์ Python
การติดตั้ง ipython
ใช้การติดตั้ง pip
$ pip install ipython
หมายเหตุ Ipython ยังมาพร้อมกับ Anaconda และ Jupyter Notebook ดังนั้น ในกรณีส่วนใหญ่ คุณไม่ต้องติดตั้ง
หลังจากติดตั้งแล้ว เพียงพิมพ์ ipython
ในเทอร์มินัลแล้วเริ่มดำเนินการวิเคราะห์ข้อมูลเหมือนกับที่คุณทำในโน้ตบุ๊ก Jupyter มันง่ายและรวดเร็ว
ม้วน ย่อมาจาก URL ไคลเอนต์และเป็นเครื่องมือ CLI สำหรับถ่ายโอนข้อมูลเข้าและออกจากเซิร์ฟเวอร์โดยใช้ URL คุณสามารถใช้เพื่อจำกัดอัตรา บันทึกข้อผิดพลาด แสดงความคืบหน้า และทดสอบจุดสิ้นสุด
ในตัวอย่าง เรากำลังดาวน์โหลดข้อมูลแมชชีนเลิร์นนิงจากมหาวิทยาลัยแคลิฟอร์เนียและบันทึกเป็นไฟล์ CSV
curl -o blood.csv https://archive.ics.uci.edu/ml/machine-learning-databases/blood-transfusion/transfusion.data
Output:
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed
100 12843 100 12843 0 0 7772 0 0:00:01 0:00:01 --:--:-- 7769
คุณสามารถใช้ cURL เพื่อเข้าถึง API ด้วยโทเค็น พุชไฟล์ และทำให้ไปป์ไลน์ข้อมูลเป็นแบบอัตโนมัติ
Awk เป็นภาษาสคริปต์เทอร์มินัลที่เราสามารถใช้เพื่อจัดการข้อมูลและดำเนินการวิเคราะห์ข้อมูล มันไม่ต้องบ่น เราสามารถใช้ตัวแปร ฟังก์ชันตัวเลข ฟังก์ชันสตริง และตัวดำเนินการเชิงตรรกะเพื่อเขียนสคริปต์ประเภทใดก็ได้
ในตัวอย่าง เรากำลังแสดงคอลัมน์แรกและคอลัมน์สุดท้ายของไฟล์ CSV และแสดง 10 แถวสุดท้าย $1 ในสคริปต์หมายถึงคอลัมน์แรก คุณยังสามารถเปลี่ยนเป็น $3 เพื่อแสดงคอลัมน์ที่ 3 $NF แสดงถึงคอลัมน์สุดท้าย
awk -F "," '{print $1 " | " $NF}' iris.csv | tail
Kaggle API ให้คุณดาวน์โหลดชุดข้อมูลทุกประเภทจากเว็บไซต์ Kaggle นอกจากนี้ คุณสามารถอัปเดตชุดข้อมูลสาธารณะของคุณ ส่งไฟล์ไปยังการแข่งขัน และเรียกใช้และจัดการ Jupyter Notebook เป็นเครื่องมือบรรทัดคำสั่งขั้นสูง
ติดตั้ง Kaggle API โดยใช้ pip
$ pip install kaggle
หลังจากนั้นไปที่ Kaggle เว็บไซต์และรับข้อมูลประจำตัวของคุณ คุณสามารถติดตาม นี้ คำแนะนำในการตั้งชื่อผู้ใช้และรหัสส่วนตัวของคุณ
export KAGGLE_USERNAME=kingabzpro
export KAGGLE_KEY=xxxxxxxxxxxxxx
1 ตัวอย่าง
หลังจากตั้งค่าการรับรองความถูกต้องแล้ว คุณสามารถค้นหาชุดข้อมูลแบบสุ่มได้ ในกรณีของเรา เรากำลังใช้ แบบสำรวจแนวโน้มการจ้างงาน ชุดข้อมูล
ภาพจาก แบบสำรวจแนวโน้มการจ้างงาน
คุณสามารถเรียกใช้สคริปต์ดาวน์โหลดด้วย -d
อาร์กิวเมนต์ USERNAME/DATASET
$ kaggle datasets download -d revathyta/survey-on-employment-trends
หรือ
คุณสามารถรับคำสั่ง API ได้โดยคลิกที่จุดสามจุดแล้วเลือกตัวเลือก "คัดลอกคำสั่ง API"
ภาพจาก แบบสำรวจแนวโน้มการจ้างงาน
มันจะดาวน์โหลดชุดข้อมูลในรูปแบบของไฟล์ zip คุณยังสามารถไพพ์สคริปต์ด้วย unzip
คำสั่งดึงข้อมูล
Downloading survey-on-employment-trends.zip to C:Usersabida 0%| | 0.00/6.22k [00:00<?, ?B/s] 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 6.22k/6.22k [00:00<?, ?B/s]
2 ตัวอย่าง
หากต้องการสร้างและแชร์ชุดข้อมูลของคุณบน Kaggle คุณต้องสร้างไฟล์ข้อมูลเมตาก่อนโดยระบุเส้นทางของชุดข้อมูล
$ kaggle datasets init -p /work/Kaggle/World-Vaccine-Progress
หลังจากนั้นสร้างชุดข้อมูลและส่งไฟล์ไปยังเซิร์ฟเวอร์ Kaggle
$ kaggle datasets create -p /work/Kaggle/World-Vaccine-Progress
คุณยังสามารถอัปเดตชุดข้อมูลของคุณโดยใช้ version
สั่งการ. ต้องมีเส้นทางไฟล์และข้อความ เช่นเดียวกับคอมไพล์
$ kaggle datasets version -p /work/Kaggle/World-Vaccine-Progress -m "second version"
คุณยังสามารถตรวจสอบโครงการของฉัน แดชบอร์ดการปรับปรุงวัคซีน ซึ่งประสบความสำเร็จในการติดตั้ง Kaggle API เพื่ออัปเดตชุดข้อมูลอย่างสม่ำเสมอ
มีเครื่องมือ CLI ที่น่าทึ่งมากมายที่ฉันใช้และเครื่องมือเหล่านี้ได้ปรับปรุงประสิทธิภาพการทำงานของฉันและช่วยให้งานส่วนใหญ่ของฉันเป็นแบบอัตโนมัติ คุณสามารถสร้างเครื่องมือ CLI ของคุณเองใน Python โดยใช้คลิกหรือ argparse
ในบทความนี้ เราได้เรียนรู้เกี่ยวกับเครื่องมือ CLI เพื่อดาวน์โหลดชุดข้อมูล จัดการ ทำการวิเคราะห์ เรียกใช้สคริปต์ และสร้างรายงาน
ฉันเป็นแฟนของ Kaalgle API และ csvkit ฉันใช้มันเป็นประจำเพื่อทำให้สมุดบันทึกและการวิเคราะห์ของฉันเป็นแบบอัตโนมัติ หากคุณต้องการเรียนรู้วิธีใช้เครื่องมือบรรทัดคำสั่งในเวิร์กโฟลว์วิทยาศาสตร์ข้อมูล โปรดอ่าน วิทยาศาสตร์ข้อมูลที่บรรทัดคำสั่ง จองออนไลน์ได้ฟรี
อาบิด อาลี อาวัน (@1อบีดาลิวัน) เป็นนักวิทยาศาสตร์ข้อมูลที่ได้รับการรับรองมืออาชีพที่รักการสร้างแบบจำลองการเรียนรู้ของเครื่อง ปัจจุบันเขามุ่งเน้นไปที่การสร้างเนื้อหาและการเขียนบล็อกทางเทคนิคเกี่ยวกับการเรียนรู้ของเครื่องและเทคโนโลยีวิทยาศาสตร์ข้อมูล อาบิดสำเร็จการศึกษาระดับปริญญาโทด้านการจัดการเทคโนโลยีและปริญญาตรีสาขาวิศวกรรมโทรคมนาคม วิสัยทัศน์ของเขาคือการสร้างผลิตภัณฑ์ AI โดยใช้โครงข่ายประสาทเทียมแบบกราฟสำหรับนักเรียนที่ป่วยเป็นโรคทางจิต
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
- ที่มา: https://www.kdnuggets.com/2023/03/5-command-line-tools-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=5-more-command-line-tools-for-data-science
- :เป็น
- $3
- $ ขึ้น
- 10
- 100
- 7
- 8
- a
- เกี่ยวกับเรา
- การเข้าถึง
- AI
- ทั้งหมด
- ช่วยให้
- น่าอัศจรรย์
- การวิเคราะห์
- และ
- API
- APIs
- เป็น
- อาร์กิวเมนต์
- บทความ
- AS
- At
- การยืนยันตัวตน
- โดยอัตโนมัติ
- เฉลี่ย
- BE
- Blog
- เลือด
- หนังสือ
- นำ
- สร้าง
- การก่อสร้าง
- by
- แคลิฟอร์เนีย
- CAN
- กรณี
- กรณี
- มีมาตรฐาน
- เปลี่ยนแปลง
- ตรวจสอบ
- คลิก
- ไคลเอนต์
- ชุด
- คอลัมน์
- คอลัมน์
- การแข่งขัน
- เนื้อหา
- แปลง
- สร้าง
- การสร้าง
- การสร้าง
- หนังสือรับรอง
- ปัจจุบัน
- ขณะนี้
- ข้อมูล
- การวิเคราะห์ข้อมูล
- วิทยาศาสตร์ข้อมูล
- นักวิทยาศาสตร์ข้อมูล
- ชุดข้อมูล
- องศา
- แสดง
- แสดง
- Dont
- ดาวน์โหลด
- ทั้ง
- การจ้าง
- ชั้นเยี่ยม
- ข้อผิดพลาด
- อีเธอร์ (ETH)
- แม้
- ตัวอย่าง
- Excel
- ส่งออก
- สารสกัด
- ดึงข้อมูล
- แฟน
- FAST
- เร็วขึ้น
- เนื้อไม่มีมัน
- ไฟล์
- ชื่อจริง
- โดยมุ่งเน้น
- ปฏิบัติตาม
- สำหรับ
- ฟอร์ม
- รูป
- ฟรี
- ราคาเริ่มต้นที่
- ฟังก์ชันการทำงาน
- ฟังก์ชั่น
- นอกจากนี้
- สร้าง
- ได้รับ
- ไป
- Go
- กราฟ
- กราฟโครงข่ายประสาท
- ให้คำแนะนำ
- มี
- ช่วย
- ถือ
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTML
- HTTPS
- i
- ICS
- ความคิด
- การเจ็บป่วย
- การดำเนินการ
- การปรับปรุง
- in
- เริ่มต้น
- ติดตั้ง
- การติดตั้ง
- การโต้ตอบ
- IT
- JSON
- โน้ตบุ๊ค Jupyter
- KD นักเก็ต
- คีย์
- พระมหากษัตริย์
- ภาษา
- ชื่อสกุล
- เรียนรู้
- ได้เรียนรู้
- การเรียนรู้
- กดไลก์
- LIMIT
- Line
- ตรรกะ
- เครื่อง
- เรียนรู้เครื่อง
- จัดการ
- การจัดการ
- หลาย
- เจ้านาย
- วิธี
- จิต
- จิตเภท
- ข่าวสาร
- เมตาดาต้า
- โมเดล
- ข้อมูลเพิ่มเติม
- มากที่สุด
- จำเป็นต้อง
- เครือข่าย
- ประสาท
- เครือข่ายประสาท
- สมุดบันทึก
- โน๊ตบุ๊ค
- จำนวน
- of
- on
- ออนไลน์
- ผู้ประกอบการ
- ตัวเลือกเสริม (Option)
- ของตนเอง
- เส้นทาง
- ดำเนินการ
- ที่มีประสิทธิภาพ
- ท่อ
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- ส่วนตัว
- คีย์ส่วนตัว
- ผลิตภัณฑ์
- ผลผลิต
- มืออาชีพ
- ความคืบหน้า
- โครงการ
- ให้
- การให้
- สาธารณะ
- ผลัก
- หลาม
- สุ่ม
- คะแนน
- อ่าน
- ที่ได้รับ
- สม่ำเสมอ
- รายงาน
- แสดงให้เห็นถึง
- ต้อง
- ผลสอบ
- วิ่ง
- s
- ลด
- ประหยัด
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- สคริปต์
- ค้นหา
- ที่สอง
- การเลือก
- ชุด
- การตั้งค่า
- Share
- เปลือก
- ง่ายดาย
- So
- บาง
- ความเร็ว
- การใช้จ่าย
- SQL
- ยืน
- เริ่มต้น
- การดิ้นรน
- นักเรียน
- ส่ง
- ประสบความสำเร็จ
- ยิ่งใหญ่
- วิชาการ
- เทคโนโลยี
- เทคโนโลยี
- การสื่อสารโทรคมนาคม
- สถานีปลายทาง
- ทดสอบ
- ที่
- พื้นที่
- สาม
- เวลา
- ไปยัง
- ราชสกุล
- เครื่องมือ
- เครื่องมือ
- รวม
- การถ่ายโอน
- มหาวิทยาลัย
- มหาวิทยาลัยแห่งแคลิฟอร์เนีย
- บันทึก
- URL
- us
- ใช้
- รุ่น
- วิสัยทัศน์
- Website
- ที่
- WHO
- จะ
- กับ
- ไม่มี
- งาน
- เวิร์กโฟลว์
- เขียน
- การเขียน
- ของคุณ
- ลมทะเล
- รหัสไปรษณีย์