작성자 별 이미지
csvkit 테이블 형식 데이터의 왕입니다. 여기에는 CSV 파일을 변환하고, 데이터를 조작하고, 데이터 분석을 수행하는 데 사용할 수 있는 도구 모음이 있습니다.
당신은 설치할 수 있습니다 csvkit
핍을 사용하여.
$ pip install csvkit
예제 1
이 예에서는 csvcut을 사용하여 두 개의 열만 선택하고 csvlook을 사용하여 결과를 표 형식으로 표시합니다.
csvcut -c sepal_length,species iris.csv | csvlook --max-rows 5
참고 : 인수로 행 수를 제한할 수 있습니다. --max-rows
예제 2
csvjson을 사용하여 CSV 파일을 JSON 파일로 변환합니다.
csvjson iris.csv > iris.json
참고 : csvkit은 Excel to CSV 및 JSON to CSV 도구도 제공합니다.
예제 3
SQL 쿼리를 사용하여 CSV 파일에 대한 데이터 분석을 수행할 수도 있습니다. Csvsql에는 SQL 쿼리 및 CSV 파일 경로가 필요합니다. 결과를 표시하거나 CSV로 저장할 수 있습니다.
csvsql --query "select * from iris where species like 'Iris-setosa'" iris.csv | csvlook --max-rows 5
아이파이썬 터미널에 jupyter 노트북의 일부 기능을 제공하는 대화형 Python 셸입니다. Python 파일을 만들지 않고도 아이디어를 더 빠르게 테스트할 수 있습니다.
설치 ipython
핍 설치를 사용하여.
$ pip install ipython
참고 : Ipython에는 Anaconda 및 Jupyter Notebook도 함께 제공됩니다. 따라서 대부분의 경우 설치할 필요가 없습니다.
설치 후 입력만 하면 ipython
터미널에서 Jupyter 노트북에서와 마찬가지로 데이터 분석을 시작합니다. 쉽고 빠릅니다.
컬 클라이언트 URL을 나타내며 URL을 사용하여 서버와 데이터를 주고받기 위한 CLI 도구입니다. 이를 사용하여 속도를 제한하고, 오류를 기록하고, 진행률을 표시하고, 엔드포인트를 테스트할 수 있습니다.
예제에서는 University of California에서 기계 학습 데이터를 다운로드하여 CSV 파일로 저장하고 있습니다.
curl -o blood.csv https://archive.ics.uci.edu/ml/machine-learning-databases/blood-transfusion/transfusion.data
출력:
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed
100 12843 100 12843 0 0 7772 0 0:00:01 0:00:01 --:--:-- 7769
cURL을 사용하여 토큰으로 API에 액세스하고 파일을 푸시하고 데이터 파이프라인을 자동화할 수 있습니다.
Awk는 데이터를 조작하고 데이터 분석을 수행하는 데 사용할 수 있는 터미널 스크립팅 언어입니다. 불평할 필요가 없습니다. 변수, 숫자 함수, 문자열 함수 및 논리 연산자를 사용하여 모든 유형의 스크립트를 작성할 수 있습니다.
이 예에서는 CSV 파일의 첫 번째 열과 마지막 열을 표시하고 마지막 10개 행을 표시합니다. 스크립트의 $1은 첫 번째 열을 의미합니다. 세 번째 열을 표시하기 위해 $3로 변경할 수도 있습니다. $NF는 마지막 열을 나타냅니다.
awk -F "," '{print $1 " | " $NF}' iris.csv | tail
카글 API Kaggle 웹사이트에서 모든 종류의 데이터 세트를 다운로드할 수 있습니다. 또한 공개 데이터 세트를 업데이트하고 대회에 파일을 제출하고 Jupyter Notebook을 실행 및 관리할 수 있습니다. 슈퍼 명령줄 도구입니다.
pip를 사용하여 Kaggle API를 설치합니다.
$ pip install kaggle
그 후에 다음으로 이동하십시오. 카글 웹사이트를 방문하고 자격 증명을 받으세요. 당신은 따를 수 있습니다 이 사용자 이름과 개인 키를 설정하는 방법을 안내합니다.
export KAGGLE_USERNAME=kingabzpro
export KAGGLE_KEY=xxxxxxxxxxxxxx
예제 1
인증 설정 후 임의의 데이터셋을 검색할 수 있습니다. 우리의 경우에는 다음을 사용하고 있습니다. 고용동향 조사 데이터 세트.
이미지 출처 : 고용동향 조사
다음을 사용하여 다운로드 스크립트를 실행할 수 있습니다. -d
인수 USERNAME/DATASET.
$ kaggle datasets download -d revathyta/survey-on-employment-trends
또는,
세 개의 점을 클릭하고 "API 명령 복사" 옵션을 선택하여 API 명령을 간단히 가져올 수 있습니다.
이미지 출처 : 고용동향 조사
zip 파일 형식으로 데이터 세트를 다운로드합니다. 다음을 사용하여 스크립트를 파이프할 수도 있습니다. unzip
데이터를 추출하는 명령입니다.
Downloading survey-on-employment-trends.zip to C:Usersabida 0%| | 0.00/6.22k [00:00<?, ?B/s] 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 6.22k/6.22k [00:00<?, ?B/s]
예제 2
Kaggle에서 데이터세트를 생성하고 공유하려면 먼저 데이터세트의 경로를 제공하여 메타데이터 파일을 시작해야 합니다.
$ kaggle datasets init -p /work/Kaggle/World-Vaccine-Progress
그런 다음 데이터 세트를 생성하고 파일을 Kaggle 서버로 푸시합니다.
$ kaggle datasets create -p /work/Kaggle/World-Vaccine-Progress
다음을 사용하여 데이터 세트를 업데이트할 수도 있습니다. version
명령. 파일 경로와 메시지가 필요합니다. 자식처럼.
$ kaggle datasets version -p /work/Kaggle/World-Vaccine-Progress -m "second version"
내 프로젝트를 확인할 수도 있습니다. 백신 업데이트 대시보드 Kaggle API를 성공적으로 구현하여 데이터 세트를 정기적으로 업데이트했습니다.
제가 사용하는 놀라운 CLI 도구가 너무 많아 생산성이 향상되었고 대부분의 작업을 자동화하는 데 도움이 되었습니다. click 또는 argparse를 사용하여 Python에서 고유한 CLI 도구를 만들 수도 있습니다.
이 기사에서는 데이터 세트를 다운로드하고, 조작하고, 분석을 수행하고, 스크립트를 실행하고, 보고서를 생성하는 CLI 도구에 대해 배웠습니다.
저는 Kaalgle API와 csvkit의 팬입니다. 저는 그것을 정기적으로 사용하여 노트북과 분석을 자동화합니다. 데이터 과학 워크플로에서 명령줄 도구를 사용하는 방법을 알아보려면 다음을 읽어보세요. 명령줄의 데이터 과학 온라인으로 무료로 예약하세요.
아비드 알리 아완 (@1abidaliawan)은 기계 학습 모델 구축을 좋아하는 공인 데이터 과학자 전문가입니다. 현재 그는 콘텐츠 제작에 집중하고 있으며 머신 러닝 및 데이터 과학 기술에 대한 기술 블로그를 작성하고 있습니다. Abid는 기술 관리 석사 학위와 통신 공학 학사 학위를 보유하고 있습니다. 그의 비전은 정신 질환으로 고생하는 학생들을 위해 그래프 신경망을 사용하여 AI 제품을 만드는 것입니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- 플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 출처: https://www.kdnuggets.com/2023/03/5-command-line-tools-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=5-more-command-line-tools-for-data-science
- :이다
- $3
- $UP
- 10
- 100
- 7
- 8
- a
- 소개
- 액세스
- AI
- All
- 수
- 놀라운
- 분석
- 및
- API를
- API
- 있군요
- 논의
- 기사
- AS
- At
- 인증
- 자동화
- 평균
- BE
- 블로그
- 피
- 책
- 돋보이게
- 빌드
- 건물
- by
- 캘리포니아
- CAN
- 케이스
- 가지 경우
- 인증
- 이전 단계로 돌아가기
- 검사
- 클릭
- 클라이언트
- 수집
- 단
- 열
- 경쟁
- 함유량
- 변하게 하다
- 만들
- 만들기
- 창조
- 신임장
- Current
- 현재
- 데이터
- 데이터 분석
- 데이터 과학
- 데이터 과학자
- 데이터 세트
- 도
- 디스플레이
- 표시
- 말라
- 다운로드
- 중
- 고용
- 엔지니어링
- 오류
- 에테르 (ETH)
- 조차
- 예
- 뛰어나다
- 수출
- 추출물
- 데이터 추출
- 부채
- FAST
- 빠른
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- 파일
- 먼저,
- 초점
- 따라
- 럭셔리
- 형태
- 체재
- 무료
- 에
- 기능성
- 기능
- 게다가
- 생성
- 얻을
- 힘내
- Go
- 그래프
- 그래프 신경망
- 안내
- 있다
- 도움
- 보유
- 방법
- How To
- HTML
- HTTPS
- i
- ICS
- 아이디어
- 질병
- 구현
- 개선하는
- in
- 시작
- 설치
- 설치
- 대화형
- IT
- JSON
- 주피터 수첩
- 너 겟츠
- 키
- 왕
- 언어
- 성
- 배우다
- 배운
- 배우기
- 처럼
- 제한
- 라인
- 논리
- 기계
- 기계 학습
- 관리
- 구축
- .
- 석사
- 방법
- 정신
- 정신 질환
- 메시지
- 메타 데이터
- 모델
- 배우기
- 가장
- 필요
- 네트워크
- 신경
- 신경망
- 수첩
- 노트북
- 번호
- of
- on
- 온라인
- 운영자
- 선택권
- 자신의
- 통로
- 수행
- 실행할 수 있는
- 파이프
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 사설
- 개인 키
- 프로덕트
- 생산력
- 링크를
- 진행
- 프로젝트
- 제공
- 제공
- 공개
- 푸시
- Python
- 닥치는대로의
- 율
- 읽기
- 접수
- 규칙적으로
- 보고서
- 대표
- 필요
- 결과
- 달리기
- s
- 찜하기
- 절약
- 과학
- 과학자
- 스크립트
- 검색
- 둘째
- 선택
- 세트
- 설정
- 공유
- 껍질
- 간단히
- So
- 일부
- 속도
- 지출
- SQL
- 서
- 스타트
- 고민
- 학생들
- 제출
- 성공적으로
- 감독자
- 테크니컬
- 기술
- Technology
- 전기 통신
- 단말기
- test
- 그
- XNUMXD덴탈의
- 세
- 시간
- 에
- 토큰
- 수단
- 검색을
- 금액
- 전송
- 대학
- University of California
- 업데이트
- URL
- us
- 사용
- 버전
- 시력
- 웹 사이트
- 어느
- 누구
- 의지
- 과
- 없이
- 작업
- 워크플로우
- 쓰다
- 쓰기
- 너의
- 제퍼 넷
- 지퍼