ChatGPT를 사용하여 CSV에서 분석 보고서 작성까지 간단한 5단계 - KDnuggets

ChatGPT를 사용하여 CSV에서 분석 보고서 작성까지 간단한 5단계 – KDnuggets

소스 노드 : 2982942

CSV에서 ChatGPT를 사용하여 간단한 5단계로 분석 보고서 완성
이미지로 rawpixel.com on Freepik
 

어떤 비즈니스에 종사하든 데이터 중심 시대에는 데이터를 분석하는 방법을 아는 것이 그 어느 때보다 중요합니다. 데이터 분석을 통해 기업은 경쟁력을 유지하고 더 나은 결정을 내릴 수 있는 능력을 제공할 수 있습니다.

데이터 분석의 중요성은 모든 개인이 데이터 분석을 수행하는 방법을 알도록 유도합니다. 그러나 때로는 데이터 분석을 수행하는 데 너무 많은 시간이 소요됩니다. 그렇기 때문에 ChatGPT를 사용하여 데이터 파일에서 완전한 보고서를 작성할 수 있습니다.

이 문서에서는 CSV 파일에서 완전한 분석 보고서를 생성하는 간단한 XNUMX가지 단계를 살펴보겠습니다. 이 XNUMX단계에는 다음이 포함됩니다.

1단계: CSV 파일 가져오기

2단계: 데이터 요약 및 전처리

3단계: 데이터 분석

4단계: 데이터 시각화

5단계: 보고서 생성

전제 조건으로 이 기사에서는 독자가 ChatGPT Plus를 구독했다고 가정합니다. 이를 염두에 두고 시작해 보겠습니다.

첫 번째 단계는 분석하고 보고서를 작성하려는 CSV 파일을 준비하는 것입니다. 이 파일은 신뢰할 수 있는 소스에서 얻을 수 있지만 이 문서에서는 Telecom Churn 데이터세트를 사용합니다. 카글.

데이터가 체계적으로 구성되어 있고 명확한 헤더가 있는지 확인하세요. 분석하고 싶은 특정 대상이 있는 경우 해당 데이터를 파일에 포함시키는 것을 잊지 마세요. 이 예에서는 이탈 열에 대한 분석을 수행하려고 합니다.

데이터가 준비되면 ChatGPT에 연결하고 모델이 작업을 수행하도록 하세요.

다음 단계는 CSV 파일에서 데이터 요약을 가져와서 전처리하는 것입니다. 데이터를 업로드하는 동안 다음 프롬프트를 입력하세요.

Provide the data summary to this file and perform appropriate data processing for the dataset.

위의 프롬프트는 다음과 같은 결과를 제공합니다.

데이터세트 요약은 다음과 같습니다.

행 수: 3333

열 수: 11

열 이름:

휘젓다

계정주

계약갱신

데이터플랜

데이터 사용량

CustServCall

일분

데이콜

월별 요금

초과 수수료

RoamMins

데이터 타입:

정수: Churn, AccountWeeks, ContractRenewal, DataPlan, CustServCalls, DayCalls

부동: DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins

누락된 값: 모든 열에 누락된 값이 없습니다.

ChatGPT는 명확하게 데이터를 잘 읽을 수 있었고 주어진 데이터 세트를 제공할 수 있었습니다. 다음 결과는 ChatGPT의 데이터 전처리입니다.

데이터 세트에 누락된 값이 없으므로 데이터 정리 및 전처리의 주요 초점은 다음과 같습니다.

  • 데이터에 이상값이나 이상이 있는지 확인합니다.
  • 필요한 경우, 특히 연속적인 숫자 값이 있는 열의 경우 데이터를 정규화하거나 표준화합니다.
  • 필요한 경우 범주형 데이터를 분석에 적합한 형식으로 변환합니다.

다음 단계를 진행해 보겠습니다. 
 

CSV에서 ChatGPT를 사용하여 간단한 5단계로 분석 보고서 완성
 

상자 그림은 데이터세트의 각 숫자 열에 있는 잠재적 이상값에 대한 시각적 개요를 제공합니다. 다음은 몇 가지 관찰 사항입니다.

  • AccountWeeks, CustServCalls, DayCalls: 이 열은 몇 가지 이상값이 있는 상당히 정규 분포를 보여줍니다.
  • DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: 이 열에도 일부 이상치가 표시되지만 데이터의 특성을 고려할 때 합리적인 범위 내에 있는 것으로 보입니다.
  • Churn, ContractRenewal, DataPlan: 범주형/이진형 데이터인 이 열에는 기존 이상값이 표시되지 않습니다.

이 정보를 바탕으로 데이터 정리 및 전처리의 다음 단계에는 다음이 포함될 수 있습니다.

  • 이상값 처리: 특정 분석 요구 사항과 도메인 지식을 기반으로 이상값을 제거, 제한 또는 처리할지 여부를 결정할 수 있습니다.
  • 데이터 변환: 필요한 경우 특히 데이터 규모에 민감한 알고리즘을 사용하려는 경우 DayMins, MonthlyCharge 등과 같은 열을 정규화하거나 표준화할 수 있습니다.
  • 범주형 데이터 인코딩: 변환이 필요한 경우 범주형 데이터를 분석에 적합한 형식으로 변환합니다.

ChatGPT가 데이터 정리 및 전처리를 위한 추가 단계를 수행하도록 하거나 그대로 둘 수 있습니다. 이 예에서는 다음 단계를 계속 진행합니다.

다음으로 ChatGPT를 사용하여 데이터 분석을 수행합니다. 데이터 분석은 달성하려는 목표에 따라 다릅니다. 우리의 경우 Churn POV에서 데이터 분석을 수행하려고 합니다.

위의 경우 ChatGPT를 사용하여 데이터 분석을 실행하기 위해 다음 프롬프트를 사용합니다.

Please perform the data analysis based on the data above with respect to the churn data.

 

데이터 분석은 다음 결과에서 확인할 수 있습니다.

이탈 데이터와 관련된 데이터 분석을 수행하기 위해 다양한 요인이 고객 이탈과 어떻게 관련되는지 이해하는 데 중점을 둘 것입니다. 이탈은 이진변수(이탈이 없는 경우 0, 이탈이 없는 경우 1)로서 일반적으로 분류 방법과 다른 변수와의 관계를 조사하여 분석됩니다. 계획은 다음과 같습니다.

  1. 상관 분석: 시작하려면 각 숫자 특성이 이탈과 어떻게 상관되는지 살펴보겠습니다. 이를 통해 우리는 어떤 요소가 이탈과 더 밀접하게 관련될 수 있는지에 대한 초기 이해를 얻을 수 있습니다.
  1. 통계 테스트: ContractRenewal 및 DataPlan과 같은 범주형 변수의 경우 통계 테스트를 사용하여 여러 범주에 걸쳐 이탈률에 상당한 차이가 있는지 확인할 수 있습니다.
  1. 시각적 분석: 이러한 관계를 더 자세히 탐색하기 위해 몇 가지 시각화를 만듭니다. 여기에는 다양한 그룹의 이탈률을 비교하고 이탈률에 대한 주요 변수를 표시하는 작업이 포함됩니다.
  1. 요약 통계: 평균이나 분포에 눈에 띄는 차이가 있는지 확인하기 위해 이탈 상태를 기반으로 다양한 그룹에 대한 요약 통계를 제공합니다.

상관 분석부터 시작해 다음 단계로 넘어가겠습니다.

이탈률과 상관관계 분석

이탈과 다양한 변수의 상관관계는 다음과 같습니다(가장 강한 부정적 상관관계부터 가장 강한 긍정적 상관관계까지).

부정적인 상관 관계 :

  • ContractRenewal: 가장 강한 음의 상관관계. 계약을 갱신하지 않는 고객이 이탈할 가능성이 더 높다는 것을 나타냅니다.
  • DataPlan: 데이터 요금제가 없는 고객은 이탈할 가능성이 약간 더 높습니다.
  • DataUsage: 데이터 사용량이 높을수록 이탈 가능성이 약간 줄어듭니다.

양의 상관 관계 :

  • AccountWeeks, DayCalls: 양의 상관관계가 매우 약하여 이탈에 미치는 영향이 미미함을 나타냅니다.
  • RoamMins: 로밍 시간(분)이 늘어나 이탈 가능성이 약간 증가합니다.
  • 월별 요금: 월별 요금이 증가하여 이탈률이 약간 높아집니다.
  • 초과 수수료: 초과 수수료가 높을수록 이탈률 증가와 어느 정도 상관관계가 있습니다.
  • DayMins: 일일 시간(분)이 높을수록 이탈률 증가와 어느 정도 상관관계가 있습니다.
  • CustServCalls: 강한 양의 상관관계가 있습니다. 더 많은 고객 서비스 통화는 더 높은 이탈률과 관련이 있습니다.

이러한 상관관계를 바탕으로 계약 갱신, 고객 서비스 통화, 일일 통화 시간, 초과 요금과 같은 요소가 이탈과 더 밀접한 관련이 있는 것으로 보입니다. 특히 ContractRenewal 및 DataPlan과 같은 범주형 변수에 대한 시각적 분석 및 통계 테스트를 통해 이러한 요소를 더 자세히 탐색할 수 있습니다.

시각적 분석

 

CSV에서 ChatGPT를 사용하여 간단한 5단계로 분석 보고서 완성
 

시각화는 다양한 변수와 이탈 간의 관계에 대한 귀중한 통찰력을 제공합니다.

ContractRenewal 및 DataPlan에 의한 이탈:

  • ContractRenewal: 이탈률의 상당한 차이가 분명합니다. 계약을 갱신하지 않은 고객의 이탈률이 더 높습니다.
  • DataPlan: 고객이 데이터 요금제 유무에 따라 이탈률에 눈에 띄는 차이가 있으며, 데이터 요금제가 없는 고객의 이탈률이 더 높습니다.

Churn별 숫자 변수(CustServCalls, DayMins, MonthlyCharge, OverageFee):

  • CustServCalls: 고객 서비스 통화 수가 많은 고객은 이탈률이 더 높은 경향이 있습니다.
  • DayMins: 일일 시간(분)이 높을수록 이탈 가능성이 높아집니다.
  • 월별 요금: 월별 요금이 높을수록 이탈률이 높아집니다.
  • 초과 수수료: 초과 수수료가 높을수록 이탈률도 증가합니다.

분석의 결론

  • 계약 갱신 상태와 데이터 요금제 유무는 고객 이탈의 중요한 요소입니다.
  • 높은 사용량(일분 기준)과 높은 요금(월 요금 및 초과 요금)은 더 높은 이탈률과 관련이 있습니다.
  • 고객 서비스 통화 수가 많을수록 이탈 가능성이 있다는 강력한 지표입니다.

다음 단계

이러한 통찰력을 바탕으로 고객 서비스 개선, 가격 전략 수정, 계약 갱신 및 데이터 요금제 구독에 대한 인센티브 제공 등 이탈을 줄이기 위한 목표 전략을 개발할 수 있습니다.

단일 프롬프트를 통해 ChatGPT가 완전한 데이터 분석을 얼마나 잘 제공하고 데이터에서 통찰력을 얻을 수 있는지 확인할 수 있습니다. 분석 목표를 조정하고 거기서부터 시작할 수 있습니다.

데이터 시각화는 데이터 분석 및 전반적인 보고서 개선을 위한 지원 활동입니다. 시각화를 통해 데이터를 이해하기 위한 보다 포괄적인 보고서를 얻을 수 있습니다.

다음 프롬프트를 사용하여 ChatGPT로 데이터 시각화를 수행할 수 있습니다.

Please perform data visualization from the data analysis to explain the data better.

데이터 분석 결과에 대한 이해를 높이기 위해 고객 이탈과 관련된 주요 결과를 명확하게 설명하는 일련의 시각화를 만들겠습니다. 이러한 시각화에는 다음이 포함됩니다.

  1. 범주형 변수에 대한 막대 그래프:
  • 계약 갱신이 있는 고객과 없는 고객의 이탈률을 비교합니다.
  • 데이터 요금제 유무에 따른 고객 이탈률을 비교합니다.
  • 주요 수치 변수에 대한 상자 그림:
  1. 고객 서비스 통화와 이탈.
  • 일일 분 대 이탈.
  • 월별 요금과 이탈.
  • 초과 수수료와 이탈.
  1. 상관관계 히트맵:

이탈과 모든 변수의 상관관계를 시각화합니다.

 

CSV에서 ChatGPT를 사용하여 간단한 5단계로 분석 보고서 완성
 

시각화에는 전체 데이터 세트를 캡슐화하는 모든 중요한 플롯이 표시됩니다. 각 플롯에 대해 더 자세한 설명을 요청할 수 있으며, 이를 독립적으로 시도해 볼 수 있습니다.

마지막 단계는 이전 단계를 기반으로 보고서를 생성하는 것입니다. 불행하게도 ChatGPT는 데이터 분석의 모든 설명과 통찰력을 포착하지 못할 수도 있지만 여전히 간단한 버전의 보고서를 가질 수 있습니다.

이전 분석을 기반으로 PDF 보고서를 생성하려면 다음 프롬프트를 사용하십시오.

Please provide me with the pdf report from the first step to the last step.

이전 분석이 포함된 PDF 링크 결과를 받게 됩니다. 결과가 부적절하다고 생각되거나 변경하고 싶은 사항이 있는 경우 단계를 반복해 보세요.

데이터 분석은 현 시대에 가장 필요한 기술 중 하나이기 때문에 누구나 꼭 알아야 할 활동입니다. 그러나 데이터 분석 수행 방법을 배우는 데는 시간이 오래 걸릴 수 있습니다. ChatGPT를 사용하면 모든 활동 시간을 최소화할 수 있습니다. 

이 문서에서는 5단계로 CSV 파일에서 완전한 분석 보고서를 생성하는 방법을 설명했습니다. ChatGPT는 파일 가져오기부터 보고서 생성까지 엔드투엔드 데이터 분석 활동을 사용자에게 제공합니다.
 
 

코넬리우스 유다 위자야 데이터 과학 보조 관리자 및 데이터 작성자입니다. Allianz Indonesia에서 풀타임으로 일하는 동안 그는 소셜 미디어와 글쓰기 미디어를 통해 Python 및 데이터 팁을 공유하는 것을 좋아합니다.

타임 스탬프 :

더보기 너 겟츠