จาก CSV ไปจนถึงรายงานการวิเคราะห์ด้วย ChatGPT ใน 5 ขั้นตอนง่ายๆ - KDnuggets

จาก CSV ไปจนถึงรายงานการวิเคราะห์ด้วย ChatGPT ใน 5 ขั้นตอนง่ายๆ – KDnuggets

โหนดต้นทาง: 2982942

จาก CSV ไปจนถึงรายงานการวิเคราะห์ด้วย ChatGPT ใน 5 ขั้นตอนง่ายๆ
ภาพโดย rawpixel.com on Freepik
 

ไม่ว่าคุณจะอยู่ในธุรกิจใดก็ตาม การรู้วิธีวิเคราะห์ข้อมูลมีความสำคัญมากกว่าที่เคยในยุคที่ขับเคลื่อนด้วยข้อมูล การวิเคราะห์ข้อมูลจะช่วยให้ธุรกิจสามารถแข่งขันได้และให้ความสามารถในการตัดสินใจได้ดีขึ้น

ความสำคัญของการวิเคราะห์ข้อมูลทำให้ทุกคนรู้วิธีการวิเคราะห์ข้อมูล อย่างไรก็ตาม บางครั้งการวิเคราะห์ข้อมูลก็ใช้เวลานานเกินไป นั่นเป็นเหตุผลที่เราสามารถไว้วางใจ ChatGPT เพื่อสร้างรายงานฉบับสมบูรณ์จากไฟล์ข้อมูลของเรา

บทความนี้จะกล่าวถึงห้าขั้นตอนง่ายๆ ในการสร้างรายงานการวิเคราะห์ที่สมบูรณ์จากไฟล์ CSV ของคุณ ห้าขั้นตอนเหล่านี้ประกอบด้วย:

ขั้นตอนที่ 1: การนำเข้าไฟล์ CSV

ขั้นตอนที่ 2: การสรุปข้อมูลและการประมวลผลล่วงหน้า

ขั้นตอนที่ 3: การวิเคราะห์ข้อมูล

ขั้นตอนที่ 4: การแสดงข้อมูล

ขั้นตอนที่ 5: การสร้างรายงาน

ตามข้อกำหนดเบื้องต้น บทความนี้ถือว่าผู้อ่านได้สมัครรับข้อมูล ChatGPT Plus แล้ว โดยที่ในใจเรามาเริ่มกันเลย

ขั้นตอนแรกคือการเตรียมไฟล์ CSV ที่คุณต้องการวิเคราะห์และสร้างรายงาน ไฟล์นี้อาจมาจากแหล่งใดๆ ที่น่าเชื่อถือ แต่บทความนี้จะใช้ชุดข้อมูล Telecom Churn จาก Kaggle.

ตรวจสอบให้แน่ใจว่าข้อมูลมีโครงสร้าง จัดระเบียบ และมีส่วนหัวที่ชัดเจน หากคุณมีเป้าหมายที่ต้องการวิเคราะห์ อย่าลืมรวมข้อมูลนั้นไว้ในไฟล์ ในตัวอย่างของเรา เราจะพยายามทำการวิเคราะห์คอลัมน์การเปลี่ยนใจ

เมื่อข้อมูลพร้อมแล้ว ให้แนบเข้ากับ ChatGPT แล้วปล่อยให้โมเดลทำงาน

ขั้นตอนต่อไปคือการรับข้อมูลสรุปจากไฟล์ CSV ของเราและประมวลผลล่วงหน้า ป้อนข้อมูลพร้อมท์ต่อไปนี้ในขณะที่คุณอัปโหลดข้อมูล

Provide the data summary to this file and perform appropriate data processing for the dataset.

พรอมต์ข้างต้นให้ผลลัพธ์ต่อไปนี้:

นี่คือบทสรุปของชุดข้อมูลของคุณ:

จำนวนแถว: 3333

จำนวนคอลัมน์: 11

ชื่อคอลัมน์:

ปั่น

สัปดาห์บัญชี

การต่ออายุสัญญา

แผนข้อมูล

การใช้ข้อมูล

CustServCalls

เดย์มินส์

เดย์คอลส์

ค่าบริการรายเดือน

ค่าธรรมเนียมส่วนเกิน

โรมมินส์

ประเภทข้อมูล:

จำนวนเต็ม: Churn, AccountWeeks, การต่ออายุสัญญา, DataPlan, CustServCalls, DayCalls

โฟลต: DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins

ค่าที่หายไป: ไม่มีค่าที่หายไปในคอลัมน์ใดๆ

ChatGPT สามารถอ่านข้อมูลได้ดีอย่างชัดเจนและสามารถจัดเตรียมชุดข้อมูลที่กำหนดได้ ผลลัพธ์ถัดไปคือการประมวลผลข้อมูลจาก ChatGPT

เนื่องจากไม่มีค่าที่ขาดหายไปในชุดข้อมูล จุดสนใจหลักของการล้างข้อมูลและการประมวลผลล่วงหน้าจึงอยู่ที่:

  • การตรวจสอบค่าผิดปกติหรือความผิดปกติในข้อมูล
  • การทำให้ข้อมูลเป็นมาตรฐานหรือเป็นมาตรฐานหากจำเป็น โดยเฉพาะคอลัมน์ที่มีค่าตัวเลขต่อเนื่องกัน
  • การแปลงข้อมูลเชิงหมวดหมู่ให้อยู่ในรูปแบบที่เหมาะสมสำหรับการวิเคราะห์ หากจำเป็น

มาดำเนินการตามขั้นตอนเหล่านี้กัน 
 

จาก CSV ไปจนถึงรายงานการวิเคราะห์ด้วย ChatGPT ใน 5 ขั้นตอนง่ายๆ
 

Boxplots ให้ภาพรวมของค่าผิดปกติที่อาจเกิดขึ้นในแต่ละคอลัมน์ตัวเลขของชุดข้อมูลของคุณ ต่อไปนี้เป็นข้อสังเกตบางประการ:

  • AccountWeeks, CustServCalls, DayCalls: คอลัมน์เหล่านี้แสดงการแจกแจงที่ค่อนข้างปกติโดยมีค่าผิดปกติเล็กน้อย
  • DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: คอลัมน์เหล่านี้ยังแสดงค่าผิดปกติบางส่วนด้วย แต่ดูเหมือนว่าจะอยู่ในช่วงที่เหมาะสม โดยพิจารณาจากลักษณะของข้อมูล
  • Churn, ContractRenewal, DataPlan: เนื่องจากเป็นข้อมูลที่เป็นหมวดหมู่/ไบนารี คอลัมน์เหล่านี้จึงไม่แสดงค่าผิดปกติแบบเดิม

เมื่อได้รับข้อมูลนี้ ขั้นตอนถัดไปในการล้างข้อมูลและการประมวลผลล่วงหน้าอาจรวมถึง:

  • การจัดการค่าผิดปกติ: เราสามารถตัดสินใจได้ว่าจะลบ ปิดขีดจำกัด หรือจัดการค่าผิดปกติตามความต้องการด้านการวิเคราะห์เฉพาะและความรู้ในขอบเขตของคุณ
  • การแปลงข้อมูล: หากจำเป็น เราสามารถทำให้คอลัมน์เป็นมาตรฐานหรือเป็นมาตรฐาน เช่น DayMins, MonthlyCharge เป็นต้น โดยเฉพาะอย่างยิ่งหากคุณวางแผนที่จะใช้อัลกอริทึมที่ละเอียดอ่อนต่อขนาดของข้อมูล
  • การเข้ารหัสข้อมูลเชิงหมวดหมู่: แปลงข้อมูลเชิงหมวดหมู่ให้อยู่ในรูปแบบที่เหมาะสมสำหรับการวิเคราะห์ หากจำเป็นต้องแปลงข้อมูลดังกล่าว

คุณสามารถปล่อยให้ ChatGPT ดำเนินการขั้นตอนเพิ่มเติมสำหรับการล้างข้อมูลและการประมวลผลล่วงหน้า หรือปล่อยให้เป็นเช่นนั้นก็ได้ สำหรับตัวอย่างนี้ เราจะดำเนินการขั้นตอนต่อไป

ต่อไปเราจะทำการวิเคราะห์ข้อมูลด้วย ChatGPT การวิเคราะห์ข้อมูลขึ้นอยู่กับสิ่งที่คุณต้องการบรรลุ ในกรณีของเรา เราต้องการวิเคราะห์ข้อมูลจาก Churn POV

เราใช้พรอมต์ต่อไปนี้เพื่อดำเนินการวิเคราะห์ข้อมูลด้วย ChatGPT สำหรับกรณีข้างต้น

Please perform the data analysis based on the data above with respect to the churn data.

 

การวิเคราะห์ข้อมูลสามารถดูได้จากผลลัพธ์ต่อไปนี้

เพื่อทำการวิเคราะห์ข้อมูลที่เกี่ยวข้องกับข้อมูลการเปลี่ยนใจ เราจะเน้นไปที่การทำความเข้าใจว่าปัจจัยต่างๆ เกี่ยวข้องกับการเปลี่ยนใจของลูกค้าอย่างไร Churn ซึ่งเป็นตัวแปรไบนารี่ (0 สำหรับไม่มีการปั่น และ 1 สำหรับการปั่น) โดยทั่วไปแล้ว จะถูกวิเคราะห์ด้วยวิธีการจัดหมวดหมู่ และโดยการตรวจสอบความสัมพันธ์กับตัวแปรอื่นๆ นี่คือแผน:

  1. การวิเคราะห์สหสัมพันธ์: ในการเริ่มต้น เราจะดูว่าคุณลักษณะตัวเลขแต่ละรายการมีความสัมพันธ์กับการเลิกใช้งานอย่างไร สิ่งนี้ทำให้เรามีความเข้าใจเบื้องต้นว่าปัจจัยใดที่อาจเกี่ยวข้องกับการเลิกใช้งานอย่างใกล้ชิดมากขึ้น
  1. การทดสอบทางสถิติ: สำหรับตัวแปรหมวดหมู่ เช่น ContractRenewal และ DataPlan เราสามารถใช้การทดสอบทางสถิติเพื่อดูว่าอัตราการเปลี่ยนใจในหมวดหมู่ต่างๆ มีความแตกต่างอย่างมีนัยสำคัญหรือไม่
  1. การวิเคราะห์ด้วยภาพ: เราจะสร้างการแสดงภาพเพื่อสำรวจความสัมพันธ์เหล่านี้เพิ่มเติม ซึ่งรวมถึงการเปรียบเทียบอัตราการเปลี่ยนใจในกลุ่มต่างๆ และการวางแผนตัวแปรหลักเทียบกับการเลิกใช้งาน
  1. สถิติสรุป: เราจะจัดทำสถิติสรุปสำหรับกลุ่มต่างๆ ตามสถานะการเลิกใช้งาน เพื่อดูว่ามีความแตกต่างที่เห็นได้ชัดเจนในวิธีการหรือการแจกแจงหรือไม่

เริ่มต้นด้วยการวิเคราะห์ความสัมพันธ์แล้วไปยังขั้นตอนถัดไป

การวิเคราะห์สหสัมพันธ์กับ Churn

ความสัมพันธ์ของตัวแปรต่างๆ กับการปั่นมีดังนี้ (จากความสัมพันธ์เชิงลบที่แข็งแกร่งที่สุดไปจนถึงความสัมพันธ์เชิงบวกที่แข็งแกร่งที่สุด):

ความสัมพันธ์เชิงลบ:

  • การต่ออายุสัญญา: ความสัมพันธ์เชิงลบที่แข็งแกร่งที่สุด บ่งชี้ว่าลูกค้าที่ไม่ต่ออายุสัญญามีแนวโน้มที่จะเลิกใช้งาน
  • DataPlan: ลูกค้าที่ไม่มีแผนข้อมูลมีแนวโน้มที่จะเลิกใช้งานเล็กน้อย
  • การใช้ข้อมูล: การใช้ข้อมูลที่สูงขึ้นจะลดโอกาสในการเลิกใช้งานเล็กน้อย

ความสัมพันธ์เชิงบวก:

  • AccountWeeks, DayCalls: ความสัมพันธ์เชิงบวกที่อ่อนแอมาก ซึ่งส่งผลกระทบน้อยที่สุดต่อการเลิกใช้งาน
  • RoamMins: โอกาสที่จะเลิกใช้งานเพิ่มขึ้นเล็กน้อยพร้อมกับจำนวนนาทีในการโรมมิ่งที่เพิ่มขึ้น
  • ค่าบริการรายเดือน: อัตราการปั่นที่สูงขึ้นเล็กน้อยพร้อมค่าบริการรายเดือนที่เพิ่มขึ้น
  • ค่าธรรมเนียมส่วนเกิน: ค่าธรรมเนียมส่วนเกินที่สูงขึ้นมีความสัมพันธ์ปานกลางกับการเลิกใช้งานที่เพิ่มขึ้น
  • DayMins: นาทีรายวันที่สูงขึ้นมีความสัมพันธ์ปานกลางกับการเลิกใช้งานที่เพิ่มขึ้น
  • CustServCalls: ความสัมพันธ์เชิงบวกที่แข็งแกร่ง การโทรติดต่อฝ่ายบริการลูกค้าที่มากขึ้นเกี่ยวข้องกับอัตราการเลิกใช้งานที่สูงขึ้น

จากความสัมพันธ์เหล่านี้ ดูเหมือนว่าปัจจัยต่างๆ เช่น การต่ออายุสัญญา การโทรติดต่อฝ่ายบริการลูกค้า นาทีรายวัน และค่าธรรมเนียมส่วนเกินจะสัมพันธ์กับการเลิกใช้งานอย่างใกล้ชิดมากขึ้น เราสามารถสำรวจปัจจัยเหล่านี้เพิ่มเติมผ่านการวิเคราะห์ด้วยภาพและการทดสอบทางสถิติ โดยเฉพาะอย่างยิ่งสำหรับตัวแปรหมวดหมู่ เช่น ContractRenewal และ DataPlan

การวิเคราะห์ด้วยภาพ

 

จาก CSV ไปจนถึงรายงานการวิเคราะห์ด้วย ChatGPT ใน 5 ขั้นตอนง่ายๆ
 

การแสดงภาพนำเสนอข้อมูลเชิงลึกอันมีค่าเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรต่างๆ และการเลิกใช้งาน:

เลิกใช้งานตามสัญญาต่ออายุและ DataPlan:

  • การต่ออายุสัญญา: เห็นได้ชัดว่ามีความแตกต่างอย่างมีนัยสำคัญในอัตราการยกเลิก ลูกค้าที่ไม่ต่ออายุสัญญาจะมีอัตราการเลิกใช้งานที่สูงกว่า
  • DataPlan: มีความแตกต่างที่เห็นได้ชัดเจนในเรื่องอัตราการเปลี่ยนใจ โดยขึ้นอยู่กับว่าลูกค้ามีแผนข้อมูลหรือไม่ โดยที่อัตราการเปลี่ยนใจจะไม่แสดงสูงกว่า

ตัวแปรตัวเลข (CustServCalls, DayMins, MonthlyCharge, OverageFee) โดย Churn:

  • CustServCalls: ลูกค้าที่มีจำนวนสายเรียกเข้าบริการลูกค้าที่สูงกว่ามักจะเลิกใช้บริการมากขึ้น
  • DayMins: จำนวนนาทีรายวันที่สูงขึ้นสัมพันธ์กับโอกาสที่จะเลิกใช้งานมากขึ้น
  • ค่าบริการรายเดือน: ค่าบริการรายเดือนที่สูงขึ้นมีความสัมพันธ์กับอัตราการเปลี่ยนใจที่เพิ่มขึ้น
  • ค่าธรรมเนียมส่วนเกิน: ค่าธรรมเนียมส่วนเกินที่สูงขึ้นยังเกี่ยวข้องกับการเลิกใช้งานที่เพิ่มขึ้นอีกด้วย

สรุปจากการวิเคราะห์

  • สถานะการต่ออายุสัญญาและการมีแผนข้อมูลเป็นปัจจัยสำคัญในการเลิกใช้งานของลูกค้า
  • การใช้งานที่สูง (ในรูปของนาทีของวัน) และค่าบริการที่สูง (ค่าบริการรายเดือนและค่าธรรมเนียมส่วนเกิน) สัมพันธ์กับอัตราการเลิกใช้งานที่สูงขึ้น
  • จำนวนสายเรียกเข้าบริการลูกค้าที่มากขึ้นเป็นตัวบ่งชี้ที่ชัดเจนถึงการเลิกใช้งานที่อาจเกิดขึ้น

ขั้นตอนถัดไป

จากข้อมูลเชิงลึกเหล่านี้ สามารถพัฒนากลยุทธ์ที่กำหนดเป้าหมายเพื่อลดการเลิกใช้งาน เช่น การปรับปรุงการบริการลูกค้า การแก้ไขกลยุทธ์การกำหนดราคา หรือเสนอสิ่งจูงใจสำหรับการต่ออายุสัญญาและการสมัครแผนข้อมูล

เพียงแจ้งเพียงครั้งเดียว เราก็จะเห็นว่า ChatGPT สามารถวิเคราะห์ข้อมูลที่สมบูรณ์และสร้างข้อมูลเชิงลึกจากข้อมูลได้ดีเพียงใด คุณสามารถปรับแต่งเป้าหมายการวิเคราะห์และเริ่มต้นจากจุดนั้นได้

การสร้างภาพข้อมูลเป็นกิจกรรมสนับสนุนในการปรับปรุงการวิเคราะห์ข้อมูลและรายงานโดยรวม การมีการแสดงภาพทำให้เรามีรายงานที่ครอบคลุมมากขึ้นเพื่อทำความเข้าใจข้อมูลของเราได้

เมื่อใช้พร้อมท์ต่อไปนี้ เราจะสามารถสร้างภาพข้อมูลด้วย ChatGPT ได้

Please perform data visualization from the data analysis to explain the data better.

เพื่อเพิ่มความเข้าใจในผลการวิเคราะห์ข้อมูล ฉันจะสร้างชุดการแสดงภาพซึ่งแสดงให้เห็นอย่างชัดเจนถึงการค้นพบที่สำคัญที่เกี่ยวข้องกับการเลิกใช้งานของลูกค้า การแสดงภาพเหล่านี้จะรวมถึง:

  1. แผนภูมิแท่งสำหรับตัวแปรหมวดหมู่:
  • เปรียบเทียบอัตราการเปลี่ยนใจสำหรับลูกค้าที่มีและไม่มีการต่อสัญญา
  • การเปรียบเทียบอัตราการเปลี่ยนใจของลูกค้าที่มีและไม่มีแผนข้อมูล
  • พล็อตกล่องสำหรับตัวแปรตัวเลขที่สำคัญ:
  1. การโทรฝ่ายบริการลูกค้าเทียบกับ Churn
  • นาทีรายวันเทียบกับปั่น
  • ค่าบริการรายเดือนเทียบกับ Churn
  • ค่าธรรมเนียมส่วนเกินเทียบกับ Churn
  1. แผนที่ความร้อนของความสัมพันธ์:

เพื่อให้เห็นภาพความสัมพันธ์ของตัวแปรทั้งหมดที่มีการเลิกใช้งาน

 

จาก CSV ไปจนถึงรายงานการวิเคราะห์ด้วย ChatGPT ใน 5 ขั้นตอนง่ายๆ
 

การแสดงภาพจะแสดงแผนสำคัญทั้งหมดที่ห่อหุ้มชุดข้อมูลทั้งหมด เราสามารถขอคำอธิบายโดยละเอียดเพิ่มเติมสำหรับแต่ละแปลงได้ซึ่งคุณสามารถลองแยกกันได้

ขั้นตอนสุดท้ายคือการสร้างรายงานตามขั้นตอนก่อนหน้า น่าเสียดายที่ ChatGPT อาจไม่ได้รวบรวมคำอธิบายและข้อมูลเชิงลึกทั้งหมดจากการวิเคราะห์ข้อมูล แต่เรายังคงมีรายงานเวอร์ชันธรรมดาได้

ใช้พร้อมท์ต่อไปนี้เพื่อสร้างรายงาน PDF ตามการวิเคราะห์ก่อนหน้านี้

Please provide me with the pdf report from the first step to the last step.

คุณจะได้รับผลลัพธ์ลิงก์ PDF พร้อมการวิเคราะห์ก่อนหน้าของคุณ พยายามทำซ้ำขั้นตอนต่างๆ หากคุณรู้สึกว่าผลลัพธ์ไม่เพียงพอหรือมีสิ่งที่คุณต้องการเปลี่ยนแปลง

การวิเคราะห์ข้อมูลเป็นกิจกรรมที่ทุกคนควรรู้เนื่องจากเป็นทักษะที่จำเป็นที่สุดอย่างหนึ่งในยุคปัจจุบัน อย่างไรก็ตาม การเรียนรู้เกี่ยวกับการวิเคราะห์ข้อมูลอาจใช้เวลานาน ด้วย ChatGPT เราสามารถลดเวลากิจกรรมทั้งหมดนั้นให้เหลือน้อยที่สุด 

ในบทความนี้ เราได้พูดถึงวิธีสร้างรายงานการวิเคราะห์ที่สมบูรณ์จากไฟล์ CSV ใน 5 ขั้นตอน ChatGPT ให้กิจกรรมการวิเคราะห์ข้อมูลแบบ end-to-end แก่ผู้ใช้ ตั้งแต่การนำเข้าไฟล์ไปจนถึงการสร้างรายงาน
 
 

คอร์เนลเลียส ยุธา วิชายา เป็นผู้ช่วยผู้จัดการด้านวิทยาศาสตร์ข้อมูลและผู้เขียนข้อมูล ในขณะที่ทำงานเต็มเวลาที่ Allianz Indonesia เขาชอบแบ่งปันเคล็ดลับ Python และ Data ผ่านโซเชียลมีเดียและสื่อการเขียน

ประทับเวลา:

เพิ่มเติมจาก KD นักเก็ต