Bốn quan điểm về nghệ thuật phân tích dữ liệu - DATAVERSITY

Bốn quan điểm về nghệ thuật phân tích dữ liệu – DATAVERSITY

Nút nguồn: 3059543

Là chuyên gia khoa học dữ liệu, chúng tôi thường được coi là những người chỉ đưa ra kết luận dựa trên dữ liệu và giảm thiểu các yếu tố khác. Nhận thức này thường gây tranh cãi khi những hiểu biết sâu sắc và bằng chứng từ dữ liệu không nhất quán với “giả thuyết” của người khác. Hoặc chúng ta bối rối và có thể thất vọng khi phân tích “định tính” lấn át phân tích định lượng. Lần tới khi bạn cảm thấy thất vọng, hãy xem xét bốn quan điểm sau về phân tích dữ liệu để xác thực và xem xét các quan điểm khác để bạn có thể thử tìm ra điểm chung:  

1. “Những người ngoại lệ có cơ hội bình đẳng.”  

Các ngoại lệ xuất hiện trong tập dữ liệu dưới dạng bất thường. Có thể các ngoại lệ là tiếng ồn, nhưng có thể chúng đặc biệt. 

Các ngoại lệ có thể là những hiểu biết độc đáo, các xu hướng mới nổi hoặc các phân khúc thú vị. Trong nghiên cứu y học, một ngoại lệ có thể chỉ ra một tác dụng phụ hiếm gặp nhưng đe dọa tính mạng của thuốc. Trong trường hợp dữ liệu khách hàng, một ngoại lệ có thể là một phân khúc khách hàng có giá trị vẫn chưa được giải quyết. Các ngoại lệ có thể là một xu hướng mới nổi. Màu hồng ban đầu chỉ là một màu xa lạ nhưng nhanh chóng trở thành lựa chọn thời trang phổ biến nhất. 

Trước khi coi những ngoại lệ là tiếng ồn, hãy sử dụng chúng để khơi dậy những câu hỏi và sự tò mò:   

  • Liệu ngoại lệ có chỉ ra một cơ hội không?   
  • Tại sao ngoại lệ tồn tại?   
  • Nếu bạn có thể thay đổi dấu thời gian của tập dữ liệu, điều đó có thể tác động đến các giá trị ngoại lệ như thế nào? 
  • Bạn có phải giả định liệu có nhiều ngoại lệ hơn không?  
  • Giá trị ngoại lệ cho chúng ta biết điều gì về hệ thống hoặc quy trình đang được phân tích?    
  • Điều gì sẽ khiến một ngoại lệ trở thành một hồ sơ hoặc phân khúc riêng biệt?  

Hiểu được các yếu tố ngoại lai có thể dẫn đến phát triển sản phẩm sáng tạo, xác định các cơ hội thị trường mới và nhận ra các rủi ro tiềm ẩn. Trong các lĩnh vực như khoa học môi trường hoặc kinh tế, các ngoại lệ có thể báo hiệu những thay đổi quan trọng về mô hình, như sự thay đổi khí hậu đột ngột hoặc khủng hoảng tài chính. Các ngoại lệ có khả năng biến đổi cách chúng ta xem và giải thích dữ liệu, biến chúng từ những điểm dữ liệu bị hiểu sai thành những viên ngọc thông tin có giá trị. 

2. “Một lần là ngẫu nhiên. Hai lần là sự trùng hợp ngẫu nhiên. Ba lần là hành động của kẻ thù.” -Ngón tay vàng  

Bạn có bao giờ thắc mắc tại sao người khác lại thoải mái làm “hướng dữ liệu” quyết định với thông tin rất hạn chế? Nhiều điểm dữ liệu hơn mang lại cho chúng ta sự tự tin hơn và độ chính xác cao hơn, nhưng đôi khi, chúng ta cần phải hành động nhanh chóng.  

Gần đây nhất, OpenAI đã ra mắt ChatGPT bất chấp những sai sót của nó, trong khi những người khác có sản phẩm tương tự đang chờ tăng mức độ tin cậy của họ về tính chính xác của các phản hồi. Khi bạn cho rằng ai đó đang đưa ra quyết định dựa trên dữ liệu với mức độ tin cậy thấp và độ chính xác hạn chế, hãy xem xét chi phí thời gian. Kẻ thù có thể đang bắn. 

3. “Không phải mọi thứ đếm được đều có thể đếm được, và không phải mọi thứ đếm được đều đếm được.” –thường được cho là của Albert Einstein 

Nói cách khác, “Tôi đánh giá cao việc phân tích dữ liệu của bạn, nhưng những gì tôi nghĩ hoặc nghe được quan trọng hơn. Nó không thể đếm hay đo lường được.” 

Bạn phản ứng thế nào? Tình huống này là lúc bạn cần phải sáng tạo.   

Ví dụ: hành vi của khách hàng, bao gồm tình cảm của khách hàng, lòng trung thành với thương hiệu và xu hướng do sự thay đổi văn hóa thúc đẩy, có thể vô hình và khó định lượng. Nếu bạn chỉ có dữ liệu hành vi trực tuyến, hãy sử dụng các phương pháp khác để truy cập các nguồn dữ liệu mới như chương trình thử nghiệm, khảo sát, phân tích tình cảm xã hội, dân tộc học trực tuyến hoặc nghiên cứu cơ bản về khách hàng.  

Có thể sẽ không có gì chắc chắn, nhưng chính sự kết hợp và nhất quán của các phương pháp và nguồn khác nhau sẽ dẫn đến một kết luận nhất quán.  

4. “Tương quan bằng nhân quả?”  

Việc thay thế mối tương quan bằng quan hệ nhân quả có thể dẫn đến việc ra quyết định sai lầm khi thực hiện mà không nhận thức được. Tuy nhiên, có những tình huống chúng ta chỉ có quyền truy cập vào dữ liệu tương quan. Trong những trường hợp này, điều quan trọng là phải xem xét kỹ lưỡng xem mối tương quan chỉ là sự trùng hợp ngẫu nhiên hay có nguyên nhân cơ bản hợp lý. 

Ví dụ: hãy xem xét thách thức trong việc đo lường phân bổ chi tiêu tiếp thị và phân tích hoạt động bán hàng. Đây là những nhiệm vụ phức tạp không có mối liên hệ nhân quả trực tiếp. Người ta có thể quan sát thấy tỷ lệ chốt hợp đồng là 90% khi khách hàng ghé thăm văn phòng của nhà cung cấp để nghe thông tin tóm tắt về khách hàng, nhưng điều quan trọng là không nên vội kết luận và cho rằng có quan hệ nhân quả. Thay vào đó, cần có một cách tiếp cận sắc thái hơn.  

Khi xem xét kỹ hơn, có thể thấy rõ rằng tỷ lệ chốt hợp đồng cao không phải là kết quả của việc lên lịch trình họp giao dịch với khách hàng cho mỗi lần tương tác bán hàng. Thay vào đó, bản thân các tương tác tạo ra mong muốn tham dự các cuộc họp giao ban này ở khách hàng, điều này sau đó dẫn đến tỷ lệ chốt hợp đồng cao. Ví dụ này minh họa sự kết hợp giữa nghệ thuật và khoa học trong phân tích – một quá trình đòi hỏi sự hiểu biết về động lực cơ bản chứ không chỉ dựa vào những mối tương quan hời hợt. 

Tất cả chúng ta đều muốn độ tin cậy thống kê của nhiều dữ liệu với tập dữ liệu lý tưởng. Thực tế là đôi khi, chúng ta phải sáng tạo, giàu trí tưởng tượng và kiểm tra các ngoại lệ, mối tương quan và các tập dữ liệu thay thế. Hoặc đôi khi, không có thời gian và bạn cần hành động dựa trên dữ liệu hạn chế. 

Dấu thời gian:

Thêm từ PHỔ THÔNG DỮ LIỆU