Dữ liệu lộn xộn là đẹp

Nút nguồn: 1092189

Dữ liệu lộn xộn là đẹp

Khi các loại dữ liệu này đã được làm sạch, chúng còn làm được nhiều việc hơn là hiển thị các tập dữ liệu có tổ chức. Chúng tiết lộ những khả năng không giới hạn và phân tích AI có thể tiết lộ những khả năng này nhanh hơn và hiệu quả hơn bao giờ hết.


Tài trợ bài.

Hình ảnh

Các nhà khoa học dữ liệu luôn được kỳ vọng sẽ quản lý dữ liệu thành những khoảnh khắc 'aha' và kể những câu chuyện có thể tiếp cận được nhiều đối tượng doanh nghiệp hơn. Nhưng chi phí của việc giám tuyển này là bao nhiêu?

Tín hiệu thực là nhiễu

Dữ liệu gọn gàng không giúp được gì nhiều.

Mọi tổng hợp và xoay vòng được thực hiện trên tập dữ liệu làm giảm tổng lượng thông tin có sẵn để phân tích. Khai thác chủ đề NLP thông minh đó trên các trường văn bản miễn phí không nghi ngờ gì là rất hữu ích, nhưng văn bản thô thì thú vị hơn. Có lẽ những bản ghi cảm biến thô 'vô nghĩa' đó chỉ có vậy, hoặc không.

Chỉ là một vài ví dụ về dữ liệu lộn xộn mà chúng tôi đã thấy:

  • Lỗi chính tả trong đơn xin vay
  • Báo cáo lỗi từ đội bảo trì
  • Sự thay đổi áp suất dao động trong giếng
  • Gần tiệm giặt là đến cửa hàng tạp hóa
  • Các tính năng bị hỏng trên ứng dụng khiến khách hàng bỏ cuộc

Khi các loại dữ liệu này đã được làm sạch, chúng còn làm được nhiều việc hơn là hiển thị các tập dữ liệu có tổ chức. Chúng tiết lộ những khả năng không giới hạn và phân tích AI có thể tiết lộ những khả năng này nhanh hơn và hiệu quả hơn bao giờ hết (xem cách thức trong ngân hàng tại đây).

Một ví dụ

Giả sử có dữ liệu cảm biến khó hiểu. Thông thường, một mảng cảm biến sẽ tạo ra rất nhiều dữ liệu, thường là không thể đọc được.

Sau khi điều tra chi tiết, nhóm phân tích đã nhận thấy rằng một trong các cảm biến có số đọc cao liên tục và độ biến thiên cao dường như dự đoán một loại lỗi cơ học. Do đó, các báo cáo hiện xảy ra trên mức trung bình luân phiên trong 3 giờ đối với cảm biến này và phương sai luân phiên trong 1 giờ.

Các số liệu này rất dễ giải thích và mọi người từ đội ngũ quản lý cấp cao đến đội sửa chữa đều hiểu những gì họ đang đo. Nhưng chi phí quản lý dữ liệu như thế này là bao nhiêu?

Mặc dù dữ liệu gọn gàng mang lại một câu chuyện thú vị, có thể giải thích được nhưng nó lại phải trả giá bằng việc loại trừ những giả thuyết có thể chưa bao giờ được xem xét. Và đó chính xác là nơi mà vấn đề cơ bản thực sự có thể nằm.

Thay vào đó, một nền tảng phân tích mạnh mẽ được hỗ trợ bởi AI có thể áp dụng một loạt các chức năng cho điều này và mọi phép đọc cảm biến khác, đường trung bình động theo cấp số nhân, gốc và FFT. Sau đó, một nhà phân tích có thể thử một loạt các giá trị ngưỡng, so sánh giá trị này với các tập dữ liệu ngữ cảnh như thời tiết hoặc kiến ​​thức miền riêng biệt hơn.

Nắm bắt thông tin chi tiết độc đáo và tiết lộ các mô hình ẩn sâu trong dữ liệu lộn xộn cho phép chúng tôi phát hiện các xu hướng mới nổi, đồng thời xác định các hành vi mới và nhu cầu của khách hàng.

Xem cách này hoạt động tại các ngân hàng hàng đầu.

Nguồn: https://www.kdnuggets.com/2021/09/sparkbeyond-messy-data-is-beautiful.html

Dấu thời gian:

Thêm từ Xe đẩy