Giống như các nhà cung cấp dựa vào thư từ Hoa Kỳ hoặc UPS để đưa hàng hóa của họ đến tay khách hàng, nhân viên dựa vào các đường dẫn dữ liệu để cung cấp thông tin họ cần nhằm thu thập thông tin chi tiết về doanh nghiệp và đưa ra quyết định. Mạng lưới các kênh dữ liệu này, hoạt động ở chế độ nền, phân phối dữ liệu đã xử lý trên các hệ thống máy tính, một khuôn khổ và chức năng thiết yếu cho bất kỳ hướng dữ liệu kinh doanh.
Giá trị của việc kết nối các hệ thống dữ liệu với các đường ống tiếp tục tăng lên khi các công ty cần sử dụng nhiều dữ liệu truyền phát nhanh hơn, được phân phát ở nhiều định dạng khác nhau. Vì vậy, những người quản lý hiểu các đường dẫn dữ liệu ở cấp độ cao có thể chuyển dữ liệu thô sang thông tin nhìn thấy trên bảng điều khiển hoặc báo cáo một cách hiệu quả nhất về mặt kinh tế.
Đường ống dữ liệu là gì?
Đường ống dữ liệu mô tả các yếu tố xử lý dữ liệu kết nối trong loạt, với đầu ra dữ liệu của một kênh đóng vai trò là đầu vào cho kênh tiếp theo. Những đường dẫn này bắt đầu từ nguồn, nơi các hệ thống hấp thụ nó bằng cách dịch chuyển hoặc sao chép nó và di chuyển nó đến một đích mới.
Các chương trình máy tính tạo, sửa đổi, biến đổi hoặc đóng gói đầu vào của chúng thành một sản phẩm dữ liệu tinh chế tại vị trí mới đó. Sau đó, một hệ thống máy tính khác có thể lấy đầu ra dữ liệu đã xử lý, trong đường dẫn dữ liệu của nó, làm đầu vào.
Dữ liệu tiếp tục dọc theo mỗi kết nối và thông qua các quy trình và đường ống làm sạch khác nhau cho đến khi đạt đến trạng thái có thể sử dụng được. Sau đó, nhân viên sử dụng nó trong công việc hoặc dữ liệu đó được lưu trữ trong một kho lưu trữ, chẳng hạn như một kho dữ liệu.
Ngoài việc vận chuyển dữ liệu, một số đường dẫn làm sạch, chuyển đổi và biến đổi dữ liệu khi dữ liệu di chuyển qua chúng, tương tự như cách đường tiêu hóa của một người phân hủy thức ăn. Các kênh dữ liệu khác thu thập và phân tích dữ liệu về mạng lưới đường ống trong toàn tổ chức, cung cấp khả năng giám sát từ đầu đến cuối về tình trạng của nó, còn được gọi là khả năng quan sát dữ liệu.
Tại sao các công ty sử dụng đường ống dữ liệu?
Các công ty tìm thấy các đường dẫn dữ liệu tốt có thể mở rộng, linh hoạt, có thể bảo trì và nhanh chóng. Các đường dẫn dữ liệu tự động, được tạo và quản lý bằng thuật toán, có thể xuất hiện hoặc rút lại khi cần. Ngoài ra, các đường dẫn dữ liệu có thể định tuyến lại dữ liệu sang các đường dẫn khác để tránh kẹt dữ liệu và vận chuyển dữ liệu nhanh chóng.
Đường ống dữ liệu đóng góp vào các vấn đề quan trọng khác nhau Data Management nhu cầu trong toàn doanh nghiệp. Ví dụ như:
- Tích hợp dữ liệu: Trình kết nối đóng gói và vận chuyển dữ liệu từ hệ thống này sang hệ thống khác và bao gồm xử lý hàng loạt và dựa trên sự kiện của luồng dữ liệu
- Chất lượng dữ liệu/Chính phủ dữ liệu: Các đường dẫn xác định và thực thi các quy tắc Chất lượng dữ liệu theo chính sách của công ty và quy định của ngành đối với đầu ra dữ liệu
- Lập danh mục dữ liệu/Quản lý siêu dữ liệu: Các đường ống kết nối và quét siêu dữ liệu cho tất cả các loại cơ sở dữ liệu và cung cấp ngữ cảnh dữ liệu doanh nghiệp
- Bảo mật dữ liệu: Kênh mà phát hiện dữ liệu nhạy cảm và bảo vệ chống vi phạm
Ba thách thức mà các tổ chức phải đối mặt
Các tổ chức tận dụng các đường ống dẫn dữ liệu phải đối mặt với ít nhất ba thách thức: độ phức tạp, chi phí gia tăng và bảo mật.
phức tạp
Các kỹ sư phải đính kèm hoặc thay đổi đường ống dẫn dữ liệu khi yêu cầu dữ liệu kinh doanh thay đổi, làm tăng độ phức tạp của việc sử dụng và bảo trì các kênh. Hơn nữa, nhân viên cần di chuyển dữ liệu qua các môi trường đám mây kết hợp liên kết với nhau, bao gồm cả các môi trường tại chỗ có sẵn công khai, như Microsoft Azure.
Xử lý nhiều khác nhau điện toán đám mây các vị trí làm tăng thêm sự thất vọng với các đường ống dẫn dữ liệu vì những thách thức trong việc mở rộng mạng lưới đường ống dẫn dữ liệu. Khi các kỹ sư không thành thạo kiến trúc, các kênh dữ liệu trong toàn tổ chức, chuyển động của dữ liệu chậm lại hoặc nhân viên không lấy được dữ liệu họ cần và phải làm thêm dọn dẹp dữ liệu.
Gur Steif, chủ tịch tự động hóa kinh doanh kỹ thuật số tại BMC Software, nói về cách các tập đoàn đấu tranh để nhúng một hệ thống đường ống phức tạp vào các ứng dụng quan trọng của họ. Do đó, các doanh nghiệp sẽ cần đầu tư vào các nền tảng điều phối quy trình công việc dữ liệu để giữ cho dữ liệu được lưu chuyển và yêu cầu tinh vi. Hoạt động dữ liệu hiểu biết.
Tăng chi phí
Khi các công nghệ dữ liệu mới hơn xuất hiện, các doanh nghiệp phải đối mặt với tăng chi phí để hiện đại hóa từng đường ống dữ liệu của họ để thích ứng. Ngoài ra, các công ty phải chi nhiều hơn cho việc bảo trì đường ống và nâng cao kiến thức kỹ thuật.
Một nguồn chi phí khác bắt nguồn từ những thay đổi đã làm bởi các kỹ sư ngược dòng, gần nguồn hơn. Đôi khi, những nhà phát triển này không thể trực tiếp nhìn thấy sự phân nhánh trong mã của họ, phá vỡ ít nhất một quy trình dữ liệu khi dữ liệu di chuyển xuống các đường ống.
Bảo mật dữ liệu
Các kỹ sư cần đảm bảo tính bảo mật dữ liệu để tuân thủ khi dữ liệu truyền xuống các kênh dữ liệu khác nhau tới khán giả. Ví dụ: nhân viên kế toán của công ty có thể cần thông tin thẻ tín dụng nhạy cảm được gửi qua các đường ống mà lẽ ra không phải đến nhân viên dịch vụ khách hàng.
Vì vậy, rủi ro bảo mật sẽ tăng lên nếu các kỹ sư không có cách nào để xem dữ liệu khi dữ liệu chảy xuống đường ống. Ponemon Research lưu ý rằng 63% của các nhà phân tích bảo mật gọi việc thiếu khả năng hiển thị vào mạng và cơ sở hạ tầng là một yếu tố gây căng thẳng.
Thực tiễn tốt nhất để sử dụng đường ống dữ liệu
Việc sử dụng đường ống dẫn dữ liệu đòi hỏi phải đạt được sự cân bằng tinh tế trong việc giúp người dùng có thể truy cập dữ liệu cần thiết nhanh nhất có thể với chi phí tạo và bảo trì thấp nhất. Chắc chắn doanh nghiệp cần lựa chọn tốt nhất Kiến trúc dữ liệu với các đường dẫn dữ liệu an toàn, nhanh nhẹn và hoạt động mạnh mẽ.
Ngoài ra, các công ty cần phải xem xét những điều sau đây:
- Công nghệ AI và máy học (ML): Các tổ chức sẽ dựa vào ML để xác định các mẫu luồng dữ liệu, tối ưu hóa tốt nhất luồng dữ liệu cho tất cả các bộ phận của tổ chức. Ngoài ra, các dịch vụ ML tốt sẽ làm cho luồng dữ liệu hiệu quả hơn bằng cách tạo điều kiện thuận lợi cho các đường dẫn dữ liệu tự tích hợp, chữa lành và điều chỉnh. Đến năm 2025, các mô hình AI sẽ thay thế tới 60% của những cái hiện có, bao gồm cả những cái có đường ống dữ liệu được xây dựng trên dữ liệu truyền thống.
- Khả năng quan sát dữ liệu: Khả năng quan sát dữ liệu cung cấp cho các kỹ sư khả năng giám sát toàn diện toàn bộ mạng lưới đường ống dữ liệu, bao gồm cả việc phối hợp của nó. Với sự trợ giúp từ khả năng quan sát dữ liệu, các kỹ sư biết các đường ống dẫn dữ liệu đang hoạt động như thế nào và những gì cần thay đổi, sửa chữa hoặc cắt bớt.
- Quản lý siêu dữ liệu: Để có được khả năng quan sát dữ liệu tốt đòi hỏi phải tận dụng tối đa siêu dữ liệu, còn được gọi là dữ liệu mô tả dữ liệu. Do đó, các công ty sẽ áp dụng một quản lý siêu dữ liệu cấu trúc để kết hợp hiện có với siêu dữ liệu đang hoạt động mới nổi để có được khả năng tự động hóa, thông tin chi tiết và mức độ tương tác mong muốn trên các đường ống dẫn dữ liệu.
Công cụ giúp quản lý đường ống dữ liệu
Các doanh nghiệp phụ thuộc vào các công cụ đường ống dữ liệu để giúp xây dựng, triển khai và duy trì các kết nối dữ liệu. Các tài nguyên này di chuyển dữ liệu từ nhiều nguồn đến đích hiệu quả hơn, hỗ trợ các quy trình từ đầu đến cuối.
Mặc dù một số doanh nghiệp có kế hoạch phát triển và duy trì các công cụ nội bộ chuyên dụng, nhưng họ có thể làm cạn kiệt tài nguyên của tổ chức để quản lý chúng, đặc biệt là khi dữ liệu lưu thông trong môi trường nhiều đám mây. Do đó, một số doanh nghiệp sẽ chuyển sang nhà cung cấp bên thứ ba để tiết kiệm các chi phí này.
Các công cụ đường dẫn dữ liệu của bên thứ ba có hai loại. Một số dịch vụ chung thu thập, xử lý và phân phối dữ liệu trên một số dịch vụ đám mây. Những ví dụ bao gồm:
- Keo AWS: Nền tảng mã thấp, trích xuất, chuyển đổi, tải (ETL) không có máy chủ có kho lưu trữ siêu dữ liệu trung tâm và sử dụng ML để sao chép và làm sạch dữ liệu
- Nhà máy dữ liệu Azure: Một dịch vụ để điều phối chuyển động dữ liệu và chuyển đổi dữ liệu giữa Tài nguyên Azure, sử dụng khả năng quan sát dữ liệu, siêu dữ liệuvà học máy
- Đám mây: Các dịch vụ dữ liệu xử lý dữ liệu trên một số đám mây doanh nghiệp, hợp lý hóa việc sao chép dữ liệu và sử dụng NiFi – một công cụ tích hợp dữ liệu nhanh chóng, dễ dàng và an toàn
- Kết hợp dữ liệu đám mây của Google: Một sản phẩm cao cấp và nền tảng của Tích hợp dữ liệu của Google bao gồm khả năng quan sát dữ liệu và siêu dữ liệu tích hợp.
- Máy chủ thông tin IBM cho IBM Cloud Pak cho dữ liệu: Một máy chủ có khả năng tích hợp, chất lượng và quản trị dữ liệu, sử dụng khả năng ML
- Máy chủ Thông tin InfoSphere của IBM: Một dịch vụ được quản lý trên bất kỳ đám mây nào hoặc tự quản lý cho cơ sở hạ tầng của khách hàng sử dụng ML
- thông tin: Một nền tảng dữ liệu thông minh bao gồm kết nối gốc, nhập liệu, chất lượng, quản trị, lập danh mục thông qua siêu dữ liệu toàn doanh nghiệp, quyền riêng tư và quản lý dữ liệu chính trên nhiều đám mây
- Tài năng: Toàn bộ hệ sinh thái dữ liệu độc lập với đám mây và nhúng ML trong toàn bộ cấu trúc dữ liệu của nó
Các công cụ khác chuyên chuẩn bị và đóng gói dữ liệu để phân phối:
- Nămtran: Đường dẫn dữ liệu không cần thiết lập, không cần cấu hình và không cần bảo trì giúp lấy dữ liệu từ các nguồn đang hoạt động và chuyển dữ liệu đó đến một kho lưu trữ đám mây hiện đại
- tỷ: Nền tảng ETL động giúp điều chỉnh theo thời gian thực nếu quá trình xử lý dữ liệu mất quá nhiều thời gian hoặc không thành công
- bạch dương: Một công cụ đường dẫn dữ liệu từ Google để kiểm soát và hiển thị dễ dàng hơn các quy trình dữ liệu tự động
- Khâu: Một công cụ kho dữ liệu và ETL, được ghép nối với Talend, giúp di chuyển và quản lý dữ liệu từ nhiều nguồn
Ở cấp độ doanh nghiệp, các doanh nghiệp sẽ sử dụng ít nhất một tài nguyên đường ống dữ liệu chung mở rộng các dịch vụ trên nhiều đám mây và một tài nguyên chuyên biệt khác để xử lý những phức tạp của việc chuẩn bị dữ liệu.
Kết luận
Bất kỳ Kiến trúc dữ liệu hiện đại nào cũng yêu cầu mạng đường ống dữ liệu để di chuyển dữ liệu từ trạng thái thô sang trạng thái có thể sử dụng được. Đường ống dữ liệu cung cấp sự linh hoạt và tốc độ để vận chuyển dữ liệu tốt nhất nhằm đáp ứng nhu cầu kinh doanh và Quản lý dữ liệu.
Mặc dù các đường ống dữ liệu được thực thi kém dẫn đến tăng độ phức tạp, chi phí và rủi ro bảo mật, nhưng việc triển khai Kiến trúc dữ liệu tốt với các công cụ dữ liệu tốt sẽ tối đa hóa tiềm năng của các đường ống dữ liệu trong toàn tổ chức.
As Chris Gladwin, đồng sáng lập và CEO tại Ocient, lưu ý, các đường dẫn dữ liệu sẽ trở nên cần thiết hơn để thu thập tốt nhiều loại dữ liệu. Tương lai mang đến những cải tiến về đường truyền dữ liệu với sự tích hợp dữ liệu phức tạp hơn, dễ quản lý hơn.
Hình ảnh được sử dụng theo giấy phép từ Shutterstock.com
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
- nguồn: https://www.dataversity.net/data-pipelines-an-overview/
- a
- Giới thiệu
- có thể truy cập
- ngang qua
- hoạt động
- thích ứng
- Ngoài ra
- Ngoài ra
- Thêm
- điều chỉnh
- chống lại
- nhanh nhẹn
- AI
- thuật toán
- Tất cả
- đàn bà gan dạ
- Các nhà phân tích
- phân tích
- và
- và cơ sở hạ tầng
- Một
- xuất hiện
- các ứng dụng
- Đăng Nhập
- kiến trúc
- đính kèm
- điều trần
- Tự động
- Tự động hóa
- có sẵn
- tránh
- AWS
- Azure
- lý lịch
- Cân đối
- bởi vì
- trở nên
- BEST
- Hơn
- BMC
- Phá vỡ
- nghỉ giải lao
- Mang lại
- xây dựng
- xây dựng
- kinh doanh
- các doanh nghiệp
- cuộc gọi
- không thể
- khả năng
- thẻ
- trung tâm
- giám đốc điều hành
- chắc chắn
- thách thức
- thay đổi
- Kênh
- kênh
- Chọn
- gần gũi hơn
- đám mây
- dịch vụ điện toán đám mây
- Đồng sáng lập
- mã
- thu thập
- kết hợp
- Đến
- Các công ty
- công ty
- phức tạp
- tuân thủ
- máy tính
- Kết nối
- Kết nối
- liên quan
- Kết nối
- Kết nối
- hậu quả là
- Hãy xem xét
- ăn
- liên tiếp
- Góp phần
- điều khiển
- chuyển đổi
- Doanh nghiệp
- Phí Tổn
- Chi phí
- tạo
- tạo ra
- tạo
- tín dụng
- thẻ tín dụng
- quan trọng
- khách hàng
- Dịch Vụ CSKH
- khách hàng
- dữ liệu
- tích hợp dữ liệu
- quản lý dữ liệu
- Nền tảng dữ liệu
- Chuẩn bị dữ liệu
- xử lý dữ liệu
- chất lượng dữ liệu
- bảo mật dữ liệu
- kho dữ liệu
- cơ sở dữ liệu
- PHỔ THÔNG DỮ LIỆU
- quyết định
- cung cấp
- cung cấp
- giao hàng
- triển khai
- điểm đến
- phát triển
- phát triển
- khác nhau
- kỹ thuật số
- trực tiếp
- xuống
- năng động
- mỗi
- dễ dàng hơn
- hệ sinh thái
- hiệu quả
- hiệu quả
- mới nổi
- nhân viên
- Cuối cùng đến cuối
- Tham gia
- Kỹ sư
- đảm bảo
- Doanh nghiệp
- doanh nghiệp
- Toàn bộ
- môi trường
- đặc biệt
- thiết yếu
- Ether (ETH)
- ví dụ
- ví dụ
- hiện tại
- trích xuất
- Đối mặt
- phải đối mặt
- tạo điều kiện
- nhà máy
- FAIL
- NHANH
- nhanh hơn
- Tìm kiếm
- Sửa chữa
- Linh hoạt
- linh hoạt
- dòng chảy
- Chảy
- Chảy
- tiếp theo
- thực phẩm
- Nền tảng
- Khung
- từ
- Thất vọng
- chức năng
- hoạt động
- Hơn nữa
- nhiệt hạch
- tương lai
- Thu được
- Gartner
- được
- nhận được
- Cho
- Go
- tốt
- hàng hóa
- quản trị
- Chính phủ
- Phát triển
- xử lý
- cho sức khoẻ
- giúp đỡ
- Cao
- toàn diện
- Độ đáng tin của
- HTML
- HTTPS
- Hỗn hợp
- Đám mây lai
- IBM
- Đám mây của IBM
- xác định
- thực hiện
- cải tiến
- in
- bao gồm
- bao gồm
- Bao gồm
- tăng
- tăng
- ngành công nghiệp
- thông tin
- Cơ sở hạ tầng
- đầu vào
- cái nhìn sâu sắc
- những hiểu biết
- hội nhập
- Thông minh
- liên kết với nhau
- nội bộ
- phức tạp
- Đầu tư
- IT
- Việc làm
- Giữ
- Biết
- kiến thức
- nổi tiếng
- Thiếu sót
- dẫn
- học tập
- Cấp
- tận dụng
- Giấy phép
- tải
- . Các địa điểm
- dài
- Thấp
- máy
- học máy
- duy trì
- Có thể bảo trì
- bảo trì
- làm cho
- LÀM CHO
- Làm
- quản lý
- quản lý
- quản lý
- Quản lý
- quản lý
- nhiều
- chủ
- max-width
- tăng tối đa
- Gặp gỡ
- Siêu dữ liệu
- microsoft
- Microsoft Azure
- ML
- mô hình
- hiện đại
- hiện đại hóa
- sửa đổi
- giám sát
- chi tiết
- hiệu quả hơn
- hầu hết
- di chuyển
- phong trào
- di chuyển
- di chuyển
- nhiều
- tự nhiên
- cần thiết
- Cần
- cần thiết
- nhu cầu
- mạng
- Mới
- tiếp theo
- Chú ý
- ONE
- hoạt động
- hoạt động
- dàn nhạc
- cơ quan
- tổ chức
- Nền tảng khác
- Giám sát
- tổng quan
- gói
- bao bì
- ghép đôi
- các bộ phận
- mô hình
- đường ống dẫn
- kế hoạch
- nền tảng
- Nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Chính sách
- có thể
- tiềm năng
- thực hành
- chuẩn bị
- Chủ tịch
- riêng tư
- quá trình
- Quy trình
- xử lý
- Sản phẩm
- Khóa Học
- bảo vệ
- cho
- cung cấp
- cung cấp
- công khai
- chất lượng
- Mau
- Nguyên
- dữ liệu thô
- Đạt
- thời gian thực
- quy định
- thay thế
- nhân rộng
- Báo cáo
- kho
- yêu cầu
- Yêu cầu
- đòi hỏi
- nghiên cứu
- tài nguyên
- Thông tin
- kết quả
- rủi ro
- mạnh mẽ
- quy tắc
- Lưu
- khả năng mở rộng
- mở rộng quy mô
- quét
- an toàn
- an ninh
- Rủi ro bảo mật
- nhạy cảm
- Không có máy chủ
- dịch vụ
- DỊCH VỤ
- một số
- VẬN CHUYỂN
- nên
- shutterstock
- tương tự
- làm chậm
- So
- Phần mềm
- một số
- tinh vi
- nguồn
- nguồn
- nhịp
- Chuyên môn hoá
- chuyên nghành
- tốc độ
- tiêu
- Spot
- Nhân sự
- Bắt đầu
- Tiểu bang
- lưu trữ
- trực tuyến
- hợp lý hóa
- cấu trúc
- Hỗ trợ
- hệ thống
- hệ thống
- Hãy
- Các cuộc đàm phán
- Kỹ thuật
- Công nghệ
- Sản phẩm
- Tương lai
- thông tin
- Nguồn
- cung cấp their dịch
- của bên thứ ba
- số ba
- Thông qua
- khắp
- đến
- quá
- công cụ
- công cụ
- đối với
- truyền thống
- Chuyển đổi
- biến đổi
- vận chuyển
- vận chuyển
- chuyến đi
- XOAY
- loại
- chúng tôi
- Dưới
- hiểu
- UPS
- sử dụng
- Người sử dụng
- giá trị
- nhiều
- khác nhau
- nhà cung cấp
- Xem
- khả năng hiển thị
- Kho
- Điều gì
- CHÚNG TÔI LÀ
- rộng
- sẽ
- công nhân
- quy trình làm việc
- zephyrnet