Tak jak dostawcy polegają na amerykańskiej poczcie lub UPS, aby dostarczać swoje towary do klientów, tak pracownicy polegają na potokach danych, aby dostarczać informacje potrzebne im do uzyskiwania wglądu biznesowego i podejmowania decyzji. Ta sieć kanałów danych, działająca w tle, rozprowadza przetworzone dane w systemach komputerowych, stanowiąc podstawową strukturę i funkcję dla każdego sterowane danymi biznes.
Wartość łączenia systemów danych za pomocą potoków wciąż rośnie, ponieważ firmy muszą szybciej konsumować dużo danych przesyłanych strumieniowo, udostępnianych w różnych formatach. Tak więc menedżerowie, którzy rozumieją potoki danych na wysokim poziomie, mogą lepiej przenosić surowe dane do informacji widocznych na pulpitach nawigacyjnych lub raportach, najbardziej ekonomicznie.
Czym są potoki danych?
Potoki danych opisują elementy przetwarzania danych połączone szeregowo, przy czym wyjście danych jednego kanału działa jako wejście dla następnego. Kanały te zaczynają się u źródła, gdzie systemy pobierają je, przesuwając lub replikując i przenosząc do nowego miejsca docelowego.
Programy komputerowe tworzą, modyfikują, przekształcają lub pakują swoje dane wejściowe w więcej udoskonalony produkt danych w tym nowym miejscu. Następnie inny system komputerowy może przyjąć przetworzone dane wyjściowe w swoim potoku danych jako dane wejściowe.
Dane są przesyłane wzdłuż każdego połączenia oraz przez różne procesy oczyszczania i potoki, aż osiągną stan konsumpcyjny. Następnie pracownicy używają go w pracy lub dane są przechowywane w repozytorium, takim jak a hurtownia danych.
Oprócz transportu danych, niektóre kanały czyszczą, konwertują i przekształcają dane podczas ich przemieszczania, podobnie jak przewód pokarmowy człowieka rozkłada żywność. Inne kanały danych zbierają i analizują dane o sieci rurociągów obejmującej całą organizację, zapewniając kompleksowe monitorowanie jej kondycji, znanej również jako obserwowalność danych.
Dlaczego firmy korzystają z potoków danych?
Firmy uważają, że dobre potoki danych są skalowalne, elastyczne, łatwe w utrzymaniu i szybkie. Zautomatyzowane potoki danych, tworzone i zarządzane przez algorytmy, mogą pojawiać się lub wycofywać w razie potrzeby. Ponadto potoki danych mogą przekierowywać dane do innych kanałów, unikając zacięć danych i szybko przesyłając dane.
Potoki danych przyczyniają się do różnych krytycznych Zarządzanie danymi potrzeb w całym przedsiębiorstwie. Przykłady obejmują:
- Integracja danych: Łączniki, które pakują i transportują dane z jednego systemu do drugiego i obejmują oparte na zdarzeniach i wsadowe przetwarzanie strumieni danych
- Jakość danych/Zarządzanie danymi: Przewody, które definiują i egzekwują zasady jakości danych zgodnie z zasadami korporacyjnymi i przepisami branżowymi dotyczącymi danych wyjściowych
- Katalogowanie danych/zarządzanie metadanymi: Potoki, które łączą i skanują metadane dla wszystkich typów baz danych oraz zapewniają kontekst danych przedsiębiorstwa
- Prywatność danych: Kanały, które wykrywać wrażliwe dane i chronić przed naruszeniami
Trzy wyzwania stojące przed organizacjami
Organizacje wykorzystujące potoki danych stoją przed co najmniej trzema wyzwaniami: złożonością, zwiększonymi kosztami i bezpieczeństwem.
Złożoność
Inżynierowie muszą dołączać lub zmieniać potoki danych, gdy zmieniają się wymagania dotyczące danych biznesowych, zwiększając złożoność korzystania i utrzymywania kanałów. Ponadto pracownicy muszą przenosić dane między połączonymi ze sobą hybrydowymi środowiskami chmurowymi, w tym publicznie dostępnymi lokalnie, takimi jak Microsoft Azure.
Obsługa wielu różnych cloud computing location zwiększa frustrację związaną z potokami danych z powodu wyzwań związanych ze skalowaniem sieci potoków danych. Kiedy inżynierom nie udaje się stworzyć kompetentnej architektury, kanały danych w organizacji, przepływ danych spowalnia lub pracownicy nie otrzymują potrzebnych danych i muszą wykonać dodatkowe czyszczenie danych.
Gur Steif, prezes cyfrowej automatyzacji biznesowej w BMC Software, opowiada o tym, jak to zrobić walki korporacji osadzić skomplikowany system rurociągów w swoich krytycznych aplikacjach. W związku z tym przedsiębiorstwa będą musiały inwestować w platformy orkiestracji przepływu danych, które zapewniają przepływ danych i wymagają wyrafinowanych rozwiązań Operacje danych wiedza, umiejętności.
Zwiększone koszty
W miarę pojawiania się nowych technologii danych firmy muszą stawić czoła zwiększone koszty zmodernizować każdy z ich potoków danych w celu dostosowania. Ponadto firmy muszą wydawać więcej na konserwację rurociągów i pogłębianie wiedzy technicznej.
Inne źródło kosztów pochodzi z zmiany dokonane przez inżynierów na górze rzeki, bliżej źródła. Czasami ci programiści nie mogą bezpośrednio zobaczyć konsekwencji swojego kodu, przerywając co najmniej jeden proces danych, gdy dane przemieszczają się w potokach.
Bezpieczeństwo danych
Inżynierowie muszą zapewnić bezpieczeństwo danych w celu zapewnienia zgodności, ponieważ dane przepływają różnymi kanałami danych do odbiorców. Na przykład księgowi firmowi mogą potrzebować poufnych informacji o kartach kredytowych przesyłanych rurociągami, które nie powinny trafiać do personelu obsługi klienta.
Tak więc zagrożenia bezpieczeństwa rosną, jeśli inżynierowie nie mają możliwości przeglądania danych w trakcie ich przepływu. Ponemon Research to zauważa 63% analityków bezpieczeństwa wskazuje brak wglądu w sieć i infrastrukturę jako stresor.
Najlepsze praktyki dotyczące korzystania z potoków danych
Korzystanie z potoków danych wymaga zachowania delikatnej równowagi w udostępnianiu niezbędnych danych użytkownikom tak szybko, jak to możliwe, przy najniższych kosztach ich tworzenia i utrzymania. Z pewnością przedsiębiorstwa muszą wybierać najlepszych Architektura danych dzięki bezpiecznym, elastycznym i niezawodnym operacyjnie potokom danych.
Ponadto firmy muszą wziąć pod uwagę następujące kwestie:
- Technologie sztucznej inteligencji i uczenia maszynowego (ML): Organizacje będą polegać na ML, aby zidentyfikować wzorce przepływu danych, optymalizując przepływ danych do wszystkich części organizacji. Ponadto dobre usługi ML zwiększą wydajność przepływu danych, ułatwiając samointegrację, naprawę i dostrajanie potoków danych. Do 2025 roku modele AI zastąpią ok 60% istniejących, w tym z potokami danych zbudowanymi na tradycyjnych danych.
- Obserwowalność danych: Obserwowalność danych zapewnia inżynierom całościowy nadzór nad całą siecią potoków danych, w tym nad jej orkiestracją. Z pomocą obserwowalności danych inżynierowie wiedzą, jak działają potoki danych i co należy zmienić, naprawić lub usunąć.
- Zarządzanie metadanymi: Uzyskanie dobrej obserwowalności danych wymaga jak najlepszego wykorzystania metadanych, zwanych również danymi opisującymi dane. W związku z tym przedsiębiorstwa będą stosować m.in zarządzanie metadanymi strukturę do łączenia istniejących i powstających aktywnych metadanych w celu uzyskania pożądanej automatyzacji, wglądu i zaangażowania w potokach danych.
Narzędzia pomagające zarządzać potokami danych
Firmy polegają na narzędziach potoków danych, które pomagają budować, wdrażać i utrzymywać połączenia danych. Te zasoby przenoszą dane z wielu źródeł do miejsc docelowych wydajniej, wspierając kompleksowe procesy.
Podczas gdy niektóre przedsiębiorstwa planują rozwój i utrzymywanie wyspecjalizowanych narzędzi wewnętrznych, mogą drenować zasoby organizacji do zarządzania nimi, zwłaszcza gdy dane krążą w środowiskach wielochmurowych. W rezultacie niektóre firmy zwrócą się do zewnętrznych dostawców, aby zaoszczędzić na tych kosztach.
Narzędzia potoku danych innych firm są dostępne w dwóch odmianach. Niektóre ogólne zbierają, przetwarzają i dostarczają dane w kilku usługach w chmurze. Przykłady obejmują:
- Klej AWS: Bezserwerowa platforma o niskim kodzie, wyodrębnianiu, przekształcaniu, ładowaniu (ETL), która ma centralne repozytorium metadanych i używa ML do deduplikacji i czyszczenia danych
- Fabryka danych platformy Azure: Usługa do organizowania przenoszenia danych i przekształcania danych pomiędzy Zasoby platformy Azure, wykorzystując obserwowalność danych, metadanych, uczenie maszynowe
- Chmura: Usługi danych, które obsługują dane w kilku chmurach korporacyjnych, usprawniają replikację i wykorzystanie danych NiFi – szybkie, łatwe i bezpieczne narzędzie do integracji danych
- Fuzja danych Google Cloud: Zaawansowany produkt i podstawa integracji danych Google obejmuje obserwowalność danych i metadane integracji.
- IBM Information Server dla pakietu IBM Cloud Pak dla danych: Serwer z funkcjami integracji danych, jakości i zarządzania, wykorzystujący możliwości uczenia maszynowego
- Serwer informacyjny IBM Infosfera: Usługa zarządzana w dowolnej chmurze lub samozarządzana dla infrastruktury klienta korzystającej z uczenia maszynowego
- Informatyka: Inteligentna platforma danych, która obejmuje natywną łączność, pozyskiwanie, jakość, zarządzanie, katalogowanie poprzez metadane w całym przedsiębiorstwie, prywatność i zarządzanie danymi głównymi w wielu chmurach
- Talent: Cały ekosystem danych, który jest niezależny od chmury i osadza uczenie maszynowe w całej strukturze danych
Inne narzędzia specjalizują się w przygotowaniu i pakowaniu danych do wysyłki:
- Pięćtran: Prosty w konfiguracji, niewymagający konfiguracji i konserwacji potok danych, który pobiera dane ze źródeł operacyjnych i dostarcza je do nowoczesnego magazynu w chmurze
- Matylion: Dynamiczna platforma ETL, która dokonuje korekt w czasie rzeczywistym, jeśli przetwarzanie danych trwa zbyt długo lub kończy się niepowodzeniem
- Alooma: Narzędzie potoku danych od Google, które ułatwia kontrolę i widoczność zautomatyzowanych procesów danych
- Szew: Narzędzie ETL i hurtowni danych w połączeniu z Talend, które przenosi i zarządza danymi z wielu źródeł
Na poziomie przedsiębiorstwa firmy będą korzystać z co najmniej jednego ogólnego zasobu potoku danych, który obejmuje usługi w wielu chmurach, oraz innego wyspecjalizowanego zasobu do obsługi zawiłości przygotowania danych.
Wnioski
Każda nowoczesna architektura danych wymaga sieci potoków danych do przenoszenia danych ze stanu surowego do stanu użytecznego. Potoki danych zapewniają elastyczność i szybkość najlepszego transportu danych w celu spełnienia potrzeb biznesowych i zarządzania danymi.
Podczas gdy źle wykonane potoki danych prowadzą do zwiększonej złożoności, kosztów i zagrożeń bezpieczeństwa, wdrożenie dobrej architektury danych z dobrymi narzędziami danych maksymalizuje potencjał potoków danych w całej organizacji.
As Chris Gladwin, współzałożyciel i dyrektor generalny firmy Ocient, notatki, potoki danych staną się bardziej niezbędne do prawidłowego przyswajania szerokiej gamy danych. Przyszłość przyniesie ulepszenia potoków danych z bardziej wyrafinowaną integracją danych, która jest łatwiejsza w zarządzaniu.
Obraz używany na licencji Shutterstock.com
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. Dostęp tutaj.
- Źródło: https://www.dataversity.net/data-pipelines-an-overview/
- a
- O nas
- dostępny
- w poprzek
- aktywny
- przystosować
- dodatek
- do tego
- Dodaje
- Korekty
- przed
- zwinny
- AI
- Algorytmy
- Wszystkie kategorie
- Amazonka
- analitycy
- w czasie rzeczywistym sprawiają,
- i
- i infrastruktura
- Inne
- zjawić się
- aplikacje
- Aplikuj
- architektura
- dołączać
- publiczność
- zautomatyzowane
- Automatyzacja
- dostępny
- unikając
- AWS
- Lazur
- tło
- Bilans
- bo
- stają się
- BEST
- Ulepsz Swój
- BMC
- Przełamując
- przerwy
- Przynosi
- budować
- wybudowany
- biznes
- biznes
- wezwanie
- nie może
- możliwości
- karta
- centralny
- ceo
- na pewno
- wyzwania
- zmiana
- Kanał
- kanały
- Dodaj
- bliższy
- Chmura
- usługi w chmurze
- Współzałożyciel
- kod
- zbierać
- połączyć
- jak
- Firmy
- sukcesy firma
- kompleksowość
- spełnienie
- komputer
- Skontaktuj się
- Podłączanie
- połączenie
- połączenia
- Łączność
- w konsekwencji
- Rozważać
- konsumować
- ciągły
- przyczynić się
- kontrola
- konwertować
- Korporacyjny
- Koszty:
- Koszty:
- Stwórz
- stworzony
- tworzenie
- kredyt
- Karta kredytowa
- krytyczny
- klient
- Obsługa klienta
- Klientów
- dane
- integracja danych
- zarządzanie danymi
- Platforma danych
- Przygotowywanie danych
- analiza danych
- jakość danych
- bezpieczeństwo danych
- hurtownia danych
- Bazy danych
- WSZECHSTRONNOŚĆ DANYCH
- Decyzje
- dostarczyć
- dostarcza
- dostawa
- rozwijać
- miejsce przeznaczenia
- deweloperzy
- rozwijanie
- różne
- cyfrowy
- bezpośrednio
- na dół
- dynamiczny
- każdy
- łatwiej
- Ekosystem
- wydajny
- skutecznie
- wschodzących
- pracowników
- koniec końców
- zaręczynowy
- Inżynierowie
- zapewnić
- Enterprise
- przedsiębiorstwa
- Cały
- środowiska
- szczególnie
- niezbędny
- Eter (ETH)
- przykład
- przykłady
- Przede wszystkim system został opracowany
- wyciąg
- Twarz
- w obliczu
- ułatwienie
- fabryka
- FAIL
- FAST
- szybciej
- Znajdź
- Fix
- Elastyczność
- elastyczne
- pływ
- Płynący
- Przepływy
- następujący
- jedzenie
- Fundacja
- Framework
- od
- Frustracje
- funkcjonować
- funkcjonowanie
- Ponadto
- fuzja
- przyszłość
- Wzrost
- Gartner
- otrzymać
- miejsce
- Dać
- Go
- dobry
- towary
- zarządzanie
- Rząd
- Rosnąć
- uchwyt
- Zdrowie
- pomoc
- Wysoki
- holistyczne
- W jaki sposób
- HTML
- HTTPS
- Hybrydowy
- Chmura hybrydowa
- IBM
- IBM Cloud
- zidentyfikować
- wykonawczych
- ulepszenia
- in
- zawierać
- obejmuje
- Włącznie z
- wzrosła
- wzrastający
- przemysł
- Informacja
- Infrastruktura
- wkład
- wgląd
- spostrzeżenia
- integracja
- Inteligentny
- łączenie
- wewnętrzny
- zawiłości
- Inwestuj
- IT
- Praca
- Trzymać
- Wiedzieć
- wiedza
- znany
- Brak
- prowadzić
- nauka
- poziom
- lewarowanie
- Licencja
- załadować
- lokalizacji
- długo
- niski
- maszyna
- uczenie maszynowe
- utrzymać
- Utrzymywane w utrzymaniu
- konserwacja
- robić
- WYKONUJE
- Dokonywanie
- zarządzanie
- zarządzane
- i konserwacjami
- Zarządzający
- zarządza
- wiele
- mistrz
- Maksymalna szerokość
- maksymalizuje
- Poznaj nasz
- Metadane
- Microsoft
- Azure firmy Microsoft
- ML
- modele
- Nowoczesne technologie
- zmodernizować
- modyfikować
- monitorowanie
- jeszcze
- bardziej wydajny
- większość
- ruch
- ruch
- porusza się
- przeniesienie
- wielokrotność
- rodzimy
- niezbędny
- Potrzebować
- potrzebne
- wymagania
- sieć
- Nowości
- Następny
- Uwagi
- ONE
- operacyjny
- operacyjny
- orkiestracja
- organizacja
- organizacji
- Inne
- Przeoczenie
- przegląd
- pakiet
- opakowania
- sparowany
- strony
- wzory
- rurociąg
- krok po kroku
- Platforma
- Platformy
- plato
- Analiza danych Platona
- PlatoDane
- polityka
- możliwy
- potencjał
- praktyki
- przygotowanie
- prezydent
- prywatność
- wygląda tak
- procesów
- przetwarzanie
- Produkt
- Programy
- chronić
- zapewniać
- zapewnia
- że
- publicznie
- jakość
- szybko
- Surowy
- surowe dane
- Osiąga
- w czasie rzeczywistym
- regulamin
- obsługi produkcji rolnej, która zastąpiła
- replikacja
- Raporty
- składnica
- wymagać
- wymagania
- Wymaga
- Badania naukowe
- Zasób
- Zasoby
- dalsze
- ryzyko
- krzepki
- reguły
- Zapisz
- skalowalny
- skalowaniem
- skanować
- bezpieczne
- bezpieczeństwo
- zagrożenia bezpieczeństwa
- wrażliwy
- Bezserwerowe
- usługa
- Usługi
- kilka
- PRZESUNIĘCIE
- powinien
- shutterstock
- podobny
- zwalnia
- So
- Tworzenie
- kilka
- wyrafinowany
- Źródło
- Źródła
- rozpiętości
- specjalizować
- wyspecjalizowanym
- prędkość
- wydać
- Spot
- Personel
- początek
- Stan
- przechowywany
- Streaming
- opływowy
- Struktura
- Wspierający
- system
- systemy
- Brać
- Rozmowy
- Techniczny
- Technologies
- Połączenia
- Przyszłość
- Informacje
- Źródło
- ich
- innych firm
- trzy
- Przez
- poprzez
- do
- także
- narzędzie
- narzędzia
- w kierunku
- tradycyjny
- Przekształcać
- transformatorowy
- transportu
- transport
- podróże
- SKRĘCAĆ
- typy
- nas
- dla
- zrozumieć
- UPS
- posługiwać się
- Użytkownicy
- wartość
- różnorodność
- różnorodny
- sprzedawców
- Zobacz i wysłuchaj
- widoczność
- Magazyn
- Co
- KIM
- szeroki
- będzie
- pracowników
- workflow
- zefirnet