Подібно до того, як постачальники покладаються на американську пошту або UPS, щоб доставити свої товари клієнтам, працівники покладаються на канали даних для доставки інформації, необхідної для отримання інформації про бізнес і прийняття рішень. Ця мережа каналів даних, що працює у фоновому режимі, розподіляє оброблені дані між комп’ютерними системами, є важливою структурою та функцією для будь-якого керовані даними бізнес.
Цінність підключення систем даних за допомогою конвеєрів продовжує зростати, оскільки компаніям потрібно швидше споживати багато потокових даних, які подаються в різних форматах. Таким чином, менеджери, які розуміються на конвеєрах даних на високому рівні, можуть краще переміщати необроблені дані до інформації, що відображається на інформаційних панелях або звітах, найбільш економно.
Що таке конвеєри даних?
Конвеєри даних описують елементи обробки даних з'єднаних послідовно, причому вихідні дані одного каналу виступають вхідними для наступного. Ці канали починаються з джерела, де системи поглинають його шляхом переміщення або реплікації та переміщення до нового пункту призначення.
Комп’ютерні програми створюють, модифікують, перетворюють або упаковують свої вхідні дані в більш уточнений продукт даних на тому новому місці. Тоді інша комп’ютерна система може приймати оброблені вихідні дані у своєму конвеєрі даних як вхідні дані.
Дані передаються вздовж кожного з’єднання та через різні процеси очищення та конвеєри, доки не досягнуть стану витратного матеріалу. Потім працівники використовують їх під час роботи, або ці дані зберігаються в сховищі, наприклад a сховище даних.
Крім транспортування даних, деякі канали очищають, перетворюють і перетворюють дані, коли вони проходять через них, подібно до того, як травний тракт людини розщеплює їжу. Інші канали даних збирають і аналізують дані про конвеєрну мережу всієї організації, забезпечуючи наскрізний моніторинг її стану, також відомий як спостережуваність даних.
Чому компанії використовують конвеєри даних?
Компанії вважають хороші канали даних масштабованими, гнучкими, придатними для обслуговування та швидкими. Автоматизовані конвеєри даних, створені та керовані алгоритмами, можуть з’являтися або припинятися за потреби. Крім того, конвеєри даних можуть перенаправляти дані в інші канали, уникаючи заторів даних і швидко транспортуючи дані.
Конвеєри даних сприяють різним критичним Управління даними потреби на підприємстві. Приклади включають в себе:
- Інтеграція даних: З’єднувачі, які пакують і транспортують дані з однієї системи в іншу та включають обробку потоків даних на основі подій і пакетну обробку
- Якість даних/Уряд даних: Канали, які визначають і забезпечують дотримання правил якості даних відповідно до корпоративної політики та галузевих норм для виведення даних
- Каталогізація даних/Керування метаданими: Конвеєри, які з’єднують і сканують метадані для всіх типів баз даних і надають контекст корпоративних даних
- Конфіденційність даних: Канали, які виявлення конфіденційних даних і захист від злому
Три виклики, з якими стикаються організації
Організації, які використовують конвеєри даних, стикаються принаймні з трьома проблемами: складністю, підвищеними витратами та безпекою.
складність
Інженери повинні підключати або змінювати конвеєри даних у міру зміни вимог до бізнес-даних, що ускладнює використання та підтримку каналів. Крім того, співробітникам потрібно переміщувати дані між взаємопов’язаними гібридними хмарними середовищами, включаючи загальнодоступні локальні, як-от Microsoft Azure.
Обробка багатьох різних хмарних обчислень розташування додає розчарування з конвеєрами даних через проблеми з масштабуванням мережі конвеєрів даних. Коли інженерам не вдається грамотно розробити архітектор, канали даних в організації, переміщення даних сповільнюється, або співробітники не можуть отримати потрібні їм дані і повинні робити додаткові очищення даних.
Гур Штайф, президент цифрової автоматизації бізнесу в BMC Software, розповідає про те, як це зробити боротьба корпорацій для вбудовування складної конвеєрної системи у свої критичні програми. Отже, підприємствам доведеться інвестувати в платформи оркестровки робочого процесу даних, які забезпечують потік даних і потребують складних Data Ops знання
Підвищені витрати
З появою новітніх технологій обробки даних компанії стикаються підвищені витрати модернізувати кожен із своїх каналів даних для адаптації. Крім того, компанії повинні витрачати більше на обслуговування трубопроводів і вдосконалення технічних знань.
Інше джерело витрат походить з внесені зміни інженерами вище за течією, ближче до джерела. Іноді ці розробники не можуть безпосередньо побачити розгалуження свого коду, порушуючи принаймні один процес даних, коли дані переміщуються по конвеєрах.
Безпека даних
Інженери повинні забезпечити безпеку даних для відповідності, оскільки дані надходять різними каналами даних до аудиторії. Наприклад, бухгалтерам компанії може знадобитися конфіденційна інформація про кредитні картки, надіслана конвеєрами, яка не повинна надходити до персоналу служби підтримки клієнтів.
Таким чином, ризики для безпеки зростають, якщо інженери не мають можливості переглядати дані, які надходять по конвеєру. Про це зазначає Ponemon Research 63% Аналітики безпеки називають недостатню видимість мережі та інфраструктури стресовим фактором.
Найкращі методи використання конвеєрів даних
Використання конвеєрів даних вимагає досягнення тонкого балансу, щоб зробити необхідні дані доступними для користувачів якомога швидше за найменших витрат на створення та підтримку. Безумовно, підприємства повинні вибирати найкраще Архітектура даних із захищеними, гнучкими та надійними конвеєрами даних.
Крім того, компанії повинні враховувати наступне:
- ШІ та технології машинного навчання (ML): Організації покладатимуться на ML для визначення моделей потоку даних, найкраще оптимізуючи потік даних до всіх частин організації. Крім того, хороші послуги ML зроблять потік даних більш ефективним, сприяючи самоінтеграції, відновленню та налаштуванню конвеєрів даних. До 2025 року моделі ШІ замінять до 60% існуючих, у тому числі з конвеєрами даних, побудованими на традиційних даних.
- Спостережуваність даних: Спостережливість даних надає інженерам цілісний нагляд за всією мережею конвеєрів даних, включаючи її оркестровку. Завдяки можливості спостереження за даними інженери знають, як функціонують канали даних і що потрібно змінити, виправити чи скоротити.
- Керування метаданими: Щоб отримати хорошу спостережуваність даних, потрібно якнайкраще використовувати метадані, також відомі як дані, які описують дані. Отже, компанії застосовуватимуть a управління метаданими структуру, щоб поєднати існуючі та нові активні метадані, щоб отримати бажану автоматизацію, розуміння та взаємодію з конвеєрами даних.
Інструменти, які допомагають керувати конвеєрами даних
Компанії покладаються на інструменти конвеєрів даних, які допомагають створювати, розгортати та підтримувати з’єднання даних. Ці ресурси переміщують дані з кількох джерел до місць призначення ефективніше, підтримуючи наскрізні процеси.
Хоча деякі підприємства планують розробляти та підтримувати спеціалізовані внутрішні інструменти, вони можуть виснажувати ресурси організацій для керування ними, особливо коли дані циркулюють у багатохмарних середовищах. У результаті деякі підприємства звертаються до сторонніх постачальників, щоб заощадити на цих витратах.
Інструменти конвеєра даних сторонніх виробників бувають двох варіантів. Деякі загальні збирають, обробляють і доставляють дані в кількох хмарних службах. Приклади:
- Клей AWS: Безсерверна платформа низького коду, вилучення, трансформації, завантаження (ETL), яка має центральне сховище метаданих і використовує ML для дедуплікації та очищення даних
- Фабрика даних Azure: Служба для оркестрування переміщення даних і перетворення даних між ними Ресурси Azure, використовуючи спостережуваність даних, метадані та навчання за допомогою машини
- Клаудера: Служби даних, які обробляють дані в кількох корпоративних хмарах, оптимізують реплікацію та використання даних NiFi – швидкий, простий і безпечний інструмент інтеграції даних
- Google Cloud Data Fusion: Продукт високого класу та основа інтеграції даних Google, яка includes спостережуваність даних та метадані інтеграції.
- IBM Information Server для IBM Cloud Pak for Data: Сервер із можливостями інтеграції даних, якості та управління, використовуючи можливості ML
- Інформаційний сервер IBM Infosphere: Керована служба в будь-якій хмарі або самокерована для клієнтської інфраструктури, яка використовує ML
- Інформатика: Платформа інтелектуальних даних, яка включає власне підключення, прийом даних, якість, керування, каталогізацію через метадані в масштабах підприємства, конфіденційність і керування основними даними в кількох хмарах
- Талант: Ціла екосистема даних, яка не залежить від хмари та впроваджує машинне навчання у всю структуру даних
Інші інструменти спеціалізуються на підготовці та упаковці даних для доставки:
- Fivetran: Конвеєр даних із низьким рівнем налаштування, конфігурації та обслуговування, який збирає дані з робочих джерел і доставляє їх до сучасного хмарного сховища
- Матільйон: Динамічна платформа ETL, яка вносить коригування в режимі реального часу, якщо процеси обробки даних тривають надто довго або виникають збої
- Alooma: Інструмент конвеєра даних від Google для легшого контролю та видимості автоматизованих процесів даних
- стібок: ETL та інструмент сховища даних у поєднанні з Talend, який переміщує та керує даними з багатьох джерел
На рівні підприємства підприємства використовуватимуть принаймні один загальний ресурс конвеєра даних, який охоплює послуги в кількох хмарах, і інший спеціалізований ресурс для обробки тонкощів підготовки даних.
Висновок
Будь-яка сучасна архітектура даних вимагає мережі конвеєрів даних для переміщення даних із необробленого стану в придатний для використання. Конвеєри даних забезпечують гнучкість і швидкість для найкращого транспортування даних відповідно до потреб бізнесу та керування даними.
Хоча погано виконані конвеєри даних призводять до збільшення складності, витрат і ризиків для безпеки, впровадження хорошої архітектури даних із хорошими інструментами даних максимізує потенціал конвеєрів даних у всій організації.
As Кріс Гладуін, співзасновник і генеральний директор Ocient, зазначає, конвеєри даних стануть більш важливими для належного прийому різноманітних даних. Майбутнє приносить удосконалення конвеєра даних із більш складною інтеграцією даних, якою легше керувати.
Зображення використовується за ліцензією Shutterstock.com
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://www.dataversity.net/data-pipelines-an-overview/
- a
- МЕНЮ
- доступною
- через
- активний
- пристосовувати
- доповнення
- Додатково
- Додає
- коректування
- проти
- моторний
- AI
- алгоритми
- ВСІ
- Amazon
- аналітики
- аналізувати
- та
- та інфраструктури
- Інший
- з'являтися
- застосування
- Застосовувати
- архітектура
- приєднувати
- слухання
- Автоматизований
- Автоматизація
- доступний
- уникає
- AWS
- Лазурний
- фон
- Balance
- оскільки
- ставати
- КРАЩЕ
- Краще
- BMC
- Розрив
- ламається
- Приносить
- будувати
- побудований
- бізнес
- підприємства
- call
- не може
- можливості
- карта
- центральний
- Генеральний директор
- звичайно
- проблеми
- зміна
- Канал
- канали
- Вибирати
- ближче
- хмара
- хмарні сервіси
- Співзасновник
- код
- збирати
- об'єднувати
- Приходити
- Компанії
- компанія
- складність
- дотримання
- комп'ютер
- З'єднуватися
- З'єднувальний
- зв'язку
- Зв'язки
- зв'язок
- Отже
- Вважати
- споживати
- триває
- сприяти
- контроль
- конвертувати
- Корпоративний
- Коштувати
- витрати
- створювати
- створений
- створення
- кредит
- кредитна картка
- критичний
- клієнт
- Контакти
- Клієнти
- дані
- інтеграція даних
- управління даними
- Платформа даних
- Підготовка даних
- обробка даних
- якість даних
- безпеку даних
- сховище даних
- базами даних
- ПЕРЕДАЧА
- рішення
- доставляти
- постачає
- доставка
- розгортання
- призначення
- розробників
- розвивається
- різний
- цифровий
- безпосередньо
- вниз
- динамічний
- кожен
- легше
- екосистема
- ефективний
- продуктивно
- з'являються
- співробітників
- кінець в кінець
- зачеплення
- Інженери
- забезпечувати
- підприємство
- підприємств
- Весь
- середовищах
- особливо
- істотний
- Ефір (ETH)
- приклад
- Приклади
- існуючий
- витяг
- Особа
- стикаються
- сприяння
- завод
- FAIL
- ШВИДКО
- швидше
- знайти
- виправляти
- Гнучкість
- гнучкий
- потік
- Тече
- Потоки
- після
- харчування
- фонд
- Рамки
- від
- Розчарування
- функція
- функціонування
- Крім того
- злиття
- майбутнє
- Отримувати
- Gartner
- отримати
- отримання
- Давати
- Go
- добре
- товари
- управління
- Уряд
- Рости
- обробляти
- здоров'я
- допомога
- Високий
- цілісний
- Як
- HTML
- HTTPS
- гібрид
- гібридна хмара
- IBM
- IBM Cloud
- ідентифікувати
- реалізації
- поліпшення
- in
- включати
- includes
- У тому числі
- збільшений
- зростаючий
- промисловість
- інформація
- Інфраструктура
- вхід
- розуміння
- розуміння
- інтеграція
- Розумний
- взаємозв'язок
- внутрішній
- тонкощі
- Invest
- IT
- робота
- тримати
- Знати
- знання
- відомий
- відсутність
- вести
- вивчення
- рівень
- використання
- ліцензія
- загрузка
- місць
- Довго
- низький
- машина
- навчання за допомогою машини
- підтримувати
- Підлягає ремонту
- обслуговування
- зробити
- РОБОТИ
- Робить
- управляти
- вдалося
- управління
- Менеджери
- управляє
- багато
- майстер
- макс-ширина
- максимізує
- Зустрічатися
- метадані
- Microsoft
- Microsoft Azure
- ML
- Моделі
- сучасний
- модернізувати
- змінювати
- моніторинг
- більше
- більш ефективний
- найбільш
- рухатися
- руху
- рухається
- переміщення
- множинний
- рідний
- необхідно
- Необхідність
- необхідний
- потреби
- мережу
- Нові
- наступний
- примітки
- ONE
- операційний
- оперативний
- оркестровка
- організація
- організації
- Інше
- Нагляд
- огляд
- пакет
- упаковка
- парний
- частини
- моделі
- трубопровід
- план
- платформа
- Платформи
- plato
- Інформація про дані Платона
- PlatoData
- Політика
- це можливо
- потенціал
- практики
- підготовка
- президент
- недоторканність приватного життя
- процес
- процеси
- обробка
- Product
- програми
- захист
- забезпечувати
- забезпечує
- забезпечення
- публічно
- якість
- швидко
- Сировина
- необроблені дані
- Досягає
- реального часу
- правила
- замінювати
- копіювання
- Звіти
- Сховище
- вимагати
- Вимога
- Вимагається
- дослідження
- ресурс
- ресурси
- результат
- ризики
- міцний
- Правила
- зберегти
- масштабовані
- Масштабування
- сканування
- безпечний
- безпеку
- ризики для безпеки
- чутливий
- Без сервера
- обслуговування
- Послуги
- кілька
- ПЕРЕМІЩЕННЯ
- Повинен
- shutterstock
- аналогічний
- сповільнюється
- So
- Софтвер
- деякі
- складний
- Source
- Джерела
- прольоти
- спеціалізуватися
- спеціалізований
- швидкість
- витрачати
- Spot
- Персонал
- старт
- стан
- зберігати
- потоковий
- раціоналізувати
- структура
- Підтримуючий
- система
- Systems
- Приймати
- Переговори
- технічний
- Технології
- Команда
- Майбутнє
- інформація
- Джерело
- їх
- третя сторона
- три
- через
- по всьому
- до
- занадто
- інструмент
- інструменти
- до
- традиційний
- Перетворення
- перетворення
- перевезення
- транспортування
- мандри
- ПЕРЕГЛЯД
- Типи
- нас
- при
- розуміти
- UPS
- використання
- користувачі
- значення
- різноманітність
- різний
- постачальники
- вид
- видимість
- Склад
- Що
- ВООЗ
- широкий
- волі
- робочі
- робочий
- зефірнет