Точно так же, как поставщики полагаются на почту США или UPS для доставки своих товаров клиентам, работники рассчитывают на конвейеры данных для доставки информации, необходимой им для получения информации о бизнесе и принятия решений. Эта сеть каналов данных, работающая в фоновом режиме, распределяет обработанные данные по компьютерным системам, что является важной структурой и функцией для любого управляемых данными бизнес.
Ценность соединения систем данных с помощью конвейеров продолжает расти, поскольку компаниям необходимо быстрее потреблять большое количество потоковых данных, предоставляемых в различных форматах. Таким образом, менеджеры, которые понимают конвейеры данных на высоком уровне, могут более экономично перемещать необработанные данные в информацию, отображаемую на информационных панелях или в отчетах.
Что такое конвейеры данных?
Конвейеры данных описывают элементы обработки данных соединенных последовательно, при этом выходные данные одного канала действуют как входные данные для следующего. Эти каналы начинаются с источника, где системы поглощают его, перемещая или копируя его и перемещая в новое место назначения.
Компьютерные программы создают, модифицируют, трансформируют или упаковывают свои входные данные в более продукт уточненных данных на том новом месте. Затем другая компьютерная система может принимать обработанные выходные данные в своем конвейере данных в качестве входных данных.
Данные продолжают передаваться по каждому соединению и через различные процессы очистки и конвейеры, пока не достигнут состояния потребления. Затем сотрудники используют их на работе, или эти данные сохраняются в репозитории, например информационное хранилище.
Помимо передачи данных, некоторые каналы очищают, преобразовывают и преобразовывают данные по мере их прохождения, подобно тому, как пищеварительный тракт человека расщепляет пищу. Другие каналы данных собирают и анализируют данные о конвейерной сети организации, обеспечивая сквозной мониторинг ее работоспособности, также известный как наблюдаемость данных.
Почему компании используют конвейеры данных?
Компании считают хорошие конвейеры данных масштабируемыми, гибкими, ремонтопригодными и быстрыми. Автоматизированные конвейеры данных, созданные и управляемые алгоритмами, могут появляться или сворачиваться по мере необходимости. Кроме того, конвейеры данных могут перенаправлять данные в другие каналы, избегая застревания данных и обеспечивая быструю передачу данных.
Конвейеры данных вносят свой вклад в различные критические Управление данными потребности по всему предприятию. Примеры включают в себя:
- Интеграция данных: Коннекторы, которые упаковывают и передают данные из одной системы в другую и включают обработку потоков данных на основе событий и пакетную обработку.
- Качество данных/правительство данных: Каналы, которые определяют и обеспечивают соблюдение правил качества данных в соответствии с корпоративными политиками и отраслевыми нормами для вывода данных.
- Каталогизация данных/управление метаданными: Конвейеры, которые соединяют и сканируют метаданные для всех типов баз данных и предоставляют контекст корпоративных данных.
- Конфиденциальность данных: Каналы, которые обнаруживать конфиденциальные данные и защищать от взлома
Три проблемы, с которыми сталкиваются организации
Организации, использующие конвейеры данных, сталкиваются как минимум с тремя проблемами: сложностью, увеличением затрат и безопасностью.
Многогранность
Инженеры должны подключать или изменять конвейеры данных по мере изменения требований к бизнес-данным, что усложняет использование и обслуживание каналов. Кроме того, сотрудникам необходимо перемещать данные между взаимосвязанными гибридными облачными средами, включая общедоступные локальные среды, такие как Microsoft Azure.
Обработка множества различных облачных вычислений местоположения добавляет разочарований в конвейеры данных из-за проблем с масштабированием сети конвейеров данных. Когда инженеры не могут грамотно спроектировать архитектуру, каналы данных внутри организации, движение данных замедляется или сотрудники не могут получить нужные им данные и должны выполнять дополнительные действия. очистка данных.
Гур Штайф, президент по цифровой автоматизации бизнеса в BMC Software, рассказывает о том, как корпорации борются внедрять сложную конвейерную систему в свои критически важные приложения. Следовательно, предприятиям необходимо будет инвестировать в платформы оркестрации рабочих процессов данных, которые обеспечивают поток данных и требуют сложных Операции с данными знание.
Увеличение затрат
По мере появления новых технологий обработки данных предприятия сталкиваются с увеличение расходов модернизировать каждый из своих конвейеров данных для адаптации. Кроме того, компании должны тратить больше средств на техническое обслуживание трубопроводов и развитие технических знаний.
Еще одним источником затрат является внесенные изменения инженерами выше по течению, ближе к источнику. Иногда эти разработчики не могут напрямую увидеть разветвления своего кода, нарушая по крайней мере один процесс обработки данных, когда данные перемещаются по конвейерам.
Безопасность данных
Инженерам необходимо обеспечить безопасность данных для соответствия требованиям, поскольку данные передаются по разным каналам к аудитории. Например, бухгалтерам компании может потребоваться конфиденциальная информация о кредитных картах, отправляемая по каналам, которые не должны передаваться персоналу службы поддержки клиентов.
Таким образом, риски безопасности возрастают, если у инженеров нет возможности просматривать данные по мере их прохождения по конвейеру. Ponemon Research отмечает, что 63% аналитиков по безопасности называют отсутствие информации о сети и инфраструктуре фактором стресса.
Рекомендации по использованию конвейеров данных
Использование конвейеров данных требует соблюдения тонкого баланса, чтобы сделать необходимые данные доступными для пользователей как можно быстрее и с наименьшими затратами на создание и обслуживание. Безусловно, предприятия должны выбирать лучших Архитектура данных с безопасными, гибкими и надежными в эксплуатации конвейерами данных.
Кроме того, компаниям необходимо учитывать следующее:
- Технологии искусственного интеллекта и машинного обучения (ML): Организации будут полагаться на ML для определения шаблонов потоков данных, оптимизируя поток данных во все части организации. Кроме того, хорошие сервисы машинного обучения сделают поток данных более эффективным, упрощая самоинтеграцию, восстановление и настройку конвейеров данных. К 2025 году модели ИИ заменят до 60% существующих, в том числе с конвейерами данных, построенными на традиционных данных.
- Наблюдаемость данных: Наблюдаемость данных предоставляет инженерам целостный контроль над всей сетью конвейеров данных, включая ее оркестровку. С помощью наблюдаемости данных инженеры знают, как функционируют конвейеры данных и что нужно изменить, исправить или сократить.
- Управление метаданными: Для обеспечения хорошей наблюдаемости данных необходимо наилучшим образом использовать метаданные, также известные как данные, описывающие данные. Следовательно, компании будут применять управление метаданными структура для объединения существующих с появляющимися активными метаданными для достижения желаемой автоматизации, понимания и участия в конвейерах данных.
Инструменты, которые помогают управлять конвейерами данных
Компании зависят от инструментов конвейера данных, которые помогают создавать, развертывать и поддерживать подключения к данным. Эти ресурсы перемещают данные из нескольких от источников до пунктов назначения более эффективно, поддерживая сквозные процессы.
Хотя некоторые предприятия планируют разрабатывать и поддерживать специализированные внутренние инструменты, они могут истощать ресурсы организации для управления ими, особенно когда данные циркулируют в мультиоблачных средах. В результате некоторые предприятия будут обращаться к сторонним поставщикам, чтобы сэкономить на этих расходах.
Сторонние инструменты конвейера данных бывают двух видов. Некоторые общие собирают, обрабатывают и доставляют данные через несколько облачных сервисов. Примеры включают:
- Клей АВС: Бессерверная платформа с низким кодом, извлечением, преобразованием, загрузкой (ETL), которая имеет центральный репозиторий метаданных и использует машинное обучение для дедупликации и очистки данных
- Фабрика данных Azure: Служба для организации перемещения данных и преобразования данных между Ресурсы Azure, используя наблюдаемость данных, метаданныхкачества обучение с помощью машины
- Клаудера: Службы данных, которые обрабатывают данные в нескольких корпоративных облаках, оптимизируют репликацию данных и используют НиФи – быстрый, простой и безопасный инструмент для интеграции данных
- Объединение облачных данных Google: Высококлассный продукт и основа интеграции данных Google, включает в себя наблюдаемость данных и интеграция метаданных.
- IBM Information Server для IBM Cloud Pak for Data: Сервер с возможностями интеграции данных, качества и управления, использующий возможности машинного обучения.
- Информационный сервер IBM Infosphere: Управляемая служба в любом облаке или самоуправляемая для клиентской инфраструктуры, использующей машинное обучение.
- Информатика: Интеллектуальная платформа данных, которая включает в себя встроенную связь, прием, качество, управление, каталогизацию с помощью общекорпоративных метаданных, конфиденциальность и управление основными данными в нескольких облаках.
- Таленд: Целая экосистема данных, независимая от облака и внедряющая машинное обучение во всю структуру данных.
Другие инструменты специализируются на подготовке и упаковке данных для доставки:
- Фифтран: Не требующий настройки, настройки и обслуживания конвейер данных, который извлекает данные из операционных источников и доставляет их в современное облачное хранилище.
- Матиллион: Динамическая платформа ETL, которая вносит коррективы в режиме реального времени, если обработка данных занимает слишком много времени или дает сбой.
- Алума: Инструмент конвейера данных от Google для упрощения контроля и визуализации автоматизированных процессов обработки данных.
- Вышивание: Инструмент ETL и хранилища данных в сочетании с Talend, который перемещает и управляет данными из нескольких источников.
На уровне предприятия предприятия будут использовать как минимум один общий ресурс конвейера данных, который охватывает службы в нескольких облаках, и еще один специализированный ресурс для обработки сложностей подготовки данных.
Заключение
В любой современной архитектуре данных требуется сеть конвейеров данных для перемещения данных из исходного состояния в пригодное для использования. Конвейеры данных обеспечивают гибкость и скорость для наилучшей передачи данных в соответствии с потребностями бизнеса и управления данными.
В то время как плохо выполненные конвейеры данных приводят к увеличению сложности, затрат и рисков безопасности, внедрение хорошей архитектуры данных с хорошими инструментами данных максимизирует потенциал конвейеров данных в организации.
As Крис Глэдвин, соучредитель и генеральный директор Ocient, отмечает, конвейеры данных станут более важными для правильного приема самых разнообразных данных. Будущее принесет улучшения конвейера данных с более сложной интеграцией данных, которой будет легче управлять.
Изображение используется по лицензии от Shutterstock.com
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://www.dataversity.net/data-pipelines-an-overview/
- a
- О нас
- доступной
- через
- активный
- приспосабливать
- дополнение
- Дополнительно
- Добавляет
- корректировки
- против
- проворный
- AI
- алгоритмы
- Все
- Amazon
- Аналитики
- анализировать
- и
- и инфраструктура
- Другой
- появиться
- Приложения
- Применить
- архитектура
- прикреплять
- аудитории
- Автоматизированный
- автоматизация
- доступен
- избегающий
- AWS
- Лазурный
- фон
- Баланс
- , так как:
- становиться
- ЛУЧШЕЕ
- Лучшая
- BMC
- Разрыв
- брейки
- Приносит
- строить
- построенный
- бизнес
- бизнес
- призывают
- не могу
- возможности
- карта
- центральный
- Генеральный директор
- конечно
- проблемы
- изменение
- Канал
- каналы
- Выберите
- ближе
- облако
- облачные сервисы
- Соучредитель
- код
- собирать
- объединять
- как
- Компании
- Компания
- сложность
- Соответствие закону
- компьютер
- Свяжитесь
- Соединительный
- связи
- Коммутация
- связь
- вследствие этого
- Рассматривать
- потреблять
- продолжается
- способствовать
- контроль
- конвертировать
- Корпоративное
- Цена
- Расходы
- Создайте
- создали
- создание
- кредит
- кредитная карта
- критической
- клиент
- Служба поддержки игроков
- Клиенты
- данным
- Интеграция данных
- управление данными
- Платформа данных
- Подготовка данных
- обработка данных
- Качество данных
- безопасность данных
- информационное хранилище
- базы данных
- ДАТАВЕРСИЯ
- решения
- доставить
- обеспечивает
- поставка
- развертывание
- назначение
- застройщиков
- развивающийся
- различный
- Интернет
- непосредственно
- вниз
- динамический
- каждый
- легче
- экосистема
- эффективный
- эффективно
- появление
- сотрудников
- впритык
- обязательство
- Инженеры
- обеспечивать
- Предприятие
- предприятий
- Весь
- средах
- особенно
- существенный
- Эфир (ETH)
- пример
- Примеры
- существующий
- извлечение
- Лицо
- сталкиваются
- облегчающий
- завод
- FAIL
- БЫСТРО
- быстрее
- Найдите
- фиксированный
- Трансформируемость
- гибкого
- поток
- текущий
- Потоки
- после
- питание
- Год основания
- Рамки
- от
- Расстройства
- функция
- функционирование
- Более того
- слияние
- будущее
- Gain
- Gartner
- получить
- получающий
- Дайте
- Go
- хорошо
- товары
- управление
- Правительство
- Расти
- обрабатывать
- Медицина
- помощь
- High
- целостный
- Как
- HTML
- HTTPS
- Гибридный
- Гибридное облако
- IBM
- IBM Cloud
- определения
- Осуществляющий
- улучшение
- in
- включают
- включает в себя
- В том числе
- расширились
- повышение
- промышленность
- информация
- Инфраструктура
- вход
- понимание
- размышления
- интеграции.
- Умный
- взаимосвязанный
- в нашей внутренней среде,
- тонкости
- Грин- карта инвестору
- IT
- работа
- Сохранить
- Знать
- знания
- известный
- Отсутствие
- вести
- изучение
- уровень
- Используя
- Лицензия
- загрузка
- места
- Длинное
- Низкий
- машина
- обучение с помощью машины
- поддерживать
- Ремонтопригодный
- техническое обслуживание
- сделать
- ДЕЛАЕТ
- Создание
- управлять
- управляемого
- управление
- Менеджеры
- управляет
- многих
- мастер
- макс-ширина
- максимизирует
- Встречайте
- Метаданные
- Microsoft
- Microsoft Azure
- ML
- Модели
- Модерн
- модернизировать
- изменять
- Мониторинг
- БОЛЕЕ
- более эффективным
- самых
- двигаться
- движение
- движется
- перемещение
- с разными
- родной
- необходимо
- Необходимость
- необходимый
- потребности
- сеть
- Новые
- следующий
- Заметки
- ONE
- операционный
- оперативный
- оркестровка
- организация
- организации
- Другие контрактные услуги
- надзор
- обзор
- пакет
- коробок
- в паре
- части
- паттеранами
- трубопровод
- план
- Платформа
- Платформы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- сборах
- возможное
- потенциал
- практиками
- подготовка
- президент
- политикой конфиденциальности.
- процесс
- Процессы
- обработка
- Продукт
- Программы
- для защиты
- обеспечивать
- приводит
- обеспечение
- публично
- быстро
- Сырье
- необработанные данные
- доходит до
- реального времени
- правила
- замещать
- копирование
- Отчеты
- хранилище
- требовать
- Требования
- требуется
- исследованиям
- ресурс
- Полезные ресурсы
- результат
- рисках,
- надежный
- условиями,
- Сохранить
- масштабируемые
- масштабирование
- сканирование
- безопасный
- безопасность
- риски безопасности
- чувствительный
- Serverless
- обслуживание
- Услуги
- несколько
- СДВИГАЯ
- должен
- Shutterstock
- аналогичный
- замедляет
- So
- Software
- некоторые
- сложный
- Источник
- Источники
- пролеты
- специализироваться
- специализированный
- скорость
- тратить
- Спотовая торговля
- Персонал
- Начало
- Область
- хранить
- потоковый
- упорядочить
- Структура
- поддержки
- система
- системы
- взять
- переговоры
- Технический
- технологии
- Ассоциация
- Будущее
- информация
- Источник
- их
- сторонние
- три
- Через
- по всему
- в
- слишком
- инструментом
- инструменты
- к
- традиционный
- Transform
- превращение
- перевозки
- транспортирование
- путешествия
- ОЧЕРЕДЬ
- Типы
- нам
- под
- понимать
- UPS
- использование
- пользователей
- ценностное
- разнообразие
- различный
- поставщики
- Вид
- видимость
- Склады
- Что
- КТО
- широкий
- будете
- рабочие
- рабочий
- зефирнет