Лінію даних можна описати як історичну карту подорожі даних всередині організації. Варіанти використання, загалом, надають приклад того, як можна використовувати послуги або методи, а варіанти використання походження даних — це ситуації, у яких можна використовувати певну форму походження даних.
Інструменти походження даних значно полегшують відстеження походження даних. (Спроба виконати лінійку даних вручну є виснажливою та трудомісткою.)
Створення карт походження даних вимагає запису того, як дані були оброблені, перетворені та передані, і зазвичай використовується, щоб гарантувати, що рішення базуються на точних даних. Передача даних стала важливою частиною інтелектуального прийняття рішень для багатьох сучасних компаній. Однак відстеження потоку даних від джерела до місця призначення може бути складним.
Довіра до даних ґрунтується на розумінні того, звідки вони походять, як вони були перетворені та оброблені. Походження даних дозволяє організаціям побачити, як набори даних використовувалися та внесені зміни. Це дозволяє підприємствам зрозуміти та виправити будь-які помилки в їх джерелі. Підтримується програма визначення походження даних покращена якість даних.
Прийняття правильних рішень на основі даних вимагає можливості довіряти даним.
Розуміння різноманітних варіантів використання ліній даних, методів та інструментів може бути дуже корисним, перш ніж наймати підрядника або купувати програмне забезпечення. Вибір неправильного програмного забезпечення для походження даних може призвести до втрати часу та грошей і, зрештою, придбання більш відповідного програмного забезпечення. (У кінці цієї статті є посилання на інструменти визначення походження даних із відкритим кодом.)
Техніки та процеси походження даних
Лінія даних включає різноманітні інструменти та процеси. Сучасні компанії все більше покладаються на статистику в реальному часі, щоб покращити свою діяльність, бізнес-транзакції та відносини з клієнтами, але ця інформація залежить від розуміння даних. Є багато способів, якими менеджери та технічні спеціалісти можуть використовувати інструменти визначення походження даних для покращення робочих процесів.
- Автоматизація: Запис походження даних є автоматизованим процесом. Відстеження та запис походження даних вручну просто нереально за сьогоднішніми стандартами ефективності. Автоматизація також значно спрощує відповідність нормативним вимогам (GDPR, CCPA тощо), позначаючи дані як особисту ідентифікаційну інформацію (PII), дозволяючи позначати їх як конфіденційні чи приватні.
- Позначення даних: Дані, які були перетворені або переміщені, позначаються тегами. Потім мітки відстежуються від початку до кінця, забезпечуючи представлення походження. Це процес відстеження тегів, однак вимагає "інструмент послідовного перетворення”, який контролює переміщення всіх даних. (Узгодженість цього інструменту важлива – придбайте найкращий інструмент, який підходить для вашої системи.) Деякі інструменти керування тегами можна знайти тут.
- Розбір: Цей процес відстежує дані, фіксуючи зміни, коли дані обробляються, змінюються та переміщуються. Ця форма даних фіксує зміни в різних системах. однак, синтаксичний аналіз вимагає хорошого розуміння інструментів і мов програмування, які використовуються протягом життєвого циклу даних. Ця версія визначення походження даних значною мірою залежить від зчитування логіки (процесу аналізу рядка символів), яка використовується під час обробки даних.
- Перегляд джерел метаданих: Інструменти походження даних використовувати метадані створити візуальне представлення потоку даних, що дозволяє користувачам бачити, як дані перетворюються та використовуються в усій організації. Доступні інструменти та додатки для визначення походження даних, які можуть перевіряти джерела метаданих і використовуватися для виявлення причин помилок у наборах даних.
- Родовід на основі шаблону: Замість роботи з кодом ця форма походження даних записує шаблони. Родовід на основі шаблону покладається на метадані для розробки шаблонів походження. Основна перевага цього методу полягає в тому, що для обробки даних не потрібні мови програмування. Відстежуються дані, а не мовні алгоритми.
Випадки використання для походження даних
Незважаючи на те, що походження даних має важливе значення для розробки високоякісних даних, існує безліч варіантів і методів використання походження даних. Кожна з моделей варіантів використання лінії даних надає різні послуги.
- Аналіз проблем із даними: Джерело проблем із даними можна швидко й ефективно відстежити за допомогою записів походження даних. Він може виявити проблеми з даними, відстежуючи, як дані проходять через системи організації. Цей процес може бути особливо корисним у складних середовищах даних із використанням даних, зібраних із різних систем. (Він також може реєструвати зміни даних з часом, виявляючи аномалії або шаблони, які можуть вказувати на проблему.)
- Очищення даних: Лінію даних також можна використовувати для очищення системи даних, архівуючи дані або видаляючи їх, оскільки вони застарілі або неактуальні. (Це може покращити загальну продуктивність системи даних шляхом зменшення обсягу даних, що зберігаються.)
- Відповідність: Лінію даних можна використовувати, щоб перевірити проблеми відповідності, покращити управління ризиками та забезпечити обробку та зберігання даних відповідно до інструкцій з управління даними.
- Моделювання даних: Організації можуть використовувати походження даних для цілей моделювання даних. Він може надати інформацію, необхідну для візуального представлення різних компонентів даних та їх зв’язків. Зв’язки між компонентами даних можна показати в моделі, щоб показати залежності, наявні в усій екосистемі даних.
- Якість даних: Дані постійно змінюються. Система походження даних надає детальну інформацію про життєвий цикл і розташування джерел даних. Він відстежує дані з джерела та дозволяє компаніям перевіряти їх трансформації та надійність.
- Пошук помилок: Лінію даних можна використовувати для виявлення неправильних припущень щодо даних, визначення місцезнаходження помилки та дозволу її виправити.
- Аналіз впливу: Лінію даних можна використовувати для створення детальної оцінки впливу. Вихідні та низхідні ефекти, спричинені будь-якими конкретними модифікаціями, можуть бути виявлені за допомогою використання лінійних даних.
- Перенесення даних: Коли дані переміщуються в нову або іншу систему зберігання, організації використовують процес міграції даних, щоб вказати розташування та життєвий цикл даних. Оскільки походження даних показує, як дані проходять через організацію, його можна використовувати для допомоги на етапі планування міграції та оновлення даних.
- Більш ефективні DataOps: Краще розуміння походження даних допомагає оптимізувати операції з даними та уникнути помилок.
Реальні випадки використання родовідних даних
Деякі великі компанії, такі як Airbnb, Netflix, UBS, Slack і Postman, тепер використовують дані про походження даних і збільшують прибуток у цьому процесі. Ці компанії провели дослідження та вирішили, що варто встановити програмне забезпечення для визначення походження даних. Їм потрібні були надійні дані для прийняття правильних рішень. Лінія даних забезпечує видимість, необхідну для ефективної роботи з міграціями даних, оновленнями системи та помилками, забезпечуючи цілісність даних протягом усього життєвого циклу даних.
Індустрія ліній даних є досить новою, і, як наслідок, все ще є трохи дорогою. Низка великих підприємств має найнятих підрядників розробляти та встановлювати системи ліній даних.
Одним із реальних прикладів використання лінії даних є British Airways та її реакція на порушення даних. У вересні 2018 року British Airways постраждала від витоку даних 380,000 XNUMX клієнтів щодо їхніх кредитних карток та особистої інформації. Використовуючи походження даних, вони могли відстежити злом до шкідливого сценарію на своєму веб-сайті. Відстеживши дані до сценарію, вони швидко виявили та усунули проблему.
Ще один реальний приклад використання лінійних даних – Air France, яка зіткнулася з проблемами з обробкою та розділенням даних. Їхній бізнес зріс до такого рівня, коли вони обробляли понад 2.5 мільйона нових відвідувачів на своєму веб-сайті, і відслідковувати всі ці дані з їхніх різних баз даних стало дуже важко. Air France у партнерстві з Talend розробила нову систему розподілу даних, яка дозволила компанії та її дослідникам даних надавати персоналізовану рекламу та оновлення в реальному часі. Вони зробили це, не порушуючи норм GDPR.
Хочете дізнатися більше про використання даних? Ось декілька стандартизовані програми визначення походження даних. Є також деякі програми з відкритим вихідним кодом.
Зображення використовується за ліцензією Shutterstock.com
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- EVM Фінанси. Уніфікований інтерфейс для децентралізованих фінансів. Доступ тут.
- Quantum Media Group. ІЧ/ПР посилений. Доступ тут.
- PlatoAiStream. Web3 Data Intelligence. Розширення знань. Доступ тут.
- джерело: https://www.dataversity.net/data-lineage-use-cases/
- : має
- :є
- : ні
- :де
- $UP
- 000
- 000 клієнтів
- 2018
- 224
- 300
- a
- Здатний
- МЕНЮ
- точний
- через
- Перевага
- реклама
- зачіпає
- AIR
- Airbnb
- дихальні шляхи
- алгоритми
- ВСІ
- Дозволити
- дозволяє
- Також
- змінений
- an
- аналіз
- Аналізуючи
- та
- будь-який
- застосування
- відповідний
- ЕСТЬ
- стаття
- AS
- оцінки
- припущення
- At
- спроба
- Автоматизований
- доступний
- уникнути
- назад
- заснований
- BE
- оскільки
- ставати
- було
- перед тим
- буття
- КРАЩЕ
- Краще
- між
- порушення
- Британський
- британські дихальні шляхи
- помилки
- бізнес
- підприємства
- але
- by
- CAN
- захвати
- захопивши
- карта
- випадок
- випадків
- викликаний
- CCPA
- Зміни
- Очищення
- код
- зазвичай
- Компанії
- компанія
- комплекс
- дотримання
- складний
- Компоненти
- Зв'язки
- постійно
- Підрядник
- управління
- виправити
- виправлений
- може
- створювати
- кредит
- кредитна картка
- клієнт
- Клієнти
- дані
- Дані порушення
- обробка даних
- набори даних
- базами даних
- набори даних
- ПЕРЕДАЧА
- угода
- вирішене
- Прийняття рішень
- рішення
- доставляти
- описаний
- призначені
- призначення
- докладно
- виявлено
- розвивати
- розвиненою
- розробка
- DID
- різний
- відрізняються
- важкий
- кожен
- легше
- екосистема
- фактично
- ефекти
- ефективність
- ефективний
- продуктивно
- кінець
- забезпечувати
- забезпечення
- середовищах
- помилка
- помилки
- істотний
- і т.д.
- евентуально
- досліджувати
- приклад
- дорогий
- експрес
- стикаються
- достатньо
- закінчення
- відповідати
- потік
- Потоки
- для
- форма
- Франція
- від
- GDPR
- Загальне
- отримати
- добре
- управління
- вирощений
- керівні вказівки
- було
- Мати
- сильно
- допомога
- допомагає
- тут
- високоякісний
- Шарнір
- Наймання
- історичний
- хіт
- Як
- Однак
- HTTPS
- ідентифікований
- ідентифікувати
- Impact
- важливо
- удосконалювати
- in
- includes
- зростаючий
- все більше і більше
- вказувати
- промисловість
- інформація
- інформація
- розуміння
- встановлювати
- цілісність
- Розумний
- питання
- питання
- IT
- ЙОГО
- подорож
- JPG
- зберігання
- мова
- мови
- великий
- більше
- УЧИТЬСЯ
- дозволяє
- Важіль
- використання
- ліцензія
- Життєвий цикл
- життєві цикли
- LINK
- трохи
- розташування
- місць
- логіка
- made
- зробити
- РОБОТИ
- управління
- Інструменти управління
- Менеджери
- вручну
- багато
- карта
- карти
- маркування
- макс-ширина
- метадані
- методика
- може бути
- міграція
- мільйона
- модель
- моделювання
- Моделі
- сучасний
- Поправки
- гроші
- контрольований
- більше
- переїхав
- руху
- багато
- Необхідність
- необхідний
- Netflix
- Нові
- немає
- зараз
- номер
- of
- Старий
- on
- з відкритим вихідним кодом
- операції
- or
- організація
- організації
- над
- загальний
- частина
- особливо
- партнерська
- моделі
- виконувати
- продуктивність
- персонал
- Персоналізовані
- фаза
- пій
- планування
- plato
- Інформація про дані Платона
- PlatoData
- точка
- представити
- подарунки
- первинний
- приватний
- Проблема
- проблеми
- процес
- оброблена
- процеси
- обробка
- прибутку
- програма
- Програмування
- мови програмування
- забезпечувати
- забезпечує
- забезпечення
- покупка
- покупка
- цілей
- якість
- швидко
- читання
- Реальний світ
- реального часу
- реалістичний
- Причини
- запис
- запис
- облік
- зниження
- про
- правила
- регуляторні
- Відповідність нормативам
- відносини
- надійний
- покладатися
- подання
- вимагається
- Вимагається
- дослідження
- відповідь
- результат
- Відгуки
- Risk
- управління ризиками
- ПАР
- Вчені
- побачити
- вибирає
- Вересень
- Послуги
- набори
- Показувати
- показ
- показаний
- shutterstock
- сторона
- просто
- ситуацій
- слабкий
- Софтвер
- деякі
- Source
- Джерела
- конкретний
- стандартів
- старт
- Як і раніше
- зберігання
- зберігати
- раціоналізувати
- рядок
- такі
- Опори
- система
- Systems
- методи
- ТЕХНІКИ
- Що
- Команда
- інформація
- Джерело
- їх
- потім
- Там.
- Ці
- вони
- це
- ті
- через
- по всьому
- час
- трудомісткий
- до
- сьогоднішній
- інструмент
- інструменти
- простежувати
- Простеження
- трек
- Відстеження
- Transactions
- Перетворення
- перетворень
- перетворений
- Довіряйте
- UBS
- при
- розуміти
- розуміння
- Updates
- оновлення
- на
- використання
- використання випадку
- використовуваний
- користувачі
- використання
- різноманітність
- різний
- перевірити
- версія
- дуже
- видимість
- відвідувачів
- обсяг
- було
- способи
- веб-сайт
- були
- коли
- який
- з
- в
- без
- Робочі процеси
- робочий
- варто
- Неправильно
- вашу
- зефірнет