Kirli Verilerle Dolu Bir Dünyanın Üstesinden Gelmek

Kirli Verilerle Dolu Bir Dünyanın Üstesinden Gelmek

Kaynak Düğüm: 2574986

Görünmez bir virüs gibi, "kirli veriler" günümüzün iş dünyasının başına dert oluyor. Yani günümüzün “büyük veri” merkezli dünyasında hatalı, eksik ve tutarsız veriler hızla çoğalıyor.

Kirli verilerle çalışmak şirketlere yılda milyonlarca dolara mal oluyor. İşletmeyi kapsayan departmanların verimliliğini ve etkinliğini azaltır ve büyüme ve ölçeklendirme çabalarını azaltır. Rekabet gücünü engeller, güvenlik risklerini artırır ve uyumluluk sorunları yaratır.

Sorumlu olanlar Veri yönetimi yıllardır bu zorlukla boğuşuyoruz. Şu anda mevcut olan araçların çoğu, departmanlardaki silolanmış ekipler için Veri Yönetimi sorunlarını çözebilir, ancak genel olarak şirket veya daha geniş veri ekosistemleri için bu mümkün değildir. Daha da kötüsü, bu araçlar sıklıkla yönetilmesi gereken daha fazla veri oluşmasına neden olur ve bu veriler de kirlenerek daha fazla baş ağrısına ve gelir kaybına neden olabilir.

Kirli Verileri Anlamak

kirli veri herhangi bir veriyi ifade eder yanıltıcı, mükerrer, yanlış veya kusurlu, henüz entegre edilmemiş, iş kurallarını ihlal eden, tekdüze biçimlendirmeden yoksun veya noktalama işaretleri veya yazım hataları içeren.

Son yıllarda kirli verilerin ne kadar yaygın hale geldiğini anlamak için aşağıdaki senaryoyu hayal edin: 

Büyük bir bankadaki kredi verenler, banka müşterilerinin neredeyse tamamının astronot olduğunu keşfettiklerinde şaşkına dönerler. NASA'nın yalnızca bir birkaç düzine astronot, Bu hiçbir anlam ifade etmiyor. 

Kredi verme departmanı, daha fazla araştırma yaptığında, yeni hesap açan banka görevlilerinin müşteri meslek alanına "astronot" eklediğini keşfeder. Borç verenler, iş tanımının yeni hesaplardan sorumlu meslektaşları açısından alakasız olduğunu öğrenirler. Banka memurları, yeni hesap oluşturmada daha hızlı hareket etmek için mümkün olan ilk seçenek olan "astronot"u seçiyorlardı.

Ancak kredi verenlerin yıllık primlerini alabilmeleri için müşterilerinin doğru mesleklerini kayıt altına almaları gerekiyor. Bu durumu düzeltmek için kredi departmanı kendi ayrı veri tabanını geliştirir. Her müşteriyle iletişime geçiyor, doğru mesleği öğreniyor ve bunu veri tabanlarına ekliyorlar.

Artık bankanın bir alan dışında temelde aynı bilgileri içeren iki veri tabanı var. Eğer üçüncü bir birim bu veri tabanlarındaki bilgilere ulaşmak isterse hangi veri tabanının doğru olduğunu belirleyecek bir sistem mevcut değildir. Yani üçüncü departman da kendi veri tabanını oluşturabilir.

Benzer senaryolar onlarca yıldır ülke çapındaki kuruluşlarda yaşanıyor.

Büyüyen Dijital Veri Depolama Alanları

Sorun 1990'lı yıllarda başladı dijital dönüşüm Boom. Şirketler iş süreçlerini iyileştirmek için kurumsal yazılımları kullanmaya başladı. Örneğin Salesforce'un hizmet olarak yazılım ürünleri, satış ve pazarlama sistemlerini yönetmenin daha iyi yollarını mümkün kıldı.

Ancak 30 yıl sonra bu tür eski altyapı, Veri Yönetimi kabusuyla sonuçlandı. Kurumsal ve kamu sektörü ortamlarında çok sayıda yinelenen, eksik ve yanlış bilgi içeren farklı veri siloları yer alıyor. Bu silolar, sırasıyla veri kaynaklarına sahip olan ve bunları denetleyen iş kollarını, coğrafyaları ve fonksiyonları içerir.

Bunun ötesinde, veri üretimi on yıllar boyunca katlanarak arttı. Artık her iş süreci kendi yazılımını gerektiriyor ve giderek daha fazla veri üretiyor. Uygulamalar her eylemi kendi yerel veritabanlarına kaydeder ve yeni oluşturulan veri varlıklarını incelemenin önündeki engeller ortaya çıktı.

Önceki yıllarda, verileri tanımlayan kelime dağarcığı, onu yaratan iş sürecine özeldi. Mühendislerin bu sözlükleri, verileri tüketen sistemler için ayrı sözlüklere çevirmeleri gerekiyordu. Kalite garantileri genellikle mevcut değildi. Yukarıdaki astronot örneğinde olduğu gibi, bir iş fonksiyonu tarafından kullanılabilen veriler, başkaları tarafından kullanılamaz durumdaydı. Orijinal iş süreçlerinden gelen verilere erişim, en iyi ihtimalle, aksi takdirde optimizasyona ulaşabilecek işlevler için sınırlıydı.

Kopyalama Bilmecesi

Bu sorunu çözmek için mühendisler orijinal veritabanlarının kopyalarını oluşturmaya başladılar çünkü yakın zamana kadar bu mevcut en iyi seçenekti. Daha sonra bu kopyaları tüketim fonksiyonunun gereksinimlerini karşılayacak şekilde dönüştürdüler, Veri Kalitesi kurallarını ve tüketim fonksiyonuna özel iyileştirme mantığını uyguladılar. Çok sayıda kopya çıkardılar ve bunları birden fazla veri ambarına ve analiz sistemine yüklediler.

Sonuç? Kuruluşun bazı bölümlerine "kirli" olarak okunan veri kümesi kopyalarının taşması, hangi kopyanın doğru olduğu konusunda kafa karışıklığına neden oluyor. Günümüzde şirketler, operasyonel veri depoları, veritabanları, veri ambarları, veri gölleri, analitik sanal alanları ve veri merkezleri ile birden fazla bulut içindeki elektronik tablolar genelinde yüzlerce kaynak veri kopyasına sahiptir. Ancak baş bilgi sorumluları ve baş veri sorumluları, ne oluşturulan kopya sayısı üzerinde kontrole sahiptir ne de hangi sürümün gerçek bir gerçeğin kaynağını temsil ettiğine dair bilgi sahibidir.

Bu karışıklığa bir miktar düzen getirmek için bir dizi Veri Yönetişimi yazılım ürünü mevcuttur. Bunlara veri katalogları, Veri Kalitesi ölçümü ve sorun çözüm sistemleri, referans veri yönetimi sistemleri, ana veri yönetimi sistemleri, veri kökeni keşfi ve yönetim sistemleri dahildir.

Ancak bu çözümler pahalıdır ve zaman alıcıdır. Farklı ürün gruplarından birden fazla veri kaynağından gelen müşteri verilerini entegre etmeye yönelik tipik bir ana veri yönetimi projesi yıllar alabilir ve milyonlarca dolara mal olabilir. Aynı zamanda kirli veri hacmi, organizasyonun kontrol ve yönetişim kurma çabalarını geride bırakacak bir hızla artıyor.

Bu yaklaşımlar kusurlarla doludur. Verilerin envanterinin çıkarılması, ölçülmesi ve düzeltilmesi görevlerini yürütmek için manuel süreçlere, geliştirme mantığına veya iş kurallarına güvenirler. 

Kontrolü Kurtarma

Yeni ortaya çıkan üç teknoloji mevcut çıkmazın üstesinden gelmek için en uygun teknolojidir: Yapay zeka ve makine öğrenimi odaklı Veri Yönetişimi, bilgi grafikleri gibi anlamsal birlikte çalışabilirlik platformları ve dağıtılmış defterler gibi veri dağıtım sistemleri: 

1. Yapay zeka ve makine öğrenimi odaklı Veri Yönetişimi çözümleri insanlara ve kodlara olan bağımlılığı azaltın. Yapay zeka ve makine öğrenimi, manuel çalışmanın yerini, büyük miktarda veriyi otomatik etiketlemeyi, organize etmeyi ve denetlemeyi içeren eylemlerle değiştirir. Veri Yönetimi dönüşümü ve geçişi BT maliyetlerini azaltır. Kuruluşlar aynı zamanda Veri Kalitesini geniş ölçekte teşvik eden daha sağlam ve sürdürülebilir mimariler de oluşturabilir.

2. Bilgi grafikleri Bilgilerin ortak bir format altında birleştirilip anlaşılabilmesi için farklı veri varlıklarının yerel olarak birlikte çalışabilmesine olanak tanır. Anlamsal ontolojilerden yararlanarak kuruluşlar, birden fazla paydaş tarafından yeniden kullanılmak üzere bağlam ve ortak bir formata sahip verileri geleceğe hazırlayabilir.

3. Dağıtılmış defterler, diferansiyel gizlilik ve sanallaştırma Verilerin fiziksel olarak kopyalanması ihtiyacını ortadan kaldırır. Dağıtılmış defterler, iş birimleri ve kuruluşlar arasında kullanılabilen birleşik ve yönetilen veritabanlarından oluşur. Farklı gizlilik, verilerin uyumluluk gereksinimlerine uyacak şekilde maskelenmesine ve aynı zamanda paydaşlarla paylaşılmasına olanak tanır. Sanallaştırma, verilerin fiziksel ortamdan ziyade sanal ortamda döndürülmesine olanak tanır.

CIO'lar ve CDO'lar sorunun kökeninin veri siloları oluşturan eski altyapı olduğunu anladıktan sonra, temel mimarileri ve veri altyapısı stratejilerini geliştirebilirler.

Kirli veriler, bir kuruluşun bilinçli kararlar alma ve hassasiyet ve çeviklikle çalışma yeteneğini sınırlar. Kuruluşlar verilerinin kontrolünü ele almalı ve verilerin birlikte çalışabilirliğini, kalitesini ve erişilebilirliğini teşvik etmelidir. Bunu yapmak rekabet avantajı sağlayacak ve güvenlik ve uyumluluk açıklarını ortadan kaldıracaktır.

Zaman Damgası:

Den fazla VERİLER