Mengatasi Dunia yang Dibanjiri Data Kotor

Mengatasi Dunia yang Dibanjiri Data Kotor

Node Sumber: 2574986

Seperti virus yang tidak terlihat, “data kotor” menjangkiti dunia bisnis saat ini. Artinya, data yang tidak akurat, tidak lengkap, dan tidak konsisten semakin banyak jumlahnya di dunia yang berpusat pada “data besar”.

Bekerja dengan data kotor merugikan perusahaan jutaan dolar setiap tahunnya. Hal ini menurunkan efisiensi dan efektivitas departemen-departemen di seluruh perusahaan dan membatasi upaya untuk tumbuh dan berkembang. Hal ini menghambat daya saing, meningkatkan risiko keamanan, dan menimbulkan masalah kepatuhan.

Mereka yang bertanggung jawab Manajemen data telah bergulat dengan tantangan ini selama bertahun-tahun. Banyak dari alat yang tersedia saat ini dapat mengatasi masalah Manajemen Data untuk tim yang terpisah dalam departemen, namun tidak untuk perusahaan secara keseluruhan atau untuk ekosistem data yang lebih luas. Yang lebih buruk lagi, alat-alat ini seringkali menghasilkan lebih banyak data yang harus dikelola – dan data tersebut juga bisa menjadi kotor, sehingga menyebabkan lebih banyak masalah dan hilangnya pendapatan.

Memahami Data Kotor

Data kotor mengacu pada data apa pun yang menyesatkan, duplikat, tidak benar atau tidak akurat, belum terintegrasi, melanggar aturan bisnis, formatnya kurang seragam, atau mengandung kesalahan tanda baca atau ejaan.

Untuk memahami bagaimana data kotor tersebar luas dalam beberapa dekade terakhir, bayangkan skenario berikut: 

Pemberi pinjaman di sebuah bank besar menjadi bingung ketika mereka mengetahui bahwa hampir semua nasabah bank tersebut adalah astronot. Mengingat NASA hanya memiliki a beberapa lusin astronot, ini tidak masuk akal. 

Setelah eksplorasi lebih lanjut, departemen peminjaman menemukan bahwa petugas bank yang membuka rekening baru telah memasukkan “astronot” ke dalam bidang pekerjaan pelanggan. Pemberi pinjaman mengetahui bahwa uraian tugas tidak relevan dengan rekan mereka yang bertanggung jawab atas rekening baru. Petugas bank telah memilih “astronot”, opsi pertama yang tersedia, agar dapat bergerak lebih cepat dalam membuat rekening baru.

Namun, pemberi pinjaman harus mencatat pekerjaan pelanggannya yang benar untuk mendapatkan bonus tahunan. Untuk memperbaiki situasi ini, departemen peminjaman mengembangkan database tersendiri. Mereka menghubungi setiap pelanggan, mempelajari pekerjaan yang benar, dan memasukkannya ke dalam database mereka.

Kini, bank tersebut memiliki dua database dengan informasi yang pada dasarnya sama, selain dari satu bidang. Jika departemen ketiga ingin mengakses informasi dalam database tersebut, tidak ada sistem untuk menentukan database mana yang akurat. Jadi, departemen ketiga itu mungkin juga membuat databasenya sendiri.

Skenario serupa telah terjadi di organisasi-organisasi nasional selama beberapa dekade.

TPA Data Digital yang Berkembang

Masalahnya dimulai pada tahun 1990an dengan transformasi digital ledakan. Perusahaan menerapkan perangkat lunak perusahaan untuk meningkatkan proses bisnis mereka. Produk perangkat lunak sebagai layanan dari Salesforce, misalnya, memungkinkan cara yang lebih baik untuk mengelola sistem penjualan dan pemasaran.

Namun 30 tahun kemudian, infrastruktur lama tersebut telah mengakibatkan mimpi buruk Manajemen Data. Penyimpanan data yang berbeda-beda dengan tumpukan informasi yang duplikat, tidak lengkap, dan salah menghiasi lanskap korporasi dan sektor publik. Silo tersebut terdiri dari lini bisnis, geografi, dan fungsi yang masing-masing memiliki dan mengawasi sumber datanya.

Selain itu, perolehan data telah meningkat secara eksponensial selama beberapa dekade. Setiap proses bisnis kini memerlukan perangkat lunaknya sendiri, yang menghasilkan lebih banyak data. Aplikasi mencatat setiap tindakan di database aslinya, dan hambatan dalam menambang aset data yang baru dibuat telah muncul.

Pada dekade-dekade sebelumnya, kosakata yang mendefinisikan data bersifat spesifik untuk proses bisnis yang menciptakannya. Para insinyur harus menerjemahkan leksikon tersebut ke dalam kamus terpisah untuk sistem yang menggunakan data. Jaminan kualitas biasanya tidak ada. Seperti contoh astronot di atas, data yang dapat digunakan oleh satu fungsi bisnis tidak dapat digunakan oleh fungsi bisnis lainnya. Dan aksesibilitas ke data dari proses bisnis asli sangat terbatas, terutama untuk fungsi-fungsi yang mungkin bisa mencapai optimalisasi.

Teka-Teki Penyalinan

Untuk mengatasi masalah ini, para insinyur mulai membuat salinan database asli karena, hingga saat ini, ini merupakan pilihan terbaik yang tersedia. Mereka kemudian mengubah salinan tersebut untuk memenuhi persyaratan fungsi penggunaan, menerapkan aturan Kualitas Data dan logika remediasi yang eksklusif untuk fungsi penggunaan. Mereka membuat banyak salinan dan memuatnya ke beberapa gudang data dan sistem analitik.

Hasilnya? Meluapnya salinan kumpulan data yang terbaca “kotor” di beberapa bagian organisasi, menyebabkan kebingungan mengenai salinan mana yang benar. Perusahaan saat ini memiliki ratusan salinan data sumber di seluruh penyimpanan data operasional, database, gudang data, data lake, sandbox analitik, dan spreadsheet dalam pusat data dan beberapa cloud. Namun, kepala petugas informasi dan kepala data tidak mempunyai kendali atas jumlah salinan yang dihasilkan atau mengetahui versi mana yang mewakili sumber kebenaran yang sebenarnya.

Sejumlah produk perangkat lunak Tata Kelola Data tersedia untuk mengatasi kekacauan ini. Itu termasuk katalog data, sistem pengukuran Kualitas Data dan penyelesaian masalah, sistem manajemen data referensi, sistem manajemen data master, penemuan garis keturunan data, dan sistem manajemen.

Namun solusi tersebut mahal dan memakan waktu. Proyek manajemen data master pada umumnya untuk mengintegrasikan data pelanggan dari berbagai sumber data dari lini produk yang berbeda dapat memakan waktu bertahun-tahun dan menghabiskan biaya jutaan dolar. Pada saat yang sama, volume data kotor meningkat dengan kecepatan yang melebihi upaya organisasi dalam menerapkan kontrol dan tata kelola.

Pendekatan-pendekatan ini penuh dengan kelemahan. Mereka mengandalkan proses manual, logika pengembangan, atau aturan bisnis untuk melaksanakan tugas menginventarisasi, mengukur, dan memulihkan data. 

Memulihkan Kontrol

Tiga teknologi baru yang paling cocok untuk mengatasi kesulitan saat ini: Tata Kelola Data yang digerakkan oleh AI dan pembelajaran mesin, platform interoperabilitas semantik seperti grafik pengetahuan, dan sistem distribusi data seperti buku besar terdistribusi: 

1. Solusi Tata Kelola Data berbasis AI dan pembelajaran mesin mengurangi ketergantungan pada orang dan kode. AI dan pembelajaran mesin menggantikan pekerjaan manual dengan tindakan yang mencakup pemberian tag otomatis, pengorganisasian, dan pengawasan sejumlah besar data. Transformasi dan migrasi Manajemen Data mengurangi biaya TI. Organisasi juga dapat membangun arsitektur yang lebih kuat dan berkelanjutan yang mendorong Kualitas Data dalam skala besar.

2. Grafik pengetahuan memungkinkan interoperabilitas asli dari aset data yang berbeda sehingga informasi dapat digabungkan dan dipahami dalam format yang sama. Dengan memanfaatkan ontologi semantik, organisasi dapat menyediakan data masa depan dengan konteks dan format umum untuk digunakan kembali oleh banyak pemangku kepentingan.

3. Buku besar terdistribusi, privasi diferensial, dan virtualisasi menghilangkan kebutuhan untuk menyalin data secara fisik. Buku besar terdistribusi terdiri dari database gabungan dan terkelola yang dapat digunakan di seluruh unit bisnis dan organisasi. Privasi diferensial memungkinkan untuk menutupi data agar mematuhi persyaratan kepatuhan, sekaligus membagikannya kepada pemangku kepentingan. Virtualisasi memungkinkan pemutaran data dalam lingkungan virtual, bukan fisik.

Setelah CIO dan CDO memahami bahwa akar masalahnya adalah infrastruktur lama yang menciptakan silo data, mereka dapat meningkatkan arsitektur dasar dan strategi infrastruktur data.

Data kotor membatasi kemampuan organisasi untuk membuat keputusan yang tepat dan beroperasi dengan tepat dan gesit. Organisasi harus mengendalikan data mereka dan mendorong interoperabilitas, kualitas, dan aksesibilitas data. Melakukan hal ini akan memberikan keunggulan kompetitif dan menghapus kerentanan keamanan dan kepatuhan.

Stempel Waktu:

Lebih dari DATAVERSITAS