নোংরা ডেটাতে একটি ওয়ার্ল্ড ওয়াশ অতিক্রম করা

নোংরা ডেটাতে একটি ওয়ার্ল্ড ওয়াশ অতিক্রম করা

উত্স নোড: 2574986

একটি অদৃশ্য ভাইরাসের মতো, "নোংরা তথ্য" আজকের ব্যবসায়িক বিশ্বে জর্জরিত। অর্থাৎ, আজকের "বিগ ডেটা"-কেন্দ্রিক বিশ্বে ভুল, অসম্পূর্ণ এবং অসামঞ্জস্যপূর্ণ ডেটা প্রসারিত হচ্ছে।

নোংরা ডেটা নিয়ে কাজ করার জন্য কোম্পানিগুলিকে বার্ষিক মিলিয়ন ডলার খরচ করে। এটি এন্টারপ্রাইজে বিস্তৃত বিভাগগুলির দক্ষতা এবং কার্যকারিতা হ্রাস করে এবং বৃদ্ধি এবং স্কেল করার প্রচেষ্টাকে হ্রাস করে। এটি প্রতিযোগিতামূলকতাকে বাধাগ্রস্ত করে, নিরাপত্তা ঝুঁকি বাড়ায় এবং সম্মতি সমস্যা উপস্থাপন করে।

যারা দায়িত্বে আছেন ডাটা ব্যাবস্থাপনা বছরের পর বছর ধরে এই চ্যালেঞ্জ মোকাবেলা করেছি। বর্তমানে উপলব্ধ সরঞ্জামগুলির মধ্যে অনেকগুলি বিভাগগুলির মধ্যে সাইলড টিমের জন্য ডেটা ম্যানেজমেন্ট সমস্যাগুলি সমাধান করতে পারে, তবে বৃহত্তর সংস্থার জন্য বা বৃহত্তর ডেটা ইকোসিস্টেমের জন্য নয়। আরও খারাপ, এই সরঞ্জামগুলি প্রায়শই আরও বেশি ডেটা তৈরি করে যা পরিচালনা করতে হবে - এবং সেই ডেটাও নোংরা হয়ে যেতে পারে, আরও মাথাব্যথা এবং রাজস্ব ক্ষতির কারণ হতে পারে।

নোংরা ডেটা বোঝা

নোংরা তথ্য কোন তথ্য বোঝায় যা বিভ্রান্তিকর, সদৃশ, ভুল বা বেঠিক, এখনও সমন্বিত নয়, ব্যবসা-নিয়ম-লঙ্ঘনকারী, অভিন্ন বিন্যাসের অভাব, বা যতিচিহ্ন বা বানানে ত্রুটি রয়েছে।

সাম্প্রতিক দশকগুলিতে কীভাবে নোংরা ডেটা সর্বব্যাপী হয়ে উঠেছে তা বোঝার জন্য, নিম্নলিখিত দৃশ্যকল্পটি কল্পনা করুন: 

একটি বৃহৎ ব্যাঙ্কের ঋণদাতারা বিভ্রান্ত হয়ে পড়ে যখন তারা আবিষ্কার করে যে ব্যাঙ্কের প্রায় সমস্ত গ্রাহকই মহাকাশচারী। বিবেচনা করে নাসা শুধুমাত্র একটি কয়েক ডজন মহাকাশচারী, এর কোন মানে নেই. 

আরও অনুসন্ধানের পর, ঋণদান বিভাগ আবিষ্কার করে যে নতুন অ্যাকাউন্ট খোলার জন্য ব্যাংক কর্মকর্তারা গ্রাহকের পেশার ক্ষেত্রে "নভোচারী" সন্নিবেশ করাচ্ছেন। ঋণদাতারা শিখেছেন যে নতুন অ্যাকাউন্টের জন্য দায়ী তাদের সমকক্ষদের কাজের বিবরণ অপ্রাসঙ্গিক। ব্যাঙ্ক অফিসাররা "মহাকাশচারী" বেছে নিয়েছিলেন, প্রথম উপলব্ধ বিকল্পটি, সহজভাবে নতুন অ্যাকাউন্ট তৈরিতে আরও দ্রুত এগিয়ে যাওয়ার জন্য।

তবে ঋণদাতাদের অবশ্যই তাদের বার্ষিক বোনাস পাওয়ার জন্য তাদের গ্রাহকদের সঠিক পেশা রেকর্ডে থাকতে হবে। পরিস্থিতির প্রতিকারের জন্য, ঋণ প্রদান বিভাগ তার নিজস্ব, পৃথক ডাটাবেস তৈরি করে। তারা প্রতিটি গ্রাহকের সাথে যোগাযোগ করে, সঠিক পেশা শিখে এবং এটি তাদের ডাটাবেসে সন্নিবেশ করে।

এখন, ব্যাঙ্কের কাছে একটি ক্ষেত্র বাদে মূলত একই তথ্য সহ দুটি ডাটাবেস রয়েছে। যদি একটি তৃতীয় বিভাগ সেই ডাটাবেসের তথ্য অ্যাক্সেস করতে চায়, কোন ডাটাবেস সঠিক তা নির্ধারণ করার জন্য কোন সিস্টেম বিদ্যমান নেই। সুতরাং, সেই তৃতীয় বিভাগটি তার নিজস্ব ডাটাবেস তৈরি করতে পারে।

কয়েক দশক ধরে দেশব্যাপী সংগঠনগুলিতে একই রকম পরিস্থিতি দেখা দিয়েছে।

বর্জনিং ডিজিটাল-ডেটা ল্যান্ডফিল

ঝামেলা শুরু হয়েছিল 1990 এর সাথে ডিজিটাল রূপান্তর বুম কোম্পানিগুলো তাদের ব্যবসায়িক প্রক্রিয়া উন্নত করতে এন্টারপ্রাইজ সফটওয়্যার স্থাপন করেছে। Salesforce থেকে সফ্টওয়্যার-এ-একটি-পরিষেবা পণ্য, উদাহরণস্বরূপ, বিক্রয় এবং বিপণন সিস্টেমগুলি পরিচালনা করার আরও ভাল উপায়গুলি সক্ষম করে৷

কিন্তু 30 বছর পরে, এই ধরনের উত্তরাধিকার পরিকাঠামো একটি ডেটা ম্যানেজমেন্ট দুঃস্বপ্নের পরিণতি পেয়েছে। সদৃশ, অসম্পূর্ণ, এবং ভুল তথ্যের রমর সাথে কর্পোরেট এবং পাবলিক-সেক্টরের ল্যান্ডস্কেপগুলিকে মরিচ দিয়ে বিচ্ছিন্ন ডেটা সাইলো। এই সাইলোগুলিতে ব্যবসা, ভৌগলিক এবং ফাংশনগুলির লাইন রয়েছে যা যথাক্রমে তাদের ডেটা উত্সগুলির মালিক এবং তত্ত্বাবধান করে৷

এর বাইরে, কয়েক দশক ধরে ডেটা জেনারেশন দ্রুতগতিতে বৃদ্ধি পেয়েছে। প্রতিটি ব্যবসায়িক প্রক্রিয়ার জন্য এখন তার নিজস্ব সফ্টওয়্যার প্রয়োজন, যা সর্বদা ডেটা তৈরি করে। অ্যাপ্লিকেশনগুলি তাদের নেটিভ ডাটাবেসে প্রতিটি ক্রিয়াকে লগ করে এবং নতুন তৈরি করা ডেটা সম্পদ খনির বাধাগুলি সামনে এসেছে৷

পূর্ববর্তী দশকগুলিতে, শব্দভান্ডার সংজ্ঞায়িত ডেটা নির্দিষ্ট ছিল ব্যবসায়িক প্রক্রিয়া যা এটি তৈরি করেছিল। প্রকৌশলীদের সেই অভিধানগুলিকে আলাদা ডিকশনারিতে অনুবাদ করতে হয়েছিল ডেটা ব্যবহারকারী সিস্টেমগুলির জন্য। গুণমানের গ্যারান্টি সাধারণত বিদ্যমান ছিল না। উপরের নভোচারীর উদাহরণের মতো, একটি ব্যবসায়িক ফাংশন দ্বারা ব্যবহারযোগ্য ডেটা অন্যদের দ্বারা অব্যবহারযোগ্য ছিল। এবং মূল ব্যবসায়িক প্রক্রিয়াগুলি থেকে ডেটাতে অ্যাক্সেসযোগ্যতা সীমিত ছিল, সর্বোত্তমভাবে, এমন ফাংশনের জন্য যা অন্যথায় অপ্টিমাইজেশান অর্জন করতে পারে।

দ্য কপি কনডার্ম

এই সমস্যাটি সমাধান করার জন্য, প্রকৌশলীরা মূল ডাটাবেসের অনুলিপি তৈরি করতে শুরু করেছিলেন কারণ, সম্প্রতি অবধি, এটি ছিল সেরা বিকল্প উপলব্ধ। তারপরে তারা সেই কপিগুলিকে কনজিউমিং ফাংশনের প্রয়োজনীয়তা মেটাতে রূপান্তরিত করে, ডেটা কোয়ালিটি নিয়ম এবং কনজিউমিং ফাংশনের জন্য একচেটিয়া রিমেডিয়েশন লজিক প্রয়োগ করে। তারা অনেক কপি তৈরি করেছে এবং একাধিক ডেটা গুদাম এবং বিশ্লেষণ সিস্টেমে লোড করেছে।

ফলাফল? সংস্থার কিছু অংশে "নোংরা" হিসাবে পড়া ডেটাসেট কপিগুলির একটি ওভারফ্লো, কোন কপিটি সঠিক তা নিয়ে বিভ্রান্তি সৃষ্টি করে৷ কোম্পানিগুলোর কাছে আজ কর্মক্ষম ডেটা স্টোর, ডেটাবেস, ডেটা গুদাম, ডেটা লেক, অ্যানালিটিক্স স্যান্ডবক্স এবং ডেটা সেন্টার এবং একাধিক ক্লাউডের মধ্যে স্প্রেডশীট জুড়ে উৎস ডেটার শত শত কপি রয়েছে। তবুও, চিফ ইনফরমেশন অফিসার এবং চিফ ডাটা অফিসারদের নকলের সংখ্যার উপর নিয়ন্ত্রণ নেই বা কোন সংস্করণটি সত্যের প্রকৃত উত্স উপস্থাপন করে সে সম্পর্কে জ্ঞান নেই।

এই জগাখিচুড়ি কিছু অর্ডার আনতে ডেটা গভর্নেন্স সফ্টওয়্যার পণ্যের একটি হোস্ট উপলব্ধ. এর মধ্যে রয়েছে ডেটা ক্যাটালগ, ডেটা গুণমান পরিমাপ এবং ইস্যু রেজোলিউশন সিস্টেম, রেফারেন্স ডেটা ম্যানেজমেন্ট সিস্টেম, মাস্টার ডেটা ম্যানেজমেন্ট সিস্টেম, ডেটা লাইনেজ আবিষ্কার এবং ম্যানেজমেন্ট সিস্টেম।

কিন্তু এই প্রতিকারগুলি ব্যয়বহুল এবং সময়-নিবিড়। একটি সাধারণ মাস্টার ডেটা ম্যানেজমেন্ট প্রকল্প বিভিন্ন পণ্য লাইন থেকে একাধিক ডেটা উত্স থেকে গ্রাহক ডেটা একত্রিত করতে কয়েক বছর সময় নিতে পারে এবং মিলিয়ন ডলার খরচ করতে পারে। একই সময়ে, নোংরা ডেটার পরিমাণ এমন গতিতে বৃদ্ধি পাচ্ছে যা নিয়ন্ত্রণ এবং শাসন ইনস্টল করার জন্য সাংগঠনিক প্রচেষ্টাকে ছাড়িয়ে যায়।

এই পদ্ধতিগুলি ত্রুটিপূর্ণ। তথ্য সংগ্রহ, পরিমাপ এবং প্রতিকারের কাজগুলি সম্পাদন করার জন্য তারা ম্যানুয়াল প্রক্রিয়া, বিকাশের যুক্তি বা ব্যবসার নিয়মগুলির উপর নির্ভর করে। 

পুনরুদ্ধার নিয়ন্ত্রণ

তিনটি উদীয়মান প্রযুক্তি বর্তমান পরিস্থিতি মোকাবেলার জন্য সবচেয়ে উপযুক্ত: AI- এবং মেশিন-লার্নিং-চালিত ডেটা গভর্ন্যান্স, জ্ঞানের গ্রাফের মতো শব্দার্থিক আন্তঃঅপারেবিলিটি প্ল্যাটফর্ম এবং ডিস্ট্রিবিউটেড লেজারের মতো ডেটা বিতরণ ব্যবস্থা: 

1. এআই- এবং মেশিন-লার্নিং-চালিত ডেটা গভর্নেন্স সমাধান মানুষ এবং কোডের উপর নির্ভরতা হ্রাস করুন। AI এবং মেশিন লার্নিং ম্যানুয়াল কাজকে এমন ক্রিয়াগুলির সাথে প্রতিস্থাপন করে যার মধ্যে অটো-ট্যাগিং, সংগঠিত করা এবং বিপুল পরিমাণ ডেটার তত্ত্বাবধান অন্তর্ভুক্ত রয়েছে। ডেটা ম্যানেজমেন্ট ট্রান্সফর্মেশন এবং মাইগ্রেশন আইটি খরচ হ্রাস করে। সংস্থাগুলি আরও শক্তিশালী এবং টেকসই আর্কিটেকচার তৈরি করতে পারে যা ডেটা গুণমানকে স্কেলে উত্সাহিত করে।

2. জ্ঞান গ্রাফ অসম তথ্য সম্পদের নেটিভ ইন্টারঅপারেবিলিটির অনুমতি দিন যাতে তথ্য একটি সাধারণ বিন্যাসের অধীনে একত্রিত এবং বোঝা যায়। শব্দার্থিক অনটোলজির ব্যবহার করে, সংস্থাগুলি প্রসঙ্গ সহ ভবিষ্যত-প্রমাণ ডেটা এবং একাধিক স্টেকহোল্ডারদের দ্বারা পুনঃব্যবহারের জন্য একটি সাধারণ বিন্যাস তৈরি করতে পারে।

3. বিতরণ করা খাতা, ডিফারেনশিয়াল গোপনীয়তা, এবং ভার্চুয়ালাইজেশন শারীরিকভাবে ডেটা অনুলিপি করার প্রয়োজনীয়তা দূর করুন। ডিস্ট্রিবিউটেড লেজারগুলি ব্যবসায়িক ইউনিট এবং সংস্থাগুলি জুড়ে ব্যবহারযোগ্য ফেডারেটেড এবং শাসিত ডাটাবেস নিয়ে গঠিত। ডিফারেনশিয়াল গোপনীয়তা সম্মতির প্রয়োজনীয়তাগুলি মেনে চলার জন্য ডেটা মাস্ক করা সম্ভব করে তোলে, একই সাথে এটি স্টেকহোল্ডারদের সাথে ভাগ করে নেয়। ভার্চুয়ালাইজেশন ভৌত পরিবেশের পরিবর্তে ভার্চুয়ালে ডেটা স্পিন আপ করার অনুমতি দেয়।

একবার সিআইও এবং সিডিওরা বুঝতে পারে যে সমস্যার মূল হল উত্তরাধিকার অবকাঠামো যা ডেটা সাইলো তৈরি করে, তারা অন্তর্নিহিত আর্কিটেকচার এবং ডেটা অবকাঠামো কৌশলগুলি উন্নত করতে পারে।

নোংরা ডেটা একটি প্রতিষ্ঠানের সুনির্দিষ্ট সিদ্ধান্ত নেওয়ার এবং নির্ভুলতা এবং তত্পরতার সাথে কাজ করার ক্ষমতাকে সীমিত করে। সংস্থাগুলিকে অবশ্যই তাদের ডেটার নিয়ন্ত্রণ নিতে হবে এবং ডেটা আন্তঃক্রিয়াশীলতা, গুণমান এবং অ্যাক্সেসযোগ্যতাকে উত্সাহিত করতে হবে। এটি করা প্রতিযোগিতামূলক সুবিধা প্রদান করবে এবং নিরাপত্তা এবং সম্মতির দুর্বলতাগুলি মুছে ফেলবে।

সময় স্ট্যাম্প:

থেকে আরো ডেটাভার্সিটি