Overcoming A World Awash In Dirty Data

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

একটি অদৃশ্য ভাইরাসের মতো, "নোংরা তথ্য" আজকের ব্যবসায়িক বিশ্বে জর্জরিত। অর্থাৎ, আজকের "বিগ ডেটা"-কেন্দ্রিক বিশ্বে ভুল, অসম্পূর্ণ এবং অসামঞ্জস্যপূর্ণ ডেটা প্রসারিত হচ্ছে।

নোংরা ডেটা নিয়ে কাজ করার জন্য কোম্পানিগুলিকে বার্ষিক মিলিয়ন ডলার খরচ করে। এটি এন্টারপ্রাইজে বিস্তৃত বিভাগগুলির দক্ষতা এবং কার্যকারিতা হ্রাস করে এবং বৃদ্ধি এবং স্কেল করার প্রচেষ্টাকে হ্রাস করে। এটি প্রতিযোগিতামূলকতাকে বাধাগ্রস্ত করে, নিরাপত্তা ঝুঁকি বাড়ায় এবং সম্মতি সমস্যা উপস্থাপন করে।

যারা দায়িত্বে আছেন ডাটা ব্যাবস্থাপনা বছরের পর বছর ধরে এই চ্যালেঞ্জ মোকাবেলা করেছি। বর্তমানে উপলব্ধ সরঞ্জামগুলির মধ্যে অনেকগুলি বিভাগগুলির মধ্যে সাইলড টিমের জন্য ডেটা ম্যানেজমেন্ট সমস্যাগুলি সমাধান করতে পারে, তবে বৃহত্তর সংস্থার জন্য বা বৃহত্তর ডেটা ইকোসিস্টেমের জন্য নয়। আরও খারাপ, এই সরঞ্জামগুলি প্রায়শই আরও বেশি ডেটা তৈরি করে যা পরিচালনা করতে হবে - এবং সেই ডেটাও নোংরা হয়ে যেতে পারে, আরও মাথাব্যথা এবং রাজস্ব ক্ষতির কারণ হতে পারে।

নোংরা ডেটা বোঝা

নোংরা তথ্য কোন তথ্য বোঝায় যা বিভ্রান্তিকর, সদৃশ, ভুল বা বেঠিক, এখনও সমন্বিত নয়, ব্যবসা-নিয়ম-লঙ্ঘনকারী, অভিন্ন বিন্যাসের অভাব, বা যতিচিহ্ন বা বানানে ত্রুটি রয়েছে।

সাম্প্রতিক দশকগুলিতে কীভাবে নোংরা ডেটা সর্বব্যাপী হয়ে উঠেছে তা বোঝার জন্য, নিম্নলিখিত দৃশ্যকল্পটি কল্পনা করুন:

একটি বৃহৎ ব্যাঙ্কের ঋণদাতারা বিভ্রান্ত হয়ে পড়ে যখন তারা আবিষ্কার করে যে ব্যাঙ্কের প্রায় সমস্ত গ্রাহকই মহাকাশচারী। বিবেচনা করে নাসা শুধুমাত্র একটি কয়েক ডজন মহাকাশচারী, এর কোন মানে নেই.

আরও অনুসন্ধানের পর, ঋণদান বিভাগ আবিষ্কার করে যে নতুন অ্যাকাউন্ট খোলার জন্য ব্যাংক কর্মকর্তারা গ্রাহকের পেশার ক্ষেত্রে "নভোচারী" সন্নিবেশ করাচ্ছেন। ঋণদাতারা শিখেছেন যে নতুন অ্যাকাউন্টের জন্য দায়ী তাদের সমকক্ষদের কাজের বিবরণ অপ্রাসঙ্গিক। ব্যাঙ্ক অফিসাররা "মহাকাশচারী" বেছে নিয়েছিলেন, প্রথম উপলব্ধ বিকল্পটি, সহজভাবে নতুন অ্যাকাউন্ট তৈরিতে আরও দ্রুত এগিয়ে যাওয়ার জন্য।

তবে ঋণদাতাদের অবশ্যই তাদের বার্ষিক বোনাস পাওয়ার জন্য তাদের গ্রাহকদের সঠিক পেশা রেকর্ডে থাকতে হবে। পরিস্থিতির প্রতিকারের জন্য, ঋণ প্রদান বিভাগ তার নিজস্ব, পৃথক ডাটাবেস তৈরি করে। তারা প্রতিটি গ্রাহকের সাথে যোগাযোগ করে, সঠিক পেশা শিখে এবং এটি তাদের ডাটাবেসে সন্নিবেশ করে।

এখন, ব্যাঙ্কের কাছে একটি ক্ষেত্র বাদে মূলত একই তথ্য সহ দুটি ডাটাবেস রয়েছে। যদি একটি তৃতীয় বিভাগ সেই ডাটাবেসের তথ্য অ্যাক্সেস করতে চায়, কোন ডাটাবেস সঠিক তা নির্ধারণ করার জন্য কোন সিস্টেম বিদ্যমান নেই। সুতরাং, সেই তৃতীয় বিভাগটি তার নিজস্ব ডাটাবেস তৈরি করতে পারে।

কয়েক দশক ধরে দেশব্যাপী সংগঠনগুলিতে একই রকম পরিস্থিতি দেখা দিয়েছে।

বর্জনিং ডিজিটাল-ডেটা ল্যান্ডফিল

ঝামেলা শুরু হয়েছিল 1990 এর সাথে ডিজিটাল রূপান্তর বুম কোম্পানিগুলো তাদের ব্যবসায়িক প্রক্রিয়া উন্নত করতে এন্টারপ্রাইজ সফটওয়্যার স্থাপন করেছে। Salesforce থেকে সফ্টওয়্যার-এ-একটি-পরিষেবা পণ্য, উদাহরণস্বরূপ, বিক্রয় এবং বিপণন সিস্টেমগুলি পরিচালনা করার আরও ভাল উপায়গুলি সক্ষম করে৷

কিন্তু 30 বছর পরে, এই ধরনের উত্তরাধিকার পরিকাঠামো একটি ডেটা ম্যানেজমেন্ট দুঃস্বপ্নের পরিণতি পেয়েছে। সদৃশ, অসম্পূর্ণ, এবং ভুল তথ্যের রমর সাথে কর্পোরেট এবং পাবলিক-সেক্টরের ল্যান্ডস্কেপগুলিকে মরিচ দিয়ে বিচ্ছিন্ন ডেটা সাইলো। এই সাইলোগুলিতে ব্যবসা, ভৌগলিক এবং ফাংশনগুলির লাইন রয়েছে যা যথাক্রমে তাদের ডেটা উত্সগুলির মালিক এবং তত্ত্বাবধান করে৷

এর বাইরে, কয়েক দশক ধরে ডেটা জেনারেশন দ্রুতগতিতে বৃদ্ধি পেয়েছে। প্রতিটি ব্যবসায়িক প্রক্রিয়ার জন্য এখন তার নিজস্ব সফ্টওয়্যার প্রয়োজন, যা সর্বদা ডেটা তৈরি করে। অ্যাপ্লিকেশনগুলি তাদের নেটিভ ডাটাবেসে প্রতিটি ক্রিয়াকে লগ করে এবং নতুন তৈরি করা ডেটা সম্পদ খনির বাধাগুলি সামনে এসেছে৷

পূর্ববর্তী দশকগুলিতে, শব্দভান্ডার সংজ্ঞায়িত ডেটা নির্দিষ্ট ছিল ব্যবসায়িক প্রক্রিয়া যা এটি তৈরি করেছিল। প্রকৌশলীদের সেই অভিধানগুলিকে আলাদা ডিকশনারিতে অনুবাদ করতে হয়েছিল ডেটা ব্যবহারকারী সিস্টেমগুলির জন্য। গুণমানের গ্যারান্টি সাধারণত বিদ্যমান ছিল না। উপরের নভোচারীর উদাহরণের মতো, একটি ব্যবসায়িক ফাংশন দ্বারা ব্যবহারযোগ্য ডেটা অন্যদের দ্বারা অব্যবহারযোগ্য ছিল। এবং মূল ব্যবসায়িক প্রক্রিয়াগুলি থেকে ডেটাতে অ্যাক্সেসযোগ্যতা সীমিত ছিল, সর্বোত্তমভাবে, এমন ফাংশনের জন্য যা অন্যথায় অপ্টিমাইজেশান অর্জন করতে পারে।

দ্য কপি কনডার্ম

এই সমস্যাটি সমাধান করার জন্য, প্রকৌশলীরা মূল ডাটাবেসের অনুলিপি তৈরি করতে শুরু করেছিলেন কারণ, সম্প্রতি অবধি, এটি ছিল সেরা বিকল্প উপলব্ধ। তারপরে তারা সেই কপিগুলিকে কনজিউমিং ফাংশনের প্রয়োজনীয়তা মেটাতে রূপান্তরিত করে, ডেটা কোয়ালিটি নিয়ম এবং কনজিউমিং ফাংশনের জন্য একচেটিয়া রিমেডিয়েশন লজিক প্রয়োগ করে। তারা অনেক কপি তৈরি করেছে এবং একাধিক ডেটা গুদাম এবং বিশ্লেষণ সিস্টেমে লোড করেছে।

ফলাফল? সংস্থার কিছু অংশে "নোংরা" হিসাবে পড়া ডেটাসেট কপিগুলির একটি ওভারফ্লো, কোন কপিটি সঠিক তা নিয়ে বিভ্রান্তি সৃষ্টি করে৷ কোম্পানিগুলোর কাছে আজ কর্মক্ষম ডেটা স্টোর, ডেটাবেস, ডেটা গুদাম, ডেটা লেক, অ্যানালিটিক্স স্যান্ডবক্স এবং ডেটা সেন্টার এবং একাধিক ক্লাউডের মধ্যে স্প্রেডশীট জুড়ে উৎস ডেটার শত শত কপি রয়েছে। তবুও, চিফ ইনফরমেশন অফিসার এবং চিফ ডাটা অফিসারদের নকলের সংখ্যার উপর নিয়ন্ত্রণ নেই বা কোন সংস্করণটি সত্যের প্রকৃত উত্স উপস্থাপন করে সে সম্পর্কে জ্ঞান নেই।

এই জগাখিচুড়ি কিছু অর্ডার আনতে ডেটা গভর্নেন্স সফ্টওয়্যার পণ্যের একটি হোস্ট উপলব্ধ. এর মধ্যে রয়েছে ডেটা ক্যাটালগ, ডেটা গুণমান পরিমাপ এবং ইস্যু রেজোলিউশন সিস্টেম, রেফারেন্স ডেটা ম্যানেজমেন্ট সিস্টেম, মাস্টার ডেটা ম্যানেজমেন্ট সিস্টেম, ডেটা লাইনেজ আবিষ্কার এবং ম্যানেজমেন্ট সিস্টেম।

কিন্তু এই প্রতিকারগুলি ব্যয়বহুল এবং সময়-নিবিড়। একটি সাধারণ মাস্টার ডেটা ম্যানেজমেন্ট প্রকল্প বিভিন্ন পণ্য লাইন থেকে একাধিক ডেটা উত্স থেকে গ্রাহক ডেটা একত্রিত করতে কয়েক বছর সময় নিতে পারে এবং মিলিয়ন ডলার খরচ করতে পারে। একই সময়ে, নোংরা ডেটার পরিমাণ এমন গতিতে বৃদ্ধি পাচ্ছে যা নিয়ন্ত্রণ এবং শাসন ইনস্টল করার জন্য সাংগঠনিক প্রচেষ্টাকে ছাড়িয়ে যায়।

এই পদ্ধতিগুলি ত্রুটিপূর্ণ। তথ্য সংগ্রহ, পরিমাপ এবং প্রতিকারের কাজগুলি সম্পাদন করার জন্য তারা ম্যানুয়াল প্রক্রিয়া, বিকাশের যুক্তি বা ব্যবসার নিয়মগুলির উপর নির্ভর করে।

পুনরুদ্ধার নিয়ন্ত্রণ

তিনটি উদীয়মান প্রযুক্তি বর্তমান পরিস্থিতি মোকাবেলার জন্য সবচেয়ে উপযুক্ত: AI- এবং মেশিন-লার্নিং-চালিত ডেটা গভর্ন্যান্স, জ্ঞানের গ্রাফের মতো শব্দার্থিক আন্তঃঅপারেবিলিটি প্ল্যাটফর্ম এবং ডিস্ট্রিবিউটেড লেজারের মতো ডেটা বিতরণ ব্যবস্থা:

1. এআই- এবং মেশিন-লার্নিং-চালিত ডেটা গভর্নেন্স সমাধান মানুষ এবং কোডের উপর নির্ভরতা হ্রাস করুন। AI এবং মেশিন লার্নিং ম্যানুয়াল কাজকে এমন ক্রিয়াগুলির সাথে প্রতিস্থাপন করে যার মধ্যে অটো-ট্যাগিং, সংগঠিত করা এবং বিপুল পরিমাণ ডেটার তত্ত্বাবধান অন্তর্ভুক্ত রয়েছে। ডেটা ম্যানেজমেন্ট ট্রান্সফর্মেশন এবং মাইগ্রেশন আইটি খরচ হ্রাস করে। সংস্থাগুলি আরও শক্তিশালী এবং টেকসই আর্কিটেকচার তৈরি করতে পারে যা ডেটা গুণমানকে স্কেলে উত্সাহিত করে।

2. জ্ঞান গ্রাফ অসম তথ্য সম্পদের নেটিভ ইন্টারঅপারেবিলিটির অনুমতি দিন যাতে তথ্য একটি সাধারণ বিন্যাসের অধীনে একত্রিত এবং বোঝা যায়। শব্দার্থিক অনটোলজির ব্যবহার করে, সংস্থাগুলি প্রসঙ্গ সহ ভবিষ্যত-প্রমাণ ডেটা এবং একাধিক স্টেকহোল্ডারদের দ্বারা পুনঃব্যবহারের জন্য একটি সাধারণ বিন্যাস তৈরি করতে পারে।

3. বিতরণ করা খাতা, ডিফারেনশিয়াল গোপনীয়তা, এবং ভার্চুয়ালাইজেশন শারীরিকভাবে ডেটা অনুলিপি করার প্রয়োজনীয়তা দূর করুন। ডিস্ট্রিবিউটেড লেজারগুলি ব্যবসায়িক ইউনিট এবং সংস্থাগুলি জুড়ে ব্যবহারযোগ্য ফেডারেটেড এবং শাসিত ডাটাবেস নিয়ে গঠিত। ডিফারেনশিয়াল গোপনীয়তা সম্মতির প্রয়োজনীয়তাগুলি মেনে চলার জন্য ডেটা মাস্ক করা সম্ভব করে তোলে, একই সাথে এটি স্টেকহোল্ডারদের সাথে ভাগ করে নেয়। ভার্চুয়ালাইজেশন ভৌত পরিবেশের পরিবর্তে ভার্চুয়ালে ডেটা স্পিন আপ করার অনুমতি দেয়।

একবার সিআইও এবং সিডিওরা বুঝতে পারে যে সমস্যার মূল হল উত্তরাধিকার অবকাঠামো যা ডেটা সাইলো তৈরি করে, তারা অন্তর্নিহিত আর্কিটেকচার এবং ডেটা অবকাঠামো কৌশলগুলি উন্নত করতে পারে।

নোংরা ডেটা একটি প্রতিষ্ঠানের সুনির্দিষ্ট সিদ্ধান্ত নেওয়ার এবং নির্ভুলতা এবং তত্পরতার সাথে কাজ করার ক্ষমতাকে সীমিত করে। সংস্থাগুলিকে অবশ্যই তাদের ডেটার নিয়ন্ত্রণ নিতে হবে এবং ডেটা আন্তঃক্রিয়াশীলতা, গুণমান এবং অ্যাক্সেসযোগ্যতাকে উত্সাহিত করতে হবে। এটি করা প্রতিযোগিতামূলক সুবিধা প্রদান করবে এবং নিরাপত্তা এবং সম্মতির দুর্বলতাগুলি মুছে ফেলবে।

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
উত্স: https://www.dataversity.net/overcoming-a-world-awash-in-dirty-data/

সময় স্ট্যাম্প: এপ্রিল 10, 2023

থেকে আরো ডেটাভার্সিটি

একটি সফল ডেটা গুণমান কৌশল তৈরি করা - ডেটাভারসিটি

ডেটাভার্সিটি

উত্স নোড: 2854562

সময় স্ট্যাম্প: আগস্ট 30, 2023

পণ্য উন্নয়নের জন্য এআই নীতিশাস্ত্র এবং উদ্ভাবন

উত্স ক্লাস্টার:

ডেটাভার্সিটি

উত্স নোড: 2625763

সময় স্ট্যাম্প: 3 পারে, 2023

প্লেটো দ্বারা প্রকাশিত

একটি সফল ডেটা গুণমান কৌশল তৈরি করা - ডেটাভারসিটি

কাউচবেস ডেমো: আধুনিক অ্যাপ্লিকেশন ড্রাইভিং প্রয়োজনীয়তা – ডেটাভারসিটি

জিরো-ট্রাস্ট আর্কিটেকচার ব্যাখ্যা করা হয়েছে – ডেটাভারসিটি

একটি ভাল ক্লাউডের জন্য ডেটা মাধ্যাকর্ষণকে অস্বীকার করা

SingleStore রিয়েল-টাইম ডেটা প্ল্যাটফর্মের জন্য নতুন ক্ষমতা উন্মোচন করেছে - ডেটাভারসিটি

ডেটা-এড স্লাইডস: ডেটা ম্যানেজমেন্টের সেরা অনুশীলন

ডেটা পর্ব 47-এ আমার কর্মজীবন: ইভান লেভি, পার্টনার, ইন্টিগ্রাল ডেটা – ডেটাভারসিটি

পণ্য উন্নয়নের জন্য এআই নীতিশাস্ত্র এবং উদ্ভাবন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব