How Does Data Deduplication Work? - IBM Blog

بازنشر افلاطون

دنبال: 0

حذف مجدد داده ها چگونه کار می کند؟ – وبلاگ IBM

سال‌های اخیر شاهد انفجاری در گسترش واحدهای خودذخیره‌سازی بوده‌ایم. این واحدهای بزرگ و انباری به یک دلیل در سطح ملی به عنوان یک صنعت پر رونق ظهور کرده اند - یک فرد معمولی اکنون دارایی بیشتری نسبت به آنچه می داند با آن چه کند دارد.

همین وضعیت اساسی دنیای فناوری اطلاعات را نیز درگیر کرده است. ما در بحبوحه انفجار داده ها هستیم. حتی اشیاء نسبتاً ساده و روزمره هم اکنون به طور معمول به لطف خود داده تولید می کنند اینترنت از اشیاء عملکرد. هرگز در طول تاریخ داده های زیادی ایجاد، جمع آوری و تجزیه و تحلیل نشده است. و پیش از این هرگز مدیران داده بیشتری با مشکل نحوه ذخیره داده های بسیار دست و پنجه نرم نکرده اند.

یک شرکت ممکن است در ابتدا نتواند مشکل را تشخیص دهد یا اینکه چقدر می تواند بزرگ شود، و سپس آن شرکت باید راه حل افزایش ذخیره سازی پیدا کند. با گذشت زمان، شرکت ممکن است از آن سیستم ذخیره سازی نیز پیشی بگیرد و حتی به سرمایه گذاری بیشتری نیاز داشته باشد. به ناچار، این شرکت از این بازی خسته می شود و به دنبال گزینه ای ارزان تر و ساده تر خواهد بود - که ما را به کپی برداری از داده ها.

اگرچه بسیاری از سازمان‌ها از تکنیک‌های حذف مجدد داده‌ها (یا «dedupe») به عنوان بخشی از سیستم مدیریت داده‌های خود استفاده می‌کنند، تقریباً به همان اندازه واقعاً نمی‌دانند که فرآیند حذف مجدد چیست و قرار است چه کاری انجام دهد. بنابراین، بیایید dedupe را رمزگشایی کنیم و توضیح دهیم که چگونه داده‌های deduple کار می‌کند.

کپی برداری چه می کند؟

ابتدا بیایید اصطلاح اصلی خود را روشن کنیم. کپی کردن داده ها فرآیندی است که سازمان ها برای ساده کردن ذخیره داده های خود و کاهش حجم داده هایی که بایگانی می کنند با حذف کپی های اضافی از داده ها استفاده می کنند.

علاوه بر این، باید به این نکته اشاره کنیم که وقتی در مورد داده های اضافی صحبت می کنیم، در واقع در سطح فایل صحبت می کنیم و به گسترش بی رویه فایل های داده اشاره می کنیم. بنابراین وقتی درباره تلاش‌های حذف مجدد داده‌ها بحث می‌کنیم، در واقع یک سیستم حذف مجدد فایل است که مورد نیاز است.

هدف اصلی کپی برداری چیست؟

برخی از مردم تصور نادرستی در مورد ماهیت داده ها دارند و آن را کالایی می دانند که صرفاً برای جمع آوری و برداشت وجود دارد - مانند سیب هایی که از درختی از حیاط خلوت شما بیرون می آیند.

واقعیت این است که هر فایل جدید داده هزینه دارد. در وهله اول، معمولاً برای به دست آوردن چنین داده هایی (از طریق خرید لیست های داده) هزینه دارد. یا نیاز به سرمایه گذاری مالی قابل توجهی دارد تا یک سازمان بتواند به تنهایی داده ها را جمع آوری و جمع آوری کند، حتی اگر داده هایی باشد که خود سازمان به طور ارگانیک تولید و جمع آوری می کند. بنابراین مجموعه داده‌ها یک سرمایه‌گذاری هستند و مانند هر سرمایه‌گذاری ارزشمند، باید به شدت محافظت شوند.

در این مثال، ما در مورد فضای ذخیره سازی داده صحبت می کنیم - چه به شکل سرورهای سخت افزاری داخلی یا از طریق فضای ذخیره ابری از طریق ابر مبتنی بر مرکز دادهها- که باید خریداری یا اجاره شود.

کپی‌های تکراری داده‌هایی که تحت تکثیر قرار گرفته‌اند، با تحمیل هزینه‌های ذخیره‌سازی اضافی فراتر از هزینه‌های مرتبط با سیستم ذخیره‌سازی اولیه و فضای ذخیره‌سازی آن، از نتیجه‌ی نهایی آن کم می‌کنند. به طور خلاصه، دارایی های رسانه ذخیره سازی بیشتری باید برای تطبیق داده های جدید و داده های ذخیره شده از قبل اختصاص داده شود. در نقطه ای از مسیر یک شرکت، داده های تکراری می توانند به راحتی به یک بدهی مالی تبدیل شوند.

بنابراین، به طور خلاصه، هدف اصلی از کپی برداری داده ها، صرفه جویی در هزینه با امکان دادن به سازمان ها برای صرف هزینه کمتر برای ذخیره سازی اضافی است.

مزایای اضافی حذف مجدد

همچنین دلایل دیگری فراتر از ظرفیت ذخیره‌سازی برای شرکت‌ها وجود دارد که راه‌حل‌های حذف مجدد داده‌ها را در آغوش بگیرند – احتمالاً هیچ‌یک ضروری‌تر از حفاظت از داده‌ها و بهبود آنها نیست. سازمان‌ها حجم کاری داده‌های تکراری را اصلاح و بهینه می‌کنند تا کارآمدتر از داده‌هایی که مملو از فایل‌های تکراری هستند اجرا شوند.

یکی دیگر از جنبه های مهم ددوپ این است که چگونه به توانمندسازی سریع و موفق کمک می کند فاجعه تلاش برای بازیابی و به حداقل رساندن میزان از دست رفتن داده ها که اغلب می تواند در نتیجه چنین رویدادی ایجاد شود. Dedupe به فعال کردن یک فرآیند پشتیبان گیری قوی کمک می کند تا سیستم پشتیبان گیری سازمان برابر با وظیفه مدیریت داده های پشتیبان آن باشد. علاوه بر کمک به پشتیبان‌گیری کامل، dedupe به تلاش‌های حفظ کمک می‌کند.

هنوز یکی دیگر از مزایای کپی کردن داده ها این است که چگونه به خوبی در ارتباط با آن کار می کند زیرساخت دسکتاپ مجازی (VDI) به لطف این واقعیت که هارد دیسک های مجازی پشت دسکتاپ های راه دور VDI به طور یکسان عمل می کنند. محبوب دسکتاپ به عنوان یک سرویس (DaaS) محصولات شامل Azure Virtual Desktop از مایکروسافت و Windows VDI آن است. این محصولات ایجاد می کنند ماشین های مجازی (VM)، که در طی فرآیند مجازی سازی سرور ایجاد می شوند. به نوبه خود، این ماشین های مجازی فناوری VDI را تقویت می کنند.

روش شناسی تکراری

متداول‌ترین شکلی که برای حذف داده‌ها مورد استفاده قرار می‌گیرد، حذف مجدد بلوک است. این روش با استفاده از توابع خودکار برای شناسایی موارد تکراری در بلوک های داده و سپس حذف آن موارد تکراری عمل می کند. با کار در این سطح بلوک، تکه‌هایی از داده‌های منحصربه‌فرد را می‌توان تجزیه و تحلیل کرد و مشخص کرد که ارزش اعتبارسنجی و حفظ را دارند. سپس، هنگامی که نرم افزار حذف تکراری تکرار همان بلوک داده را تشخیص داد، آن تکرار حذف می شود و به جای آن ارجاع به داده اصلی درج می شود.

این شکل اصلی ددوپ است، اما به سختی تنها روش است. در موارد استفاده دیگر، یک روش جایگزین برای حذف مجدد داده ها در سطح فایل عمل می کند. ذخیره سازی تک نمونه ای نسخه های کامل داده ها را در سرور فایل مقایسه می کند، اما نه تکه ها یا بلوک های داده را. همانند روش همتای خود، حذف مجدد فایل به نگهداری فایل اصلی در سیستم فایل و حذف کپی های اضافی بستگی دارد.

لازم به ذکر است که تکنیک‌های deduplication کاملاً مانند الگوریتم‌های فشرده‌سازی داده‌ها (مثلاً LZ77، LZ78) کار نمی‌کنند، اگرچه این درست است که هر دو یک هدف کلی را برای کاهش افزونگی داده‌ها دنبال می‌کنند. تکنیک‌های Deduplication در مقیاس بزرگ‌تر و کلان نسبت به الگوریتم‌های فشرده‌سازی به این امر دست می‌یابند، که هدف آنها کمتر جایگزین کردن فایل‌های یکسان با کپی‌های مشترک و بیشتر در مورد رمزگذاری کارآمدتر افزونگی‌های داده است.

انواع کپی برداری از داده ها

انواع مختلفی از کپی کردن داده ها بسته به نوع وجود دارد چه زمانی فرآیند حذف مجدد اتفاق می افتد:

کپی برداری درون خطی: این شکل از تکثیر داده ها در لحظه - در زمان واقعی - به عنوان جریان داده در سیستم ذخیره سازی رخ می دهد. سیستم inline dedupe ترافیک داده کمتری را حمل می کند زیرا نه داده های تکراری را منتقل می کند و نه ذخیره می کند. این می تواند منجر به کاهش کل پهنای باند مورد نیاز آن سازمان شود.
حذف مجدد پس از فرآیند: این نوع کپی برداری پس از نوشته شدن داده ها و قرار دادن آنها روی برخی از انواع دستگاه های ذخیره سازی انجام می شود.

در اینجا شایان ذکر است که هر دو نوع حذف مجدد داده ها تحت تأثیر محاسبات هش ذاتی تکثیر داده ها هستند. اینها رمزنگاری محاسبات برای شناسایی الگوهای مکرر در داده ها ضروری است. در خلال کپی برداری های درون خطی، آن محاسبات در لحظه انجام می شود که می تواند بر عملکرد رایانه غالب شده و به طور موقت بر عملکرد رایانه تأثیر بگذارد. در بازپرداخت‌های پس از پردازش، محاسبات هش را می‌توان در هر زمانی پس از افزودن داده‌ها به نحوی و در زمانی که بر منابع رایانه‌ای سازمان اضافه مالیات وارد نمی‌کند، انجام داد.

تفاوت های ظریف بین انواع deduplication به همین جا ختم نمی شود. روش دیگری برای طبقه بندی انواع deduplication بر اساس آن است جایی که چنین فرآیندهایی رخ می دهد.

حذف منبع: این شکل از deduplication در نزدیکی جایی که داده های جدید واقعاً تولید می شوند انجام می شود. سیستم آن ناحیه را اسکن می کند و کپی های جدیدی از فایل ها را شناسایی می کند که سپس حذف می شوند.
حذف مجدد هدف: نوع دیگری از کپی برداری مانند وارونگی کپی کردن منبع است. در Deduplication هدف، سیستم هر کپی را که در مناطقی غیر از محل ایجاد داده اصلی یافت می شود، کپی می کند.

از آنجایی که انواع مختلفی از کپی‌برداری وجود دارد، سازمان‌های پیشرو باید تصمیمات دقیق و سنجیده‌ای را در مورد نوع حذف تکراری انتخاب شده اتخاذ کنند و آن روش را با نیازهای خاص آن شرکت متعادل کنند.

در بسیاری از موارد استفاده، روش منتخب حذف مجدد سازمان به خوبی ممکن است به متغیرهای داخلی مختلفی مانند موارد زیر منتهی شود:

چه تعداد و چه نوع مجموعه داده ای ایجاد می شود
سیستم ذخیره سازی اولیه سازمان
کدام محیط های مجازی در حال استفاده هستند
این شرکت به کدام برنامه ها متکی است

تحولات اخیر حذف مجدد داده ها

مانند تمام خروجی های کامپیوتر، حذف مجدد داده ها برای استفاده روزافزون از آنها آماده است هوش مصنوعی (AI) همانطور که به تکامل خود ادامه می دهد. Dedupe به‌طور فزاینده‌ای پیچیده‌تر می‌شود، زیرا تغییرات ظریف‌تری را ایجاد می‌کند که به آن در جستجوی الگوهای افزونگی کمک می‌کند، زیرا بلوک‌های داده اسکن می‌شوند.

یکی از روندهای نوظهور در dedupe یادگیری تقویتی است. این از یک سیستم پاداش و جریمه (مانند آموزش تقویتی) استفاده می کند و یک سیاست بهینه را برای جدا کردن رکوردها یا ادغام آنها به جای آن اعمال می کند.

روند دیگری که ارزش تماشا دارد، استفاده از روش‌های گروهی است که در آن مدل‌ها یا الگوریتم‌های مختلف به صورت پشت سر هم استفاده می‌شوند تا از دقت بیشتر در فرآیند dedupe اطمینان حاصل شود.

معضل ادامه دار

دنیای فناوری اطلاعات به طور فزاینده‌ای بر موضوع تداوم تکثیر داده‌ها و اقداماتی که باید در مورد آن انجام داد متمرکز می‌شود. بسیاری از شرکت‌ها خود را در موقعیت ناخوشایندی می‌بینند که همزمان می‌خواهند تمام داده‌هایی را که برای جمع‌آوری آن‌ها تلاش کرده‌اند حفظ کنند و همچنین می‌خواهند داده‌های جدید سرریز خود را در هر ظرف ذخیره‌سازی ممکن بچسبانند.

در حالی که چنین معضلی پابرجاست، تاکید بر تلاش‌های حذف مجدد داده‌ها همچنان ادامه خواهد داشت، زیرا سازمان‌ها dedupe را جایگزین ارزان‌تری برای خرید فضای ذخیره‌سازی بیشتر می‌دانند. زیرا در نهایت، اگرچه ما به طور شهودی درک می‌کنیم که کسب‌وکار به داده‌ها نیاز دارد، اما همچنین می‌دانیم که داده‌ها اغلب نیاز به حذف مجدد دارند.

بیاموزید که چگونه IBM Storage FlashSystem می تواند به شما در رفع نیازهای ذخیره سازی کمک کند

این مقاله به شما کمک کرد؟

بلهنه

موارد بیشتر از Cloud

ژانویه 29، 2024

تداوم کسب و کار در مقابل بازیابی بلایا: کدام طرح برای شما مناسب است؟

7 حداقل خواندن - تداوم کسب‌وکار و طرح‌های بازیابی بلایا، استراتژی‌های مدیریت ریسک هستند که کسب‌وکارها برای آماده شدن برای حوادث غیرمنتظره به آن‌ها تکیه می‌کنند. در حالی که این اصطلاحات ارتباط نزدیکی با هم دارند، برخی تفاوت‌های کلیدی وجود دارد که هنگام انتخاب مناسب برای شما ارزش در نظر گرفتن دارد: طرح تداوم کسب‌وکار (BCP): BCP یک طرح تفصیلی است که مراحلی را که یک سازمان برای بازگشت به عملکرد عادی کسب‌وکار در آن انجام خواهد داد، تشریح می‌کند. واقعه یک فاجعه جایی که انواع دیگر برنامه ها ممکن است بر یک جنبه خاص از بازیابی و وقفه تمرکز کنند…

ژانویه 29، 2024

IBM Tech Now: 29 ژانویه 2024

<1 حداقل خواندن - به IBM Tech Now خوش آمدید، مجموعه وب ویدیویی ما که جدیدترین و بهترین اخبار و اعلامیه‌های دنیای فناوری را ارائه می‌کند. مطمئن شوید که در کانال یوتیوب ما مشترک شوید تا هر بار که یک ویدیوی جدید IBM Tech Now منتشر می شود مطلع شوید. IBM Tech Now: Episode 91 در این قسمت، ما موضوعات زیر را پوشش می دهیم: IBM Think 2024 رزروهای IBM Cloud در سرورهای مجازی IBM Cloud برای VPC Verdantix's Green Quadrant وصل بمانید می توانید IBM را بررسی کنید…

مردی با عینک که روی یک صندلی با پای ضربدری و یک دست روی صفحه کلید لپ‌تاپ باز نشسته است

ژانویه 22، 2024

در حال حاضر رزرو: IBM Cloud Virtual Servers برای VPC

2 حداقل خواندن - از آنجایی که سازمان‌ها برای کاهش هزینه‌ها در محیط‌های ابری سازمانی تلاش می‌کنند، اغلب با چالش گزینه‌های پرداخت یک‌اندازه از طریق ارائه‌دهندگان ابری خود مواجه می‌شوند. از آنجایی که نقشه‌های راه و اولویت‌ها در برابر پس‌زمینه کاهش سرمایه و بازگشت سرمایه فشرده‌تر تغییر می‌کنند، سازمان‌ها قصد دارند ریسک مخارج را در طول سال به حداقل برسانند و محیط‌های بودجه‌بندی قابل پیش‌بینی‌تری ایجاد کنند. وقتی نوبت به طراحی عملیات رایانش ابری شما می‌رسد، برنامه‌ریزی پیشرفته با رزروهای ابری IBM در سرورهای مجازی ابری IBM برای VPC جواب می‌دهد. آی بی ام چیست…

ژانویه 19، 2024

چگونه یک استراتژی بازیابی فاجعه موفق بسازیم

6 حداقل خواندن - چه صنعت شما با چالش‌های ناشی از درگیری‌های ژئوپلیتیکی، پیامدهای یک بیماری همه‌گیر جهانی یا افزایش تهاجم در فضای امنیت سایبری مواجه باشد، بردار تهدید برای شرکت‌های مدرن غیرقابل انکار قدرتمند است. استراتژی های بازیابی فاجعه چارچوبی را برای اعضای تیم فراهم می کند تا پس از یک رویداد برنامه ریزی نشده، یک کسب و کار را دوباره راه اندازی و راه اندازی کنند. در سرتاسر جهان، محبوبیت استراتژی های بازیابی بلایا به طور قابل درک در حال افزایش است. بر اساس گزارش اخیر، شرکت‌ها در سال گذشته 219 میلیارد دلار تنها برای امنیت سایبری و راه‌حل‌ها هزینه کردند که نسبت به سال 12 افزایش 2022 درصدی داشته است.

خبرنامه های آی بی ام

خبرنامه‌ها و به‌روزرسانی‌های موضوعی ما را دریافت کنید که جدیدترین رهبری فکری و بینش را در مورد روندهای نوظهور ارائه می‌دهد.

مشترک شدن در حال حاضر

خبرنامه های بیشتر

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://www.ibm.com/blog/how-does-data-deduplication-work/

تمبر زمان: ژانویه 29، 2024

تمبر زمان: ژان 31، 2024