অ্যামাজন রেডশিফ্ট: কম দাম, উচ্চ কর্মক্ষমতা | আমাজন ওয়েব সার্ভিসেস

অ্যামাজন রেডশিফ্ট: কম দাম, উচ্চ কর্মক্ষমতা | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 2959258

কার্যত সমস্ত গ্রাহকের মতো, আপনি সর্বোত্তম সম্ভাব্য পারফরম্যান্স পাওয়ার সময় যতটা সম্ভব কম খরচ করতে চান। এর মানে আপনাকে মূল্য-কর্মক্ষমতার দিকে মনোযোগ দিতে হবে। সঙ্গে আমাজন রেডশিফ্ট, আপনি আপনার কেক খেতে পারেন এবং এটিও খেতে পারেন! Amazon Redshift ব্যবহারকারী পিছু 4.9 গুণ কম খরচ এবং বাস্তব-বিশ্বের কাজের চাপে অন্যান্য ক্লাউড ডেটা গুদামগুলির তুলনায় 7.9 গুণ পর্যন্ত ভাল মূল্য-পারফরম্যান্স প্রদান করে যেমন শত শত সমবর্তী ব্যবহারকারীদের সমর্থন করার জন্য কনকারেন্সি স্কেলিং, দ্রুত ক্যোয়ারী পারফরম্যান্সের জন্য উন্নত স্ট্রিং এনকোডিং ব্যবহার করে , এবং অ্যামাজন রেডশিফ্ট সার্ভারহীন কর্মক্ষমতা বৃদ্ধি কেন দাম-পারফরম্যান্স গুরুত্বপূর্ণ এবং কিভাবে Amazon Redshift মূল্য-পারফরম্যান্স হল একটি নির্দিষ্ট স্তরের কাজের চাপ, যথা কর্মক্ষমতা ROI (বিনিয়োগের উপর রিটার্ন) পেতে কত খরচ হয় তা বোঝার জন্য পড়ুন।

যেহেতু মূল্য এবং কর্মক্ষমতা উভয়ই মূল্য-কর্মক্ষমতা গণনার মধ্যে প্রবেশ করে, মূল্য-কর্মক্ষমতা সম্পর্কে চিন্তা করার দুটি উপায় রয়েছে। প্রথম উপায় হল মূল্য স্থির রাখা: আপনার যদি খরচ করার জন্য $1 থাকে, তাহলে আপনি আপনার ডেটা গুদাম থেকে কতটা পারফরম্যান্স পাবেন? ভাল দাম-পারফরম্যান্স সহ একটি ডাটাবেস প্রতিটি $1 খরচের জন্য আরও ভাল কর্মক্ষমতা প্রদান করবে। অতএব, মূল্য স্থির রাখার সময় দুটি ডেটা গুদামের তুলনা করার সময় যেগুলির দাম একই, ভাল দাম-পারফরম্যান্স সহ ডেটাবেস আপনার প্রশ্নগুলিকে দ্রুত চালাবে. মূল্য-পারফরম্যান্স দেখার দ্বিতীয় উপায় হল কর্মক্ষমতা ধ্রুবক ধরে রাখা: আপনার যদি 10 মিনিটের মধ্যে আপনার কাজের চাপ শেষ করার প্রয়োজন হয়, তাহলে এর খরচ কত হবে? ভাল দাম-পারফরম্যান্স সহ একটি ডাটাবেস কম খরচে 10 মিনিটের মধ্যে আপনার কাজের চাপ চালাবে। তাই, একই পারফরম্যান্স প্রদানের জন্য আকারের দুটি ডেটা গুদামের তুলনা করার সময় কর্মক্ষমতা ধ্রুবক ধরে রাখার সময়, ভাল মূল্য-কর্মক্ষমতা সহ ডাটাবেসের খরচ কম হবে এবং আপনার অর্থ সাশ্রয় হবে।

অবশেষে, মূল্য-কর্মক্ষমতার আরেকটি গুরুত্বপূর্ণ দিক হল পূর্বাভাসযোগ্যতা। ডেটা গুদাম ব্যবহারকারীর সংখ্যা বাড়ার সাথে সাথে আপনার ডেটা গুদাম কত খরচ করতে চলেছে তা জানা পরিকল্পনার জন্য অত্যন্ত গুরুত্বপূর্ণ। এটি শুধুমাত্র আজকের সেরা মূল্য-পারফরম্যান্স প্রদান করবে না, বরং আরও বেশি ব্যবহারকারী এবং কাজের চাপ যুক্ত হওয়ার সাথে সাথে অনুমানযোগ্যভাবে স্কেল করবে এবং সেরা মূল্য-কর্মক্ষমতা প্রদান করবে। একটি আদর্শ ডেটা গুদাম থাকা উচিত রৈখিক স্কেল- দ্বিগুণ কোয়েরি থ্রুপুট সরবরাহ করতে আপনার ডেটা গুদামকে স্কেল করার জন্য আদর্শভাবে দ্বিগুণ (বা কম) খরচ হওয়া উচিত।

এই পোস্টে, আমরা পারফরম্যান্সের ফলাফলগুলিকে তুলে ধরছি কিভাবে Amazon Redshift অগ্রণী বিকল্প ক্লাউড ডেটা গুদামগুলির তুলনায় উল্লেখযোগ্যভাবে ভাল মূল্য-কর্মক্ষমতা প্রদান করে। এর মানে হল যে আপনি যদি আমাজন রেডশিফ্টে একই পরিমাণ খরচ করেন যেমন আপনি এই অন্যান্য ডেটা গুদামগুলির একটিতে করেন তবে আপনি অ্যামাজন রেডশিফ্টের সাথে আরও ভাল পারফরম্যান্স পাবেন। বিকল্পভাবে, আপনি যদি একই কর্মক্ষমতা প্রদানের জন্য আপনার রেডশিফ্ট ক্লাস্টারের আকার দেন, তাহলে আপনি এই বিকল্পগুলির তুলনায় কম খরচ দেখতে পাবেন।

বাস্তব বিশ্বের কাজের চাপের জন্য মূল্য-কর্মক্ষমতা

জটিল এক্সট্র্যাক্ট, ট্রান্সফর্ম এবং লোড (ETL)-ভিত্তিক রিপোর্টের ব্যাচ-প্রসেসিং থেকে শুরু করে কম লেটেন্সি বিজনেস ইন্টেলিজেন্স (BI) ড্যাশবোর্ডে রিয়েল-টাইম স্ট্রিমিং অ্যানালিটিক্স থেকে আপনি অনেক বিস্তৃত কাজের লোড পাওয়ার জন্য Amazon Redshift ব্যবহার করতে পারেন। সাবসেকেন্ড রেসপন্স টাইম এবং এর মধ্যে সবকিছুর সাথে একই সময়ে শত শত বা হাজার হাজার ব্যবহারকারীকে পরিবেশন করতে হবে। আমাদের গ্রাহকদের জন্য আমরা ক্রমাগত মূল্য-পারফরম্যান্স উন্নত করার উপায়গুলির মধ্যে একটি হল রেডশিফ্ট ফ্লিট থেকে ক্রমাগত সফ্টওয়্যার এবং হার্ডওয়্যার পারফরম্যান্স টেলিমেট্রি পর্যালোচনা করা, সুযোগগুলি এবং গ্রাহক ব্যবহারের ক্ষেত্রে অনুসন্ধান করা যেখানে আমরা অ্যামাজন রেডশিফ্ট কর্মক্ষমতা আরও উন্নত করতে পারি।

ফ্লিট টেলিমেট্রি দ্বারা চালিত পারফরম্যান্স অপ্টিমাইজেশনের কিছু সাম্প্রতিক উদাহরণগুলির মধ্যে রয়েছে:

  • স্ট্রিং কোয়েরি অপ্টিমাইজেশান – অ্যামাজন রেডশিফ্ট রেডশিফ্ট ফ্লিটে কীভাবে বিভিন্ন ধরনের ডেটা প্রক্রিয়া করেছে তা বিশ্লেষণ করে, আমরা দেখতে পেয়েছি যে স্ট্রিং-ভারী প্রশ্নগুলি অপ্টিমাইজ করা আমাদের গ্রাহকদের কাজের চাপে উল্লেখযোগ্য সুবিধা নিয়ে আসবে৷ (আমরা এই পোস্টে পরে আরও বিস্তারিতভাবে আলোচনা করব।)
  • স্বয়ংক্রিয় বস্তুগত দৃষ্টিভঙ্গি – আমরা দেখেছি যে অ্যামাজন রেডশিফ্ট গ্রাহকরা প্রায়শই সাধারণ সাবকোয়েরি প্যাটার্ন রয়েছে এমন অনেকগুলি অনুসন্ধান চালান৷ উদাহরণস্বরূপ, একই যোগদানের শর্ত ব্যবহার করে একই তিনটি টেবিলে বেশ কয়েকটি ভিন্ন প্রশ্ন যোগ হতে পারে। অ্যামাজন রেডশিফ্ট এখন স্বয়ংক্রিয়ভাবে বস্তুগত দৃষ্টিভঙ্গি তৈরি করতে এবং বজায় রাখতে সক্ষম হয় এবং তারপরে মেশিন-লার্নড ব্যবহার করে বস্তুগত দৃষ্টিভঙ্গি ব্যবহার করার জন্য স্বচ্ছভাবে প্রশ্নগুলি পুনরায় লিখতে সক্ষম হয় স্বয়ংক্রিয় বস্তুগত দৃশ্য অ্যামাজন রেডশিফ্টে স্বায়ত্তশাসিত বৈশিষ্ট্য। সক্রিয় করা হলে, স্বয়ংক্রিয় বস্তুগত দৃষ্টিভঙ্গি কোনো ব্যবহারকারীর হস্তক্ষেপ ছাড়াই পুনরাবৃত্তিমূলক প্রশ্নের জন্য ক্যোয়ারী কর্মক্ষমতা স্বচ্ছভাবে বৃদ্ধি করতে পারে। (উল্লেখ্য যে এই পোস্টে আলোচিত কোনো বেঞ্চমার্ক ফলাফলে স্বয়ংক্রিয় বস্তুগত দৃষ্টিভঙ্গি ব্যবহার করা হয়নি)।
  • উচ্চ-সঙ্গতি কাজের চাপ - একটি ক্রমবর্ধমান ব্যবহারের ক্ষেত্রে আমরা দেখছি ড্যাশবোর্ডের মতো কাজের চাপ পরিবেশন করতে অ্যামাজন রেডশিফ্ট ব্যবহার করছে। এই ওয়ার্কলোডগুলি একক-সংখ্যার সেকেন্ড বা তার কম সময়ের কাঙ্খিত ক্যোয়ারী রেসপন্স টাইম দ্বারা চিহ্নিত করা হয়, দশ বা শতাধিক সমসাময়িক ব্যবহারকারী একই সাথে একটি স্পাইকি এবং প্রায়শই অপ্রত্যাশিত ব্যবহার প্যাটার্নের সাথে কোয়েরি চালায়। এর নমুনা উদাহরণ হল একটি অ্যামাজন রেডশিফ্ট-সমর্থিত BI ড্যাশবোর্ড যা সোমবার সকালে যখন বিপুল সংখ্যক ব্যবহারকারী তাদের সপ্তাহ শুরু করে তখন ট্রাফিক বেড়ে যায়।

বিশেষ করে উচ্চ-সামনকারেন্সি ওয়ার্কলোডের খুব বিস্তৃত প্রযোজ্যতা রয়েছে: বেশিরভাগ ডেটা ওয়ারহাউস ওয়ার্কলোড একযোগে কাজ করে, এবং একই সময়ে অ্যামাজন রেডশিফটে কয়েকশ বা এমনকি হাজার হাজার ব্যবহারকারীর জন্য প্রশ্ন চালানো অস্বাভাবিক নয়। অ্যামাজন রেডশিফ্টকে কোয়েরির প্রতিক্রিয়ার সময় অনুমানযোগ্য এবং দ্রুত রাখার জন্য ডিজাইন করা হয়েছে। রেডশিফ্ট সার্ভারলেস আপনার জন্য স্বয়ংক্রিয়ভাবে ক্যোয়ারী রেসপন্স টাইম দ্রুত এবং অনুমানযোগ্য রাখার জন্য প্রয়োজন অনুযায়ী কম্পিউট যোগ করে এবং মুছে দেয়। এর মানে হল একটি Redshift সার্ভার-ব্যাকড ড্যাশবোর্ড যা এক বা দুইজন ব্যবহারকারীর দ্বারা অ্যাক্সেস করার সময় দ্রুত লোড হয়, এমনকি অনেক ব্যবহারকারী একই সময়ে এটি লোড করলেও দ্রুত লোড হতে থাকবে।

এই ধরনের কাজের চাপ অনুকরণ করতে, আমরা 100 GB ডেটা সেট সহ TPC-DS থেকে প্রাপ্ত একটি বেঞ্চমার্ক ব্যবহার করেছি। TPC-DS হল একটি ইন্ডাস্ট্রি-স্ট্যান্ডার্ড বেঞ্চমার্ক যাতে বিভিন্ন ধরনের সাধারণ ডেটা গুদাম কোয়েরি অন্তর্ভুক্ত থাকে। 100 GB-এর এই তুলনামূলকভাবে ছোট স্কেলে, এই বেঞ্চমার্কের প্রশ্নগুলি Redshift Serverless-এ কয়েক সেকেন্ডের মধ্যে চলে, যা একটি ইন্টারেক্টিভ BI ড্যাশবোর্ড লোড করা ব্যবহারকারীরা কী আশা করবে তার প্রতিনিধি। আমরা এই মানদণ্ডের 1-200টি সমবর্তী পরীক্ষার মধ্যে দৌড়েছি, 1-200 জন ব্যবহারকারী একই সময়ে একটি ড্যাশবোর্ড লোড করার চেষ্টা করছে। এছাড়াও আমরা বেশ কয়েকটি জনপ্রিয় বিকল্প ক্লাউড ডেটা গুদামের বিরুদ্ধে পরীক্ষাটি পুনরাবৃত্তি করেছি যা স্বয়ংক্রিয়ভাবে স্কেল আউটকে সমর্থন করে (যদি আপনি পোস্টটির সাথে পরিচিত হন) Amazon Redshift তার মূল্য-কর্মক্ষমতা নেতৃত্ব অব্যাহত রেখেছে, আমরা প্রতিযোগী A অন্তর্ভুক্ত করিনি কারণ এটি স্বয়ংক্রিয়ভাবে স্কেল আপ সমর্থন করে না)। আমরা গড় ক্যোয়ারী রেসপন্স টাইম পরিমাপ করেছি, যার অর্থ একজন ব্যবহারকারী তাদের প্রশ্ন শেষ হওয়ার জন্য কতক্ষণ অপেক্ষা করবে (বা তাদের ড্যাশবোর্ড লোড হতে)। ফলাফল নিম্নলিখিত চার্ট দেখানো হয়.

প্রতিযোগী B প্রায় 64টি সমসাময়িক ক্যোয়ারী পর্যন্ত ভালোভাবে স্কেল করে, যে সময়ে এটি অতিরিক্ত কম্পিউট প্রদান করতে অক্ষম হয় এবং ক্যোয়ারীগুলো সারিবদ্ধ হতে শুরু করে, যার ফলে ক্যোয়ারী রেসপন্স টাইম বেড়ে যায়। যদিও প্রতিযোগী সি স্বয়ংক্রিয়ভাবে স্কেল করতে সক্ষম, তবে এটি অ্যামাজন রেডশিফ্ট এবং প্রতিযোগী বি উভয়ের চেয়ে কম কোয়েরি থ্রুপুটে স্কেল করে এবং কোয়েরির রানটাইম কম রাখতে সক্ষম হয় না। উপরন্তু, এটি গণনা শেষ হয়ে গেলে এটি সারিবদ্ধ প্রশ্নগুলিকে সমর্থন করে না, যা এটিকে প্রায় 128 সমবর্তী ব্যবহারকারীদের অতিক্রম করতে বাধা দেয়। এর বাইরে অতিরিক্ত প্রশ্ন জমা দেওয়া সিস্টেম দ্বারা প্রত্যাখ্যান করা হয়।

এখানে, রেডশিফ্ট সার্ভারলেস প্রায় 5 সেকেন্ডে ক্যোয়ারী রেসপন্স টাইম তুলনামূলকভাবে সামঞ্জস্যপূর্ণ রাখতে সক্ষম হয় এমনকি যখন একই সময়ে শত শত ব্যবহারকারী কোয়েরি চালাচ্ছেন। গুদামগুলির উপর লোড বাড়ার সাথে সাথে প্রতিযোগীদের B এবং C-এর গড় ক্যোয়ারী রেসপন্স টাইম ক্রমাগত বৃদ্ধি পায়, যার ফলে ব্যবহারকারীদের ডেটা গুদাম ব্যস্ত থাকাকালীন তাদের প্রশ্নের ফিরে আসার জন্য অপেক্ষা করতে হয় (16 সেকেন্ড পর্যন্ত)। এর মানে হল যে যদি একজন ব্যবহারকারী একটি ড্যাশবোর্ড রিফ্রেশ করার চেষ্টা করেন (যা আবার লোড করার সময় একাধিক সমসাময়িক প্রশ্নও জমা দিতে পারে), তবে ড্যাশবোর্ডটি দশ বা শত শত দ্বারা লোড করা হলেও অ্যামাজন রেডশিফ্ট ড্যাশবোর্ড লোডের সময় অনেক বেশি সামঞ্জস্য রাখতে সক্ষম হবে। একই সময়ে ব্যবহারকারীরা।

কারণ অ্যামাজন রেডশিফ্ট সংক্ষিপ্ত প্রশ্নের জন্য খুব উচ্চ ক্যোয়ারী থ্রুপুট সরবরাহ করতে সক্ষম (যেমন আমরা লিখেছিলাম Amazon Redshift তার মূল্য-কর্মক্ষমতা নেতৃত্ব অব্যাহত রেখেছে), এটি আরও দক্ষতার সাথে এবং সেইজন্য উল্লেখযোগ্যভাবে কম খরচে স্কেল করার সময় এই উচ্চতর কনকারেন্সিগুলি পরিচালনা করতে সক্ষম। এটি পরিমাপ করার জন্য, আমরা প্রকাশিত ব্যবহার করে মূল্য-কর্মক্ষমতা দেখি চাহিদা অনুযায়ী মূল্য পূর্ববর্তী পরীক্ষার প্রতিটি গুদামের জন্য, নিম্নলিখিত চার্টে দেখানো হয়েছে। এটা লক্ষনীয় যে ব্যবহার করে সংরক্ষিত উদাহরণ (RIs), বিশেষ করে 3-বছরের RI-গুলি সমস্ত অগ্রিম অর্থপ্রদান বিকল্পের সাথে কেনা, প্রভিশন করা ক্লাস্টারগুলিতে Amazon Redshift চালানোর জন্য সর্বনিম্ন খরচ হয়, যার ফলে অন-ডিমান্ড বা অন্যান্য RI বিকল্পগুলির তুলনায় সেরা আপেক্ষিক মূল্য-পারফরম্যান্স পাওয়া যায়।

তাই অ্যামাজন রেডশিফ্ট কেবলমাত্র উচ্চ সঙ্গতিতে আরও ভাল পারফরম্যান্স সরবরাহ করতে সক্ষম নয়, এটি উল্লেখযোগ্যভাবে কম খরচে এটি করতে সক্ষম। মূল্য-পারফরম্যান্স চার্টের প্রতিটি ডেটা পয়েন্ট নির্দিষ্ট সঙ্গতিতে বেঞ্চমার্ক চালানোর খরচের সমতুল্য। মূল্য-পারফরম্যান্স রৈখিক হওয়ার কারণে, এই নির্দিষ্ট বেঞ্চমার্কের জন্য প্রতিটি নতুন ব্যবহারকারীর যোগ করার জন্য কত খরচ হবে তা আমাদের জানাতে আমরা যেকোন কনকারেন্সিতে বেঞ্চমার্ক চালানোর খরচকে কনকারেন্সি (এই চার্টে একযোগে ব্যবহারকারীর সংখ্যা) দ্বারা ভাগ করতে পারি।

পূর্ববর্তী ফলাফলগুলি অনুলিপি করা সহজ। বেঞ্চমার্কে ব্যবহৃত সমস্ত প্রশ্ন আমাদের পাওয়া যায় GitHub সংগ্রহস্থল এবং কর্মক্ষমতা একটি ডেটা গুদাম চালু করার মাধ্যমে পরিমাপ করা হয়, অ্যামাজন রেডশিফ্টে কনকারেন্সি স্কেলিং সক্ষম করে (বা অন্যান্য গুদামগুলিতে সংশ্লিষ্ট স্বয়ংক্রিয় স্কেলিং বৈশিষ্ট্য), বাক্সের বাইরে ডেটা লোড করা (কোনও ম্যানুয়াল টিউনিং বা ডেটাবেস-নির্দিষ্ট সেটআপ নেই) এবং তারপরে একটি চালান। প্রতিটি ডেটা গুদামে 1-এর ধাপে 200-32 থেকে একযোগে প্রশ্নের সমবর্তী স্ট্রীম। একই GitHub রেপো রেফারেন্সগুলি পূর্বে তৈরি (এবং অপরিবর্তিত) TPC-DS ডেটাতে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) অফিসিয়াল TPC-DS ডেটা জেনারেশন কিট ব্যবহার করে বিভিন্ন স্কেলে।

স্ট্রিং-ভারী কাজের চাপ অপ্টিমাইজ করা

আগেই উল্লিখিত হিসাবে, আমাজন রেডশিফ্ট দল ক্রমাগত আমাদের গ্রাহকদের জন্য আরও ভাল মূল্য-কর্মক্ষমতা প্রদানের জন্য নতুন সুযোগের সন্ধান করছে। একটি উন্নতি আমরা সম্প্রতি চালু করেছি যে উল্লেখযোগ্যভাবে উন্নত কর্মক্ষমতা হল একটি অপ্টিমাইজেশান যা স্ট্রিং ডেটার উপর প্রশ্নের কর্মক্ষমতাকে ত্বরান্বিত করে৷ উদাহরণস্বরূপ, আপনি নিউ ইয়র্ক সিটিতে অবস্থিত খুচরা দোকান থেকে উৎপন্ন মোট রাজস্ব জানতে চাইতে পারেন SELECT sum(price) FROM sales WHERE city = ‘New York’. এই প্রশ্নটি স্ট্রিং ডেটার উপর একটি পূর্বনির্ধারণ প্রয়োগ করছে (city = ‘New York’) আপনি যেমন কল্পনা করতে পারেন, স্ট্রিং ডেটা প্রসেসিং ডেটা গুদাম অ্যাপ্লিকেশনগুলিতে সর্বব্যাপী।

গ্রাহকদের কাজের চাপ কত ঘন ঘন স্ট্রিং অ্যাক্সেস করে তা পরিমাপ করার জন্য, আমরা Amazon Redshift দ্বারা পরিচালিত কয়েক হাজার গ্রাহক ক্লাস্টারের ফ্লিট টেলিমেট্রি ব্যবহার করে স্ট্রিং ডেটা টাইপ ব্যবহারের একটি বিশদ বিশ্লেষণ পরিচালনা করেছি। আমাদের বিশ্লেষণ ইঙ্গিত করে যে 90% ক্লাস্টারে, স্ট্রিং কলামগুলি সমস্ত কলামের কমপক্ষে 30% গঠন করে এবং 50% ক্লাস্টারে, স্ট্রিং কলামগুলি সমস্ত কলামের কমপক্ষে 50% গঠন করে। তাছাড়া, আমাজন রেডশিফ্ট ক্লাউড ডেটা ওয়ারহাউস প্ল্যাটফর্মে অন্তত একটি স্ট্রিং কলাম অ্যাক্সেস করার জন্য সমস্ত প্রশ্নের বেশিরভাগই চলে। আরেকটি গুরুত্বপূর্ণ বিষয় হল যে স্ট্রিং ডেটা প্রায়শই কম কার্ডিনালিটি হয়, যার অর্থ কলামগুলিতে অনন্য মানগুলির একটি অপেক্ষাকৃত ছোট সেট থাকে। উদাহরণস্বরূপ, যদিও একটি orders সেলস ডাটা প্রতিনিধিত্বকারী সারণিতে কোটি কোটি সারি থাকতে পারে, একটি order_status সেই টেবিলের মধ্যে থাকা কলামে সেই বিলিয়ন সারি জুড়ে শুধুমাত্র কয়েকটি অনন্য মান থাকতে পারে, যেমন pending, in process, এবং completed.

এই লেখা পর্যন্ত, অ্যামাজন রেডশিফ্টের বেশিরভাগ স্ট্রিং কলাম সংকুচিত হয় LZO or ZSTD অ্যালগরিদম এগুলি ভাল সাধারণ-উদ্দেশ্য কম্প্রেশন অ্যালগরিদম, তবে এগুলি কম-কার্ডিনালিটি স্ট্রিং ডেটার সুবিধা নেওয়ার জন্য ডিজাইন করা হয়নি। বিশেষ করে, তারা চালিত হওয়ার আগে ডেটা ডিকম্প্রেস করতে হবে এবং হার্ডওয়্যার মেমরি ব্যান্ডউইথ ব্যবহারে কম দক্ষ। লো-কার্ডিনালিটি ডেটার জন্য, অন্য ধরনের এনকোডিং রয়েছে যা আরও সর্বোত্তম হতে পারে: BYTEDICT. এই এনকোডিং একটি অভিধান-এনকোডিং স্কিম ব্যবহার করে যা ডাটাবেস ইঞ্জিনকে প্রথমে ডিকম্প্রেস করার প্রয়োজন ছাড়াই সংকুচিত ডেটার উপর সরাসরি কাজ করতে দেয়।

স্ট্রিং-ভারী কাজের চাপের জন্য মূল্য-পারফরম্যান্সকে আরও উন্নত করতে, Amazon Redshift এখন অতিরিক্ত কর্মক্ষমতা বর্ধিতকরণ প্রবর্তন করছে যা স্ক্যান এবং পূর্বাভাস মূল্যায়নের গতি বাড়ায়, BYTEDICT হিসাবে এনকোড করা লো-কার্ডিনালিটি স্ট্রিং কলামগুলির তুলনায়, 5-63 গুণ দ্রুত (এ ফলাফল দেখুন পরবর্তী বিভাগ) বিকল্প কম্প্রেশন এনকোডিং যেমন LZO বা ZSTD এর তুলনায়। অ্যামাজন রেডশিফ্ট লাইটওয়েট, CPU-দক্ষ, BYTEDICT-এনকোডেড, লো-কার্ডিনালিটি স্ট্রিং কলামগুলির উপর ভেক্টরাইজ করে স্ক্যান করে এই কর্মক্ষমতা উন্নতি অর্জন করে। এই স্ট্রিং-প্রসেসিং অপ্টিমাইজেশানগুলি আধুনিক হার্ডওয়্যার দ্বারা উপলব্ধ মেমরি ব্যান্ডউইথের কার্যকর ব্যবহার করে, স্ট্রিং ডেটার উপর রিয়েল-টাইম বিশ্লেষণ সক্ষম করে। এই নতুন প্রবর্তিত কর্মক্ষমতা কম কার্ডিনালিটি স্ট্রিং কলাম (কয়েক শত অনন্য স্ট্রিং মান পর্যন্ত) জন্য সর্বোত্তম।

সক্রিয় করার মাধ্যমে আপনি স্বয়ংক্রিয়ভাবে এই নতুন উচ্চ কর্মক্ষমতা স্ট্রিং বর্ধিতকরণ থেকে উপকৃত হতে পারেন স্বয়ংক্রিয় টেবিল অপ্টিমাইজেশান আপনার Amazon Redshift ডেটা গুদামে। আপনার টেবিলে স্বয়ংক্রিয় টেবিল অপ্টিমাইজেশন সক্ষম না থাকলে, আপনি এর থেকে সুপারিশ পেতে পারেন আমাজন রেডশিফ্ট উপদেষ্টা BYTEDICT এনকোডিংয়ের জন্য একটি স্ট্রিং কলামের উপযুক্ততার উপর Amazon Redshift কনসোলে। আপনি BYTEDICT এনকোডিং সহ লো-কার্ডিনালিটি স্ট্রিং কলাম আছে এমন নতুন সারণিও সংজ্ঞায়িত করতে পারেন। Amazon Redshift-এ স্ট্রিং বর্ধিতকরণগুলি এখন সমস্ত AWS অঞ্চলে উপলব্ধ অ্যামাজন রেডশিফ্ট উপলব্ধ.

কর্মক্ষমতা ফলাফল

আমাদের স্ট্রিং বর্ধিতকরণের পারফরম্যান্সের প্রভাব পরিমাপ করার জন্য, আমরা একটি 10TB (টেরা বাইট) ডেটাসেট তৈরি করেছি যা নিম্ন-কার্ডিনালিটি স্ট্রিং ডেটা নিয়ে গঠিত। আমরা আমাজন রেডশিফ্ট ফ্লিট টেলিমেট্রি থেকে স্ট্রিং দৈর্ঘ্যের 25তম, 50তম এবং 75তম শতাংশের সাথে সম্পর্কিত সংক্ষিপ্ত, মাঝারি এবং দীর্ঘ স্ট্রিং ব্যবহার করে ডেটার তিনটি সংস্করণ তৈরি করেছি। আমরা এই ডেটা দুবার Amazon Redshift-এ লোড করেছি, একটি ক্ষেত্রে LZO কম্প্রেশন ব্যবহার করে এবং অন্য ক্ষেত্রে BYTEDICT কম্প্রেশন ব্যবহার করে এনকোডিং করেছি। অবশেষে, আমরা স্ক্যান-ভারী প্রশ্নের কার্যকারিতা পরিমাপ করেছি যা অনেক সারি (সারণীর 90%), একটি মাঝারি সংখ্যক সারি (সারণীর 50%) এবং কয়েকটি সারি (সারণীর 1%) এই নিম্নগুলির উপর দেয় -কার্ডিনালিটি স্ট্রিং ডেটাসেট। কর্মক্ষমতা ফলাফল নিম্নলিখিত চার্টে সংক্ষিপ্ত করা হয়.

সারির উচ্চ শতাংশের সাথে মেলে এমন পূর্বাভাস সহ ক্যোয়ারীগুলি LZO-এর তুলনায় নতুন ভেক্টরাইজড BYTEDICT এনকোডিং এর সাথে 5-30 বার উন্নতি দেখেছে, যেখানে সারির কম শতাংশের সাথে মেলে এমন পূর্বাভাসগুলির সাথে এই অভ্যন্তরীণ বেঞ্চমার্কে 10-63 বার উন্নতি হয়েছে৷

Redshift সার্ভারহীন মূল্য-কর্মক্ষমতা

এই পোস্টে উপস্থাপিত উচ্চ-সঙ্গতিপূর্ণ কর্মক্ষমতা ফলাফল ছাড়াও, আমরা একটি বড় 3TB ডেটাসেট ব্যবহার করে অন্যান্য ডেটা গুদামের সাথে Redshift Serverless-এর মূল্য-কর্মক্ষমতা তুলনা করতে TPC-DS-প্রাপ্ত ক্লাউড ডেটা ওয়ারহাউস বেঞ্চমার্ক ব্যবহার করেছি। আমরা ডেটা গুদামগুলি বেছে নিয়েছি যেগুলির দাম একই রকম ছিল, এই ক্ষেত্রে সর্বজনীনভাবে উপলব্ধ অন-ডিমান্ড মূল্য ব্যবহার করে প্রতি ঘন্টায় $10-এর 32% এর মধ্যে৷ এই ফলাফলগুলি দেখায় যে, Amazon Redshift RA3 দৃষ্টান্তগুলির মতো, Redshift Serverless অন্যান্য নেতৃস্থানীয় ক্লাউড ডেটা গুদামগুলির তুলনায় ভাল মূল্য-কর্মক্ষমতা প্রদান করে৷ সর্বদা হিসাবে, এই ফলাফল আমাদের এসকিউএল স্ক্রিপ্ট ব্যবহার করে প্রতিলিপি করা যেতে পারে আমাদের GitHub সংগ্রহস্থল.

আমরা আপনাকে আপনার নিজস্ব ব্যবহার করে Amazon Redshift চেষ্টা করার জন্য উত্সাহিত করি ধারণা প্রমাণ কিভাবে Amazon Redshift আপনার ডেটা বিশ্লেষণের চাহিদা মেটাতে পারে তা দেখার সর্বোত্তম উপায় হিসাবে কাজের চাপ।

আপনার কাজের চাপের জন্য সেরা মূল্য-কর্মক্ষমতা খুঁজুন

এই পোস্টে ব্যবহৃত বেঞ্চমার্কগুলি ইন্ডাস্ট্রি-স্ট্যান্ডার্ড TPC-DS বেঞ্চমার্ক থেকে প্রাপ্ত, এবং নিম্নলিখিত বৈশিষ্ট্যগুলি রয়েছে:

  • স্কিমা এবং ডেটা TPC-DS থেকে অপরিবর্তিত ব্যবহার করা হয়।
  • টিপিসি-ডিএস কিটের ডিফল্ট র্যান্ডম বীজ ব্যবহার করে জেনারেট করা কোয়েরি প্যারামিটার সহ অফিসিয়াল TPC-DS কিট ব্যবহার করে প্রশ্নগুলি তৈরি করা হয়। TPC-অনুমোদিত ক্যোয়ারী ভেরিয়েন্টগুলি একটি গুদামের জন্য ব্যবহার করা হয় যদি গুদামটি ডিফল্ট TPC-DS কোয়েরির SQL উপভাষা সমর্থন না করে।
  • পরীক্ষায় 99 টিপিসি-ডিএস সিলেক্ট প্রশ্ন অন্তর্ভুক্ত রয়েছে। এটি রক্ষণাবেক্ষণ এবং থ্রুপুট পদক্ষেপগুলি অন্তর্ভুক্ত করে না।
  • একক 3TB কনকারেন্সি পরীক্ষার জন্য, তিনটি পাওয়ার রান চালানো হয়েছিল এবং প্রতিটি ডেটা গুদামের জন্য সেরা রান নেওয়া হয়।
  • TPC-DS প্রশ্নের জন্য মূল্য-কর্মক্ষমতা ঘন্টায় বেঞ্চমার্ক রানটাইম প্রতি ঘন্টা (USD) গুণ হিসাবে গণনা করা হয়, যা বেঞ্চমার্ক চালানোর খরচের সমতুল্য। সর্বশেষ প্রকাশিত অন-ডিমান্ড মূল্য সমস্ত ডেটা গুদামের জন্য ব্যবহৃত হয় এবং পূর্বে উল্লিখিত হিসাবে সংরক্ষিত ইনস্ট্যান্স মূল্য নয়।

আমরা এটিকে ক্লাউড ডেটা ওয়্যারহাউস বেঞ্চমার্ক বলি, এবং আপনি সহজে আমাদের স্ক্রিপ্ট, প্রশ্ন এবং ডেটা ব্যবহার করে পূর্ববর্তী বেঞ্চমার্ক ফলাফলগুলি পুনরুত্পাদন করতে পারেন GitHub সংগ্রহস্থল. এটি এই পোস্টে বর্ণিত TPC-DS বেঞ্চমার্ক থেকে উদ্ভূত হয়েছে, এবং এটি প্রকাশিত TPC-DS ফলাফলের সাথে তুলনীয় নয়, কারণ আমাদের পরীক্ষার ফলাফল অফিসিয়াল স্পেসিফিকেশন মেনে চলে না।

উপসংহার

Amazon Redshift কাজের চাপের বিস্তৃত বৈচিত্র্যের জন্য শিল্পের সেরা মূল্য-কর্মক্ষমতা প্রদান করতে প্রতিশ্রুতিবদ্ধ। রেডশিফ্ট সার্ভারলেস স্কেল সর্বোত্তম (সর্বনিম্ন) মূল্য-পারফরম্যান্সের সাথে রৈখিকভাবে, সামঞ্জস্যপূর্ণ ক্যোয়ারী প্রতিক্রিয়া সময় বজায় রেখে শত শত সমবর্তী ব্যবহারকারীদের সমর্থন করে। এই পোস্টে আলোচনা করা পরীক্ষার ফলাফলের উপর ভিত্তি করে, নিকটতম প্রতিযোগীর (প্রতিযোগী B) তুলনায় অ্যামাজন রেডশিফ্ট-এর একই স্তরে 2.6 গুণ পর্যন্ত ভাল মূল্য-কর্মক্ষমতা রয়েছে। আগেই উল্লেখ করা হয়েছে, 3-বছরের সমস্ত আপফ্রন্ট বিকল্পের সাথে সংরক্ষিত দৃষ্টান্তগুলি ব্যবহার করা আপনাকে অ্যামাজন রেডশিফ্ট চালানোর জন্য সর্বনিম্ন খরচ দেয়, যার ফলে আমরা এই পোস্টে ব্যবহার করা অন-ডিমান্ড ইন্সট্যান্স মূল্যের তুলনায় আরও ভাল আপেক্ষিক মূল্য-পারফরম্যান্স তৈরি করে। ক্রমাগত পারফরম্যান্সের উন্নতির জন্য আমাদের দৃষ্টিভঙ্গিতে গ্রাহকের ব্যবহারের ক্ষেত্রে এবং তাদের সম্পর্কিত স্কেলেবিলিটি বাধাগুলি বোঝার জন্য গ্রাহকের আবেশের একটি অনন্য সংমিশ্রণ জড়িত এবং উল্লেখযোগ্য কর্মক্ষমতা অপ্টিমাইজেশান করার সুযোগগুলি চিহ্নিত করার জন্য অবিচ্ছিন্ন ফ্লিট ডেটা বিশ্লেষণের সাথে জড়িত।

প্রতিটি কাজের চাপের অনন্য বৈশিষ্ট্য রয়েছে, তাই আপনি যদি সবে শুরু করছেন, ক ধারণা প্রমাণ কিভাবে Amazon Redshift আপনার খরচ কমাতে পারে তা বোঝার সর্বোত্তম উপায় হল আরও ভাল পারফরম্যান্স প্রদান করার সময়। আপনার নিজস্ব ধারণার প্রমাণ চালানোর সময়, সঠিক মেট্রিক্সের উপর ফোকাস করা গুরুত্বপূর্ণ—কোয়েরি থ্রুপুট (প্রতি ঘণ্টায় প্রশ্নের সংখ্যা), প্রতিক্রিয়ার সময় এবং মূল্য-কর্মক্ষমতা। আপনি নিজে থেকে ধারণার প্রমাণ চালিয়ে ডেটা-চালিত সিদ্ধান্ত নিতে পারেন বা সাহায্যের সাথে AWS বা ক থেকে সিস্টেম ইন্টিগ্রেশন এবং পরামর্শ অংশীদার.

অ্যামাজন রেডশিফ্টের সর্বশেষ উন্নয়নের সাথে আপ টু ডেট থাকতে, অনুসরণ করুন অ্যামাজন রেডশিফটে নতুন কি ভোজন।


লেখক সম্পর্কে

স্টেফান গ্রোমল আমাজন রেডশিফ্ট টিমের একজন সিনিয়র পারফরম্যান্স ইঞ্জিনিয়ার যেখানে তিনি রেডশিফ্ট কর্মক্ষমতা পরিমাপ এবং উন্নত করার জন্য দায়ী৷ তার অবসর সময়ে, সে রান্না, তার তিন ছেলের সাথে খেলতে এবং কাঠ কাটা উপভোগ করে।

রবি অনিমি অ্যামাজন রেডশিফ্ট টিমের একজন সিনিয়র প্রোডাক্ট ম্যানেজমেন্ট লিডার এবং অ্যামাজন রেডশিফ্ট ক্লাউড ডেটা ওয়ারহাউস পরিষেবার কর্মক্ষমতা, স্থানিক বিশ্লেষণ, স্ট্রিমিং ইনজেশন এবং মাইগ্রেশন কৌশল সহ বেশ কয়েকটি কার্যকরী ক্ষেত্র পরিচালনা করে। রিলেশনাল ডাটাবেস, মাল্টি-ডাইমেনশনাল ডাটাবেস, আইওটি প্রযুক্তি, স্টোরেজ এবং কম্পিউট অবকাঠামো পরিষেবা এবং সম্প্রতি এআই/ডিপ লার্নিং, কম্পিউটার ভিশন এবং রোবোটিক্স ব্যবহার করে স্টার্টআপ প্রতিষ্ঠাতা হিসেবে তার অভিজ্ঞতা রয়েছে।

আমের শাহ অ্যামাজন রেডশিফ্ট সার্ভিস টিমের একজন সিনিয়র ইঞ্জিনিয়ার।

সংকেত হাসি অ্যামাজন রেডশিফ্ট সার্ভিস টিমের একজন সফটওয়্যার ডেভেলপমেন্ট ম্যানেজার।

ওরেস্টিস পলিক্রোনিউ আমাজন রেডশিফ্ট সার্ভিস টিমের একজন প্রধান প্রকৌশলী।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস বিগ ডেটা

অ্যাপাচি স্পার্কের জন্য অ্যামাজন রেডশিফ্ট ইন্টিগ্রেশন সহ অ্যামাজন রেডশিফ্ট ডেটাতে অ্যাপাচি স্পার্ক অ্যাপ্লিকেশানগুলিকে সরল করুন এবং গতি বাড়ান

উত্স নোড: 2597866
সময় স্ট্যাম্প: এপ্রিল 20, 2023