ডেটা গুদামঘর এবং ডেটা গুদাম প্ল্যাটফর্মে সম্পাদিত বিশ্লেষণের গুরুত্ব বছরের পর বছর ধরে ক্রমাগত বৃদ্ধি পাচ্ছে, অনেক ব্যবসা এই সিস্টেমগুলির উপর স্বল্পমেয়াদী অপারেশনাল সিদ্ধান্ত গ্রহণ এবং দীর্ঘমেয়াদী কৌশলগত পরিকল্পনা উভয়ের জন্য মিশন-সমালোচনা হিসাবে নির্ভর করতে আসছে। ঐতিহ্যগতভাবে, ডেটা গুদামগুলি ব্যাচ চক্রে রিফ্রেশ করা হয়, উদাহরণস্বরূপ, মাসিক, সাপ্তাহিক বা দৈনিক, যাতে ব্যবসাগুলি তাদের থেকে বিভিন্ন অন্তর্দৃষ্টি পেতে পারে।
অনেক সংস্থা উপলব্ধি করছে যে উন্নত বিশ্লেষণের সাথে কাছাকাছি-রিয়েল-টাইম ডেটা ইনজেশন নতুন সুযোগ উন্মুক্ত করে। উদাহরণস্বরূপ, একটি আর্থিক প্রতিষ্ঠান ব্যাচ মোডের পরিবর্তে কাছাকাছি-রিয়েল-টাইম মোডে একটি অসঙ্গতি সনাক্তকরণ প্রোগ্রাম চালানোর মাধ্যমে একটি ক্রেডিট কার্ড লেনদেন জালিয়াতি কিনা তা অনুমান করতে পারে।
এই পোস্টে, আমরা দেখান কিভাবে আমাজন রেডশিফ্ট একটি প্ল্যাটফর্মে স্ট্রিমিং ইনজেশন এবং মেশিন লার্নিং (ML) পূর্বাভাস প্রদান করতে পারে।
Amazon Redshift হল একটি দ্রুত, মাপযোগ্য, সুরক্ষিত এবং সম্পূর্ণরূপে পরিচালিত ক্লাউড ডেটা গুদাম যা স্ট্যান্ডার্ড SQL ব্যবহার করে আপনার সমস্ত ডেটা বিশ্লেষণ করা সহজ এবং সাশ্রয়ী করে তোলে৷
আমাজন রেডশিফ্ট এমএল ডেটা বিশ্লেষক এবং ডাটাবেস ডেভেলপারদের জন্য অ্যামাজন রেডশিফ্ট ডেটা গুদামগুলিতে পরিচিত SQL কমান্ড ব্যবহার করে এমএল মডেল তৈরি, প্রশিক্ষণ এবং প্রয়োগ করা সহজ করে তোলে।
আমরা চালু করতে উত্তেজিত অ্যামাজন রেডশিফ্ট স্ট্রিমিং ইনজেশন উন্নত অ্যামাজন কিনসিস ডেটা স্ট্রিম এবং Apache Kafka-এর জন্য Amazon পরিচালিত স্ট্রিমিং (Amazon MSK), যা আপনাকে সরাসরি কাইনেসিস ডেটা স্ট্রীম বা কাফকা টপিক থেকে ডেটা গ্রহণ করতে সক্ষম করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3)। অ্যামাজন রেডশিফ্ট স্ট্রিমিং ইনজেশন আপনাকে আপনার ডেটা গুদামে কয়েকশ মেগাবাইট ডেটা ইনজেস্ট করার সময় সেকেন্ডের ক্রমে কম লেটেন্সি অর্জন করতে দেয়।
এই পোস্টটি দেখায় কিভাবে অ্যামাজন রেডশিফ্ট, ক্লাউড ডেটা গুদাম আপনাকে অ্যামাজন রেডশিফ্ট স্ট্রিমিং ইনজেশন এবং পরিচিত SQL ভাষার সাথে Redshift ML বৈশিষ্ট্যগুলি ব্যবহার করে কাছাকাছি-রিয়েল-টাইম ML পূর্বাভাস তৈরি করতে দেয়৷
সমাধান ওভারভিউ
এই পোস্টে বর্ণিত পদক্ষেপগুলি অনুসরণ করে, আপনি একটি প্রযোজক স্ট্রিমার অ্যাপ্লিকেশন সেট আপ করতে সক্ষম হবেন অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2) উদাহরণ যা ক্রেডিট কার্ড লেনদেন অনুকরণ করে এবং রিয়েল টাইমে কাইনেসিস ডেটা স্ট্রিমগুলিতে ডেটা পুশ করে৷ আপনি Amazon Redshift-এ একটি Amazon Redshift স্ট্রিমিং ইনজেশন ম্যাটেরিয়ালাইজড ভিউ সেট আপ করেছেন, যেখানে স্ট্রিমিং ডেটা পাওয়া যায়। স্ট্রিমিং ডেটার বিরুদ্ধে রিয়েল-টাইম ইনফারেন্স তৈরি করতে আপনি একটি রেডশিফ্ট এমএল মডেলকে প্রশিক্ষণ দেন এবং তৈরি করেন।
নিম্নলিখিত চিত্রটি স্থাপত্য এবং প্রক্রিয়া প্রবাহকে চিত্রিত করে।
ধাপে ধাপে প্রক্রিয়াটি নিম্নরূপ:
- EC2 দৃষ্টান্ত একটি ক্রেডিট কার্ড লেনদেন অ্যাপ্লিকেশন অনুকরণ করে, যা ক্রেডিট কার্ড লেনদেনগুলি কাইনেসিস ডেটা স্ট্রীমে সন্নিবেশিত করে।
- ডেটা স্ট্রীম ইনকামিং ক্রেডিট কার্ড লেনদেনের ডেটা সঞ্চয় করে।
- একটি অ্যামাজন রেডশিফ্ট স্ট্রিমিং ইনজেশন ম্যাটেরিয়ালাইজড ভিউ ডেটা স্ট্রিমের উপরে তৈরি করা হয়, যা স্বয়ংক্রিয়ভাবে অ্যামাজন রেডশিফ্টে স্ট্রিমিং ডেটা প্রবেশ করে।
- আপনি Redshift ML ব্যবহার করে একটি ML মডেল তৈরি, প্রশিক্ষণ এবং স্থাপন করেন। Redshift ML মডেল ঐতিহাসিক লেনদেন ডেটা ব্যবহার করে প্রশিক্ষিত।
- আপনি স্ট্রিমিং ডেটা রূপান্তরিত করেন এবং এমএল পূর্বাভাস তৈরি করেন।
- আপনি গ্রাহকদের সতর্ক করতে পারেন বা ঝুঁকি কমাতে অ্যাপ্লিকেশন আপডেট করতে পারেন।
এই ওয়াকথ্রু ক্রেডিট কার্ড লেনদেন স্ট্রিমিং ডেটা ব্যবহার করে। ক্রেডিট কার্ডের লেনদেন ডেটা কাল্পনিক এবং এটি একটি উপর ভিত্তি করে কাল্পনিক. গ্রাহক ডেটাসেটটিও কাল্পনিক এবং কিছু র্যান্ডম ডেটা ফাংশন দিয়ে তৈরি করা হয়।
পূর্বশর্ত
- একটি Amazon Redshift ক্লাস্টার তৈরি করুন.
- Redshift ML ব্যবহার করার জন্য ক্লাস্টার কনফিগার করুন.
- সৃষ্টি an এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (IAM) ব্যবহারকারী।
- Kinesis ডেটা স্ট্রীম অ্যাক্সেস করার অনুমতি অন্তর্ভুক্ত করতে Redshift ক্লাস্টারে সংযুক্ত IAM ভূমিকা আপডেট করুন। প্রয়োজনীয় নীতি সম্পর্কে আরও তথ্যের জন্য, পড়ুন স্ট্রিমিং ইনজেশন দিয়ে শুরু করা হচ্ছে.
- একটি m5.4x বৃহৎ EC2 উদাহরণ তৈরি করুন. আমরা m5.4xlarge দৃষ্টান্ত সহ প্রযোজক অ্যাপ্লিকেশন পরীক্ষা করেছি কিন্তু আপনি অন্য উদাহরণের ধরণ ব্যবহার করতে পারবেন। উদাহরণ তৈরি করার সময়, ব্যবহার করুন amzn2-ami-kernel-5.10-hvm-2.0.20220426.0-x86_64-gp2 আমি কি.
- EC3 দৃষ্টান্তে Python2 ইনস্টল করা আছে তা নিশ্চিত করতে, আপনার Python সংস্করণ যাচাই করতে নিম্নলিখিত কমান্ডটি চালান (মনে রাখবেন যে ডেটা নিষ্কাশন স্ক্রিপ্ট শুধুমাত্র Python 3 এ কাজ করে):
- সিমুলেটর প্রোগ্রাম চালানোর জন্য নিম্নলিখিত নির্ভরশীল প্যাকেজগুলি ইনস্টল করুন:
- উপরের ধাপ 2 এ তৈরি IAM ব্যবহারকারীর জন্য তৈরি করা AWS শংসাপত্রের মত ভেরিয়েবল ব্যবহার করে Amazon EC3 কনফিগার করুন। নিম্নলিখিত স্ক্রিনশট ব্যবহার করে একটি উদাহরণ দেখায় aws কনফিগার করুন.
Kinesis ডেটা স্ট্রীম সেট আপ করুন
Amazon Kinesis Data Strems হল একটি ব্যাপকভাবে মাপযোগ্য এবং টেকসই রিয়েল-টাইম ডেটা স্ট্রিমিং পরিষেবা৷ এটি ওয়েবসাইট ক্লিকস্ট্রিম, ডাটাবেস ইভেন্ট স্ট্রীম, আর্থিক লেনদেন, সোশ্যাল মিডিয়া ফিড, আইটি লগ এবং অবস্থান-ট্র্যাকিং ইভেন্টের মতো কয়েক হাজার উৎস থেকে প্রতি সেকেন্ডে গিগাবাইট ডেটা ক্রমাগত ক্যাপচার করতে পারে। রিয়েল-টাইম ড্যাশবোর্ড, রিয়েল-টাইম অসঙ্গতি সনাক্তকরণ, গতিশীল মূল্য এবং আরও অনেক কিছুর মতো রিয়েল-টাইম অ্যানালিটিক্স ব্যবহারের ক্ষেত্রে সক্ষম করার জন্য সংগৃহীত ডেটা মিলিসেকেন্ডে উপলব্ধ। আমরা কাইনেসিস ডেটা স্ট্রীম ব্যবহার করি কারণ এটি একটি সার্ভারহীন সমাধান যা ব্যবহারের উপর ভিত্তি করে স্কেল করতে পারে।
একটি Kinesis ডেটা স্ট্রিম তৈরি করুন
প্রথমত, স্ট্রিমিং ডেটা পাওয়ার জন্য আপনাকে একটি কাইনেসিস ডেটা স্ট্রিম তৈরি করতে হবে:
- Amazon Kinesis কনসোলে, নির্বাচন করুন ডেটা স্ট্রিম নেভিগেশন ফলকে।
- বেছে নিন ডেটা স্ট্রিম তৈরি করুন.
- জন্য ডেটা স্ট্রিম নামপ্রবেশ করান
cust-payment-txn-stream
. - জন্য ক্ষমতা মোড, নির্বাচন করুন চাহিদা সাপেক্ষে.
- বাকি বিকল্পগুলির জন্য, ডিফল্ট বিকল্পগুলি বেছে নিন এবং সেটআপ সম্পূর্ণ করতে প্রম্পটগুলি অনুসরণ করুন৷
- আপনার IAM নীতি নির্ধারণ করার সময় পরবর্তী বিভাগে ব্যবহার করার জন্য তৈরি করা ডেটা স্ট্রিমের জন্য ARN ক্যাপচার করুন।
অনুমতি সেট আপ করুন
কাইনেসিস ডেটা স্ট্রিমগুলিতে লেখার জন্য একটি স্ট্রিমিং অ্যাপ্লিকেশনের জন্য, অ্যাপ্লিকেশনটির কাইনেসিস-এ অ্যাক্সেস থাকতে হবে। আপনি নিম্নলিখিত নীতি বিবৃতি ব্যবহার করতে পারেন সিমুলেটর প্রক্রিয়াটি মঞ্জুর করতে যা আপনি পরবর্তী বিভাগে ডেটা স্ট্রীমে অ্যাক্সেস সেট আপ করেছেন। আগের ধাপে আপনি যে ডেটা স্ট্রিম সেভ করেছেন তার ARN ব্যবহার করুন।
স্ট্রিম প্রযোজক কনফিগার করুন
আমরা অ্যামাজন রেডশিফটে স্ট্রিমিং ডেটা ব্যবহার করতে পারার আগে, আমাদের একটি স্ট্রিমিং ডেটা উত্স প্রয়োজন যা কাইনেসিস ডেটা স্ট্রীমে ডেটা লেখে। এই পোস্টটি একটি কাস্টম-নির্মিত ডেটা জেনারেটর ব্যবহার করে এবং Python (Boto3) এর জন্য AWS SDK ডেটা স্ট্রীমে ডেটা প্রকাশ করতে। সেটআপ নির্দেশাবলীর জন্য, পড়ুন প্রযোজক সিমুলেটর. এই সিমুলেটর প্রক্রিয়াটি পূর্ববর্তী ধাপে তৈরি ডেটা স্ট্রীমে স্ট্রিমিং ডেটা প্রকাশ করে (cust-payment-txn-stream
).
স্ট্রিম ভোক্তা কনফিগার করুন
এই বিভাগটি স্ট্রীম গ্রাহককে কনফিগার করার বিষয়ে কথা বলে (Amazon Redshift স্ট্রিমিং ইনজেশন ভিউ)।
অ্যামাজন রেডশিফ্ট স্ট্রিমিং ইনজেশন একটি অ্যামাজন রেডশিফ্ট ম্যাটেরিয়ালাইজড ভিউতে কাইনেসিস ডেটা স্ট্রিম থেকে স্ট্রিমিং ডেটার কম লেটেন্সি, হাই-স্পিড ইনজেশন প্রদান করে। আপনি স্ট্রিমিং ইনজেশন সক্ষম করতে আপনার অ্যামাজন রেডশিফ্ট ক্লাস্টার কনফিগার করতে পারেন এবং এসকিউএল স্টেটমেন্ট ব্যবহার করে স্বয়ংক্রিয় রিফ্রেশের সাথে একটি বস্তুগত ভিউ তৈরি করতে পারেন, যেমন বর্ণনা করা হয়েছে Amazon Redshift এ বস্তুগত দৃশ্য তৈরি করা. স্বয়ংক্রিয় বাস্তবায়িত ভিউ রিফ্রেশ প্রক্রিয়াটি কাইনেসিস ডেটা স্ট্রিম থেকে অ্যামাজন রেডশিফ্টে প্রতি সেকেন্ডে শত শত মেগাবাইট ডেটা স্ট্রিমিং ডেটা গ্রহণ করবে। এর ফলে বাহ্যিক ডেটাতে দ্রুত অ্যাক্সেস পাওয়া যায় যা দ্রুত রিফ্রেশ হয়।
বস্তুগত দৃষ্টিভঙ্গি তৈরি করার পরে, আপনি SQL ব্যবহার করে ডেটা স্ট্রিম থেকে আপনার ডেটা অ্যাক্সেস করতে পারেন এবং সরাসরি স্ট্রিমের উপরে বস্তুগত দৃশ্য তৈরি করে আপনার ডেটা পাইপলাইনগুলি সরল করতে পারেন৷
অ্যামাজন রেডশিফ্ট স্ট্রিমিং ম্যাটেরিয়ালাইজড ভিউ কনফিগার করতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- IAM কনসোলে, নেভিগেশন প্যানে নীতিগুলি বেছে নিন।
- বেছে নিন নীতি তৈরি করুন.
- নামে একটি নতুন আইএএম নীতি তৈরি করুন
KinesisStreamPolicy
. স্ট্রিমিং নীতির সংজ্ঞার জন্য, দেখুন স্ট্রিমিং ইনজেশন দিয়ে শুরু করা হচ্ছে. - নেভিগেশন ফলকে, নির্বাচন করুন ভূমিকা.
- ভূমিকা তৈরি করুন চয়ন করুন।
- নির্বাচন করা এডাব্লুএস পরিষেবা এবং নির্বাচন করুন Redshift এবং Redshift কাস্টমাইজযোগ্য.
- নামে একটি নতুন ভূমিকা তৈরি করুন
redshift-streaming-role
এবং নীতি সংযুক্ত করুনKinesisStreamPolicy
. - কাইনেসিস ডেটা স্ট্রীমগুলিতে ম্যাপ করতে একটি বাহ্যিক স্কিমা তৈরি করুন:
এখন আপনি স্ট্রিম ডেটা ব্যবহার করার জন্য একটি বস্তুগত দৃশ্য তৈরি করতে পারেন। আপনি JSON ফর্ম্যাটে পেলোড সংরক্ষণ করতে সুপার ডেটা টাইপ ব্যবহার করতে পারেন, অথবা পৃথক কলামে JSON ডেটা পার্স করতে Amazon Redshift JSON ফাংশন ব্যবহার করতে পারেন। এই পোস্টের জন্য, আমরা দ্বিতীয় পদ্ধতিটি ব্যবহার করি কারণ স্কিমাটি ভালভাবে সংজ্ঞায়িত করা হয়েছে।
- স্ট্রিমিং ইনজেশন ম্যাটেরিয়ালাইজড ভিউ তৈরি করুন
cust_payment_tx_stream
. নিম্নলিখিত কোডে অটো রিফ্রেশ হ্যাঁ উল্লেখ করে, আপনি স্ট্রিমিং ইনজেশন ভিউ-এর স্বয়ংক্রিয় রিফ্রেশ সক্ষম করতে পারেন, যা ডেটা পাইপলাইন তৈরি করা এড়িয়ে সময় বাঁচায়:
মনে রাখবেন যে json_extract_path_text
একটি দৈর্ঘ্য সীমা 64 KB আছে. এছাড়াও from_varbye ফিল্টার 65KB এর চেয়ে বড় রেকর্ড করে।
- ডেটা রিফ্রেশ করুন।
Amazon Redshift স্ট্রিমিং ম্যাটেরিয়ালাইজড ভিউ আপনার জন্য Amazon Redshift দ্বারা স্বয়ংক্রিয়ভাবে রিফ্রেশ করা হয়েছে। এইভাবে, আপনার ডেটা অচলতা সম্পর্কে চিন্তা করার দরকার নেই। বস্তুগত ভিউ স্বয়ংক্রিয় রিফ্রেশের সাথে, ডেটা স্বয়ংক্রিয়ভাবে Amazon Redshift-এ লোড হয় কারণ এটি স্ট্রীমে উপলব্ধ হয়। আপনি যদি ম্যানুয়ালি এই ক্রিয়াকলাপটি সম্পাদন করতে চান তবে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
- এখন নমুনা ডেটা দেখতে স্ট্রিমিং ম্যাটেরিয়ালাইজড ভিউকে জিজ্ঞাসা করা যাক:
- এখন স্ট্রিমিং ভিউতে কতগুলি রেকর্ড আছে তা পরীক্ষা করা যাক:
এখন আপনি Amazon Redshift স্ট্রিমিং ইনজেশন ভিউ সেট আপ করা শেষ করেছেন, যা ক্রমাগত ইনকামিং ক্রেডিট কার্ড লেনদেন ডেটার সাথে আপডেট করা হয়। আমার সেটআপে, আমি দেখছি যে প্রায় 67,000 রেকর্ড স্ট্রিমিং ভিউতে টেনে আনা হয়েছে যখন আমি আমার নির্বাচিত গণনা ক্যোয়ারী চালিয়েছিলাম। এই সংখ্যা আপনার জন্য ভিন্ন হতে পারে.
রেডশিফ্ট এমএল
Redshift ML এর সাথে, আপনি একটি প্রাক-প্রশিক্ষিত ML মডেল আনতে পারেন বা স্থানীয়ভাবে একটি তৈরি করতে পারেন। আরো তথ্যের জন্য, পড়ুন অ্যামাজন রেডশিফটে মেশিন লার্নিং ব্যবহার করা.
এই পোস্টে, আমরা একটি ঐতিহাসিক ডেটাসেট ব্যবহার করে একটি ML মডেলকে প্রশিক্ষণ দিই এবং তৈরি করি। তথ্য ধারণ করে একটি tx_fraud
ক্ষেত্র যা একটি ঐতিহাসিক লেনদেনকে জালিয়াতি বা না হিসাবে চিহ্নিত করে৷ আমরা Redshift Auto ML ব্যবহার করে একটি তত্ত্বাবধানে ML মডেল তৈরি করি, যা এই ডেটাসেট থেকে শেখে এবং আগত লেনদেনের পূর্বাভাস দেয় যখন সেগুলি ভবিষ্যদ্বাণী ফাংশনের মাধ্যমে চালানো হয়।
নিম্নলিখিত বিভাগে, আমরা কীভাবে ঐতিহাসিক ডেটাসেট এবং গ্রাহক ডেটা সেট আপ করতে হয় তা দেখাই।
ঐতিহাসিক ডেটাসেট লোড করুন
ঐতিহাসিক সারণীতে স্ট্রিমিং ডেটা উৎসের চেয়ে বেশি ক্ষেত্র রয়েছে। এই ক্ষেত্রগুলিতে গ্রাহকের সাম্প্রতিক ব্যয় এবং টার্মিনাল ঝুঁকির স্কোর রয়েছে, যেমন স্ট্রিমিং ডেটা রূপান্তর করে গণনা করা প্রতারণামূলক লেনদেনের সংখ্যা। সপ্তাহান্তে লেনদেন বা রাতের লেনদেনের মতো শ্রেণীগত পরিবর্তনশীলও রয়েছে।
ঐতিহাসিক তথ্য লোড করতে, ব্যবহার করে কমান্ড চালান আমাজন রেডশিফ্ট ক্যোয়ারী সম্পাদক.
নিম্নলিখিত কোড দিয়ে লেনদেনের ইতিহাস টেবিল তৈরি করুন। DDL এছাড়াও পাওয়া যাবে GitHub.
কতগুলি লেনদেন লোড হয়েছে তা পরীক্ষা করা যাক:
মাসিক জালিয়াতি এবং অ-জালিয়াতি লেনদেনের প্রবণতা পরীক্ষা করুন:
গ্রাহকের ডেটা তৈরি করুন এবং লোড করুন
এখন আমরা গ্রাহক টেবিল তৈরি করি এবং ডেটা লোড করি, যাতে গ্রাহকের ইমেল এবং ফোন নম্বর থাকে। নিম্নলিখিত কোডটি টেবিল তৈরি করে, ডেটা লোড করে এবং টেবিলের নমুনা দেয়। টেবিল DDL পাওয়া যায় GitHub.
আমাদের পরীক্ষার ডেটাতে প্রায় 5,000 গ্রাহক রয়েছে। নিম্নলিখিত স্ক্রিনশট নমুনা গ্রাহক ডেটা দেখায়.
একটি ML মডেল তৈরি করুন
আমাদের ঐতিহাসিক কার্ড লেনদেনের সারণীতে 6 মাসের ডেটা রয়েছে, যা আমরা এখন প্রশিক্ষণ এবং ML মডেল পরীক্ষা করতে ব্যবহার করি।
মডেলটি নিম্নলিখিত ক্ষেত্রগুলিকে ইনপুট হিসাবে নেয়:
আমরা পেতে tx_fraud
আউটপুট হিসাবে।
আমরা এই ডেটাকে প্রশিক্ষণ এবং পরীক্ষার ডেটাসেটে বিভক্ত করি। 2022-04-01 থেকে 2022-07-31 পর্যন্ত লেনদেনগুলি প্রশিক্ষণ সেটের জন্য। পরীক্ষা সেটের জন্য 2022-08-01 থেকে 2022-09-30 পর্যন্ত লেনদেন ব্যবহার করা হয়।
পরিচিত SQL ব্যবহার করে ML মডেল তৈরি করা যাক মডেল বিবৃতি তৈরি করুন. আমরা Redshift ML কমান্ডের একটি মৌলিক ফর্ম ব্যবহার করি। নিম্নলিখিত পদ্ধতি ব্যবহার করে অ্যামাজন সেজমেকার অটোপাইলট, যা আপনার জন্য স্বয়ংক্রিয়ভাবে ডেটা প্রস্তুতি, বৈশিষ্ট্য প্রকৌশল, মডেল নির্বাচন এবং প্রশিক্ষণ সঞ্চালন করে। কোড সহ আপনার S3 বাকেটের নাম দিন।
আমি ML মডেল হিসাবে কল Cust_cc_txn_fd
, এবং ভবিষ্যদ্বাণী ফাংশন হিসাবে fn_customer_cc_fd
. FROM ক্লজ ঐতিহাসিক টেবিল থেকে ইনপুট কলাম দেখায় public.cust_payment_tx_history
. লক্ষ্য পরামিতি সেট করা আছে tx_fraud
, যা লক্ষ্য ভেরিয়েবল যা আমরা ভবিষ্যদ্বাণী করার চেষ্টা করছি। IAM_Role
ডিফল্ট হিসাবে সেট করা হয়েছে কারণ ক্লাস্টারটি এই ভূমিকার সাথে কনফিগার করা হয়েছে; যদি না হয়, আপনাকে আপনার Amazon Redshift ক্লাস্টার IAM ভূমিকা ARN প্রদান করতে হবে। আমি সেট max_runtime
3,600 সেকেন্ড, যা আমরা সেজমেকারকে প্রক্রিয়াটি সম্পূর্ণ করার জন্য সময় দিই। Redshift ML এই সময়ের মধ্যে চিহ্নিত সেরা মডেল স্থাপন করে।
মডেলের জটিলতা এবং ডেটার পরিমাণের উপর নির্ভর করে, মডেলটি উপলব্ধ হতে কিছুটা সময় লাগতে পারে। আপনি যদি দেখেন যে আপনার মডেল নির্বাচন সম্পূর্ণ হচ্ছে না, এর মান বাড়ান max_runtime
. আপনি 9999 এর সর্বোচ্চ মান সেট করতে পারেন।
CREATE MODEL কমান্ডটি অ্যাসিঙ্ক্রোনাসভাবে চালানো হয়, যার মানে এটি ব্যাকগ্রাউন্ডে চলে। আপনি ব্যবহার করতে পারেন মডেল দেখান মডেলের অবস্থা দেখতে কমান্ড। যখন স্ট্যাটাসটি রেডি হিসাবে দেখায়, তখন এর মানে মডেলটি প্রশিক্ষিত এবং স্থাপন করা হয়েছে৷
নিম্নলিখিত স্ক্রিনশটগুলি আমাদের আউটপুট দেখায়।
আউটপুট থেকে, আমি দেখতে পাচ্ছি যে মডেলটি সঠিকভাবে স্বীকৃত হয়েছে BinaryClassification
, এবং F1 উদ্দেশ্য হিসাবে নির্বাচিত হয়েছে। দ্য F1 স্কোর একটি মেট্রিক যা উভয় বিবেচনা করে নির্ভুলতা এবং প্রত্যাহার. এটি 1 (নিখুঁত নির্ভুলতা এবং স্মরণ) এবং 0 (সর্বনিম্ন সম্ভাব্য স্কোর) এর মধ্যে একটি মান প্রদান করে। আমার ক্ষেত্রে, এটি 0.91। মান যত বেশি, মডেলের কর্মক্ষমতা তত বেশি।
আসুন টেস্ট ডেটাসেটের সাথে এই মডেলটি পরীক্ষা করি। নিম্নলিখিত কমান্ডটি চালান, যা নমুনা পূর্বাভাস পুনরুদ্ধার করে:
আমরা দেখি যে কিছু মান মিলে যাচ্ছে এবং কিছু নেই। আসুন স্থল সত্যের সাথে ভবিষ্যদ্বাণীগুলির তুলনা করি:
আমরা যাচাই করেছি যে মডেলটি কাজ করছে এবং F1 স্কোর ভাল। আসুন স্ট্রিমিং ডেটাতে ভবিষ্যদ্বাণী তৈরি করার দিকে এগিয়ে যাই।
প্রতারণামূলক লেনদেনের পূর্বাভাস
যেহেতু Redshift ML মডেলটি ব্যবহারের জন্য প্রস্তুত, আমরা স্ট্রিমিং ডেটা ইনজেশনের বিরুদ্ধে পূর্বাভাস চালানোর জন্য এটি ব্যবহার করতে পারি। ঐতিহাসিক ডেটাসেটে আমাদের স্ট্রিমিং ডেটা উৎসের চেয়ে বেশি ক্ষেত্র রয়েছে, তবে সেগুলি কেবলমাত্র গ্রাহকের আশেপাশে নতুনত্ব এবং ফ্রিকোয়েন্সি মেট্রিক্স এবং একটি প্রতারণামূলক লেনদেনের জন্য টার্মিনাল ঝুঁকি।
আমরা ভিউগুলির ভিতরে SQL এম্বেড করে খুব সহজেই স্ট্রিমিং ডেটার উপরে রূপান্তরগুলি প্রয়োগ করতে পারি। তৈরি করুন প্রথম দর্শন, যা গ্রাহক পর্যায়ে স্ট্রিমিং ডেটা একত্রিত করে। তারপর তৈরি করুন দ্বিতীয় দৃশ্য, যা টার্মিনাল স্তরে স্ট্রিমিং ডেটা একত্রিত করে এবং তৃতীয় দৃশ্য, যা গ্রাহক এবং টার্মিনাল সমষ্টিগত ডেটার সাথে ইনকামিং লেনদেন সংক্রান্ত ডেটা একত্রিত করে এবং ভবিষ্যদ্বাণী ফাংশনকে এক জায়গায় কল করে। তৃতীয় দৃশ্যের জন্য কোড নিম্নরূপ:
ভিউতে একটি SELECT স্টেটমেন্ট চালান:
আপনি বারবার সিলেক্ট স্টেটমেন্ট চালানোর সাথে সাথে সাম্প্রতিক ক্রেডিট কার্ডের লেনদেন প্রায় বাস্তব সময়ে রূপান্তর এবং ML পূর্বাভাসের মধ্য দিয়ে যায়।
এটি অ্যামাজন রেডশিফ্ট-এর ক্ষমতা প্রদর্শন করে- সহজে ব্যবহারযোগ্য SQL কমান্ডের সাহায্যে, আপনি জটিল উইন্ডো ফাংশন প্রয়োগ করে স্ট্রিমিং ডেটা রূপান্তর করতে পারেন এবং জটিল ডেটা পাইপলাইন নির্মাণ বা নির্মাণ এবং পরিচালনা না করেই এক ধাপে প্রতারণামূলক লেনদেনের পূর্বাভাস দিতে একটি ML মডেল প্রয়োগ করতে পারেন। অতিরিক্ত অবকাঠামো।
সমাধানটি প্রসারিত করুন
যেহেতু ডেটা স্ট্রীম এবং ML ভবিষ্যদ্বাণীগুলি প্রায় বাস্তব সময়ে করা হয়, তাই আপনি ব্যবহার করে আপনার গ্রাহককে সতর্ক করার জন্য ব্যবসায়িক প্রক্রিয়া তৈরি করতে পারেন অ্যামাজন সাধারণ বিজ্ঞপ্তি পরিষেবা (Amazon SNS), অথবা আপনি একটি অপারেশনাল সিস্টেমে গ্রাহকের ক্রেডিট কার্ড অ্যাকাউন্ট লক করতে পারেন।
এই পোস্টটি এই অপারেশনগুলির বিশদ বিবরণে যায় না, তবে আপনি যদি অ্যামাজন রেডশিফ্ট ব্যবহার করে ইভেন্ট-চালিত সমাধানগুলি তৈরি করার বিষয়ে আরও জানতে আগ্রহী হন তবে নিম্নলিখিতটি দেখুন GitHub সংগ্রহস্থল.
পরিষ্কার কর
ভবিষ্যতের চার্জ এড়াতে, এই পোস্টের অংশ হিসাবে তৈরি করা সংস্থানগুলি মুছুন।
উপসংহার
এই পোস্টে, আমরা দেখিয়েছি কিভাবে একটি কাইনেসিস ডেটা স্ট্রিম সেট আপ করতে হয়, একজন প্রযোজককে কনফিগার করতে হয় এবং স্ট্রিমগুলিতে ডেটা প্রকাশ করতে হয় এবং তারপরে একটি অ্যামাজন রেডশিফ্ট স্ট্রিমিং ইনজেশন ভিউ তৈরি করতে হয় এবং অ্যামাজন রেডশিফ্টে ডেটা জিজ্ঞাসা করতে হয়। ডেটা অ্যামাজন রেডশিফ্ট ক্লাস্টারে থাকার পরে, আমরা দেখিয়েছি যে কীভাবে একটি এমএল মডেলকে প্রশিক্ষণ দেওয়া যায় এবং একটি ভবিষ্যদ্বাণী ফাংশন তৈরি করা যায় এবং বাস্তব সময়ের কাছাকাছি ভবিষ্যদ্বাণী তৈরি করতে স্ট্রিমিং ডেটার বিরুদ্ধে এটি প্রয়োগ করা যায়।
আপনার কোন প্রতিক্রিয়া বা প্রশ্ন থাকলে, মন্তব্যে তাদের ছেড়ে দিন.
লেখক সম্পর্কে
ভানু পিত্তম্পালি ডালাস ভিত্তিক একজন অ্যানালিটিক্স বিশেষজ্ঞ সমাধান স্থপতি। তিনি বিশ্লেষণাত্মক সমাধান তৈরিতে বিশেষজ্ঞ। তার পটভূমি তথ্য গুদাম - স্থাপত্য, উন্নয়ন, এবং প্রশাসন. তিনি 15 বছরেরও বেশি সময় ধরে ডেটা এবং বিশ্লেষণের ক্ষেত্রে রয়েছেন।
প্রবীণ কাদিপিকোন্ডা ডালাস ভিত্তিক AWS-এর একজন সিনিয়র অ্যানালিটিক্স বিশেষজ্ঞ সলিউশন আর্কিটেক্ট। তিনি গ্রাহকদের দক্ষ, পারফরম্যান্স এবং মাপযোগ্য বিশ্লেষণাত্মক সমাধান তৈরি করতে সহায়তা করেন। তিনি 15 বছরেরও বেশি সময় ধরে ডেটাবেস এবং ডেটা গুদাম সমাধানের সাথে কাজ করেছেন।
রিতেশ কুমার সিনহা সান ফ্রান্সিসকো ভিত্তিক একজন অ্যানালিটিক্স বিশেষজ্ঞ সমাধান স্থপতি। তিনি 16 বছরেরও বেশি সময় ধরে গ্রাহকদের স্কেলযোগ্য ডেটা গুদামজাতকরণ এবং বড় ডেটা সমাধান তৈরি করতে সহায়তা করেছেন। তিনি AWS-এ দক্ষ এন্ড-টু-এন্ড সলিউশন ডিজাইন এবং তৈরি করতে পছন্দ করেন। তার অবসর সময়ে, তিনি পড়তে, হাঁটা এবং যোগব্যায়াম করতে ভালবাসেন।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/big-data/near-real-time-fraud-detection-using-amazon-redshift-streaming-ingestion-with-amazon-kinesis-data-streams-and-amazon-redshift-ml/
- 000
- 000 গ্রাহক
- 1
- 10
- 100
- 11
- 15 বছর
- 67
- 7
- 9
- a
- সক্ষম
- সম্পর্কে
- উপরে
- প্রবেশ
- হিসাব
- অর্জন করা
- কর্ম
- অতিরিক্ত
- প্রশাসন
- অগ্রসর
- পর
- বিরুদ্ধে
- সতর্ক
- সব
- অনুমতি
- মর্দানী স্ত্রীলোক
- আমাজন EC2
- আমাজন কিনেসিস
- পরিমাণ
- বিশ্লেষকরা
- বিশ্লেষণমূলক
- বৈশ্লেষিক ন্যায়
- বিশ্লেষণ করা
- এবং
- অসঙ্গতি সনাক্তকরণ
- এ্যাপাচি
- আবেদন
- প্রয়োগ করা
- প্রয়োগ করা হচ্ছে
- স্থাপত্য
- কাছাকাছি
- সংযুক্ত
- গাড়ী
- স্বয়ংক্রিয়
- স্বয়ংক্রিয়ভাবে
- সহজলভ্য
- এড়ানো
- ডেস্কটপ AWS
- পটভূমি
- ভিত্তি
- মৌলিক
- কারণ
- হয়ে
- সর্বোত্তম
- উত্তম
- মধ্যে
- বিশাল
- বড় ডেটা
- আনা
- নির্মাণ করা
- ভবন
- ব্যবসায়
- ব্যবসা প্রসেস
- ব্যবসা
- কল
- নামক
- কল
- গ্রেপ্তার
- কার্ড
- কেস
- মামলা
- চরিত্র
- চার্জ
- চেক
- বেছে নিন
- শহর
- মেঘ
- গুচ্ছ
- কোড
- কলাম
- সম্মিলন
- আসছে
- মন্তব্য
- তুলনা করা
- সম্পূর্ণ
- পরিপূরক
- জটিল
- জটিলতা
- গনা
- বিবেচনা করে
- কনসোল
- গ্রাস করা
- ভোক্তা
- ধারণ
- সাশ্রয়ের
- পারা
- সৃষ্টি
- নির্মিত
- সৃষ্টি
- তৈরি করা হচ্ছে
- পরিচয়পত্র
- ধার
- ক্রেডিটকার্ড
- ক্রেতা
- গ্রাহক তথ্য
- গ্রাহকদের
- চক্র
- দৈনিক
- ডালাস
- উপাত্ত
- ডেটা প্রস্তুতি
- তথ্য গুদাম
- তথ্য গুদাম
- ডেটাবেস
- ডাটাবেস
- ডেটাসেট
- তারিখ
- সিদ্ধান্ত মেকিং
- ডিফল্ট
- সংজ্ঞা
- প্রদান করা
- প্রদর্শিত
- নির্ভরশীল
- স্থাপন
- মোতায়েন
- স্থাপন
- বর্ণিত
- নকশা
- বিস্তারিত
- সনাক্তকরণ
- ডেভেলপারদের
- উন্নয়ন
- বিভিন্ন
- সরাসরি
- না
- করছেন
- Dont
- dow
- প্রগতিশীল
- সহজে
- ব্যবহার করা সহজ
- প্রভাব
- দক্ষ
- ইমেইল
- সক্ষম করা
- সম্ভব
- সর্বশেষ সীমা
- প্রকৌশল
- প্রবেশ করান
- থার (eth)
- ঘটনা
- ঘটনাবলী
- উদাহরণ
- উত্তেজিত
- বহিরাগত
- নিষ্কাশন
- f1
- পরিচিত
- দ্রুত
- বৈশিষ্ট্য
- বৈশিষ্ট্য
- প্রতিক্রিয়া
- ক্ষেত্র
- ক্ষেত্রসমূহ
- ফিল্টার
- আর্থিক
- আবিষ্কার
- পতাকা
- প্রবাহ
- অনুসরণ করা
- অনুসরণ
- অনুসরণ
- ফর্ম
- বিন্যাস
- পাওয়া
- ফ্রেম
- ফ্রান্সিসকো
- প্রতারণা
- জালিয়াতি সনাক্তকরণ
- বিনামূল্যে
- ফ্রিকোয়েন্সি
- থেকে
- সম্পূর্ণরূপে
- ক্রিয়া
- ক্রিয়াকলাপ
- ভবিষ্যৎ
- উত্পাদন করা
- উত্পন্ন
- উৎপাদিত
- উত্পাদক
- পাওয়া
- দাও
- Go
- ভাল
- প্রদান
- স্থল
- গ্রুপ
- জমিদারি
- সাহায্য
- সাহায্য
- ঊর্ধ্বতন
- লক্ষণীয় করা
- ঐতিহাসিক
- ইতিহাস
- কিভাবে
- কিভাবে
- এইচটিএমএল
- HTTPS দ্বারা
- শত শত
- আমি
- চিহ্নিত
- পরিচয়
- গুরুত্ব
- in
- অন্তর্ভুক্ত করা
- ইনকামিং
- বৃদ্ধি
- ক্রমবর্ধমান
- স্বতন্ত্র
- তথ্য
- পরিকাঠামো
- ইনপুট
- সন্নিবেশ
- অর্ন্তদৃষ্টি
- ইনস্টল
- উদাহরণ
- প্রতিষ্ঠান
- নির্দেশাবলী
- আগ্রহী
- IT
- যোগদানের
- JSON
- কাফকা
- কাইনেসিস ডেটা স্ট্রীম
- ভাষা
- বৃহত্তর
- অদৃশ্যতা
- সর্বশেষ
- শুরু করা
- শিক্ষা
- ত্যাগ
- লম্বা
- উচ্চতা
- LIMIT টি
- সীমাবদ্ধতা
- বোঝা
- লোড
- দীর্ঘ মেয়াদী
- কম
- মেশিন
- মেশিন লার্নিং
- প্রণীত
- করা
- তৈরি করে
- পরিচালিত
- পরিচালক
- ম্যানুয়ালি
- অনেক
- মানচিত্র
- ব্যাপক
- ম্যাচিং
- matplotlib
- সর্বোচ্চ
- মানে
- মিডিয়া
- পদ্ধতি
- ছন্দোময়
- ছন্দোবিজ্ঞান
- প্রশমিত করা
- ML
- মোড
- মডেল
- মডেল
- মাসিক
- মাসের
- অধিক
- সেতু
- পদক্ষেপ
- নাম
- ন্যাভিগেশন
- প্রয়োজন
- চাহিদা
- নতুন
- পরবর্তী
- প্রজ্ঞাপন
- সংখ্যা
- অসাড়
- উদ্দেশ্য
- ONE
- প্রর্দশিত
- অপারেশন
- কর্মক্ষম
- অপারেশনস
- সুযোগ
- অপশন সমূহ
- ক্রম
- সংগঠন
- অন্যান্য
- রূপরেখা
- প্যাকেজ
- পান্ডাস
- শার্সি
- স্থিতিমাপ
- অংশ
- নির্ভুল
- সম্পাদন করা
- কর্মক্ষমতা
- সঞ্চালিত
- অনুমতি
- ফোন
- জায়গা
- পরিকল্পনা
- মাচা
- প্ল্যাটফর্ম
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- দয়া করে
- নীতি
- নীতি
- সম্ভব
- পোস্ট
- ক্ষমতা
- স্পষ্টতা
- ভবিষ্যদ্বাণী করা
- ভবিষ্যদ্বাণী
- ভবিষ্যতবাণী
- প্রেডিক্টস
- আগে
- মূল্য
- প্রক্রিয়া
- প্রসেস
- সৃজনকর্তা
- কার্যক্রম
- প্রদান
- উপলব্ধ
- প্রকাশ্য
- প্রকাশ করা
- পাইথন
- প্রশ্ন
- দ্রুত
- এলোমেলো
- পড়া
- প্রস্তুত
- বাস্তব
- প্রকৃত সময়
- রিয়েল-টাইম ডেটা
- নিরূপক
- গ্রহণ করা
- গৃহীত
- সাম্প্রতিক
- স্বীকৃত
- রেকর্ড
- পুনঃপুনঃ
- প্রতিস্থাপন করা
- প্রয়োজনীয়
- সংস্থান
- Resources
- বিশ্রাম
- ফলাফল
- আয়
- ঝুঁকি
- ভূমিকা
- চালান
- দৌড়
- ঋষি নির্মাতা
- সান
- সানফ্রান্সিসকো
- মাপযোগ্য
- স্কেল
- স্ক্রিনশট
- SDK
- সমুদ্রজাত
- দ্বিতীয়
- সেকেন্ড
- অধ্যায়
- বিভাগে
- নিরাপদ
- নির্বাচিত
- নির্বাচন
- Serverless
- সেবা
- সেট
- বিন্যাস
- সেটিংস
- সেটআপ
- স্বল্পমেয়াদী
- প্রদর্শনী
- শো
- সহজ
- সহজতর করা
- কাল্পনিক
- So
- সামাজিক
- সামাজিক মাধ্যম
- সমাধান
- সলিউশন
- কিছু
- উৎস
- সোর্স
- বিশেষজ্ঞ
- বিশেষ
- ব্যয় করা
- বিভক্ত করা
- এসকিউএল
- পর্যায়
- মান
- শুরু
- রাষ্ট্র
- বিবৃতি
- বিবৃতি
- অবস্থা
- ধাপ
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- স্টোরেজ
- দোকান
- দোকান
- কৌশলগত
- প্রবাহ
- স্ট্রিমিং
- স্ট্রিমিং পরিষেবা
- স্ট্রিম
- এমন
- সুপার
- পদ্ধতি
- সিস্টেম
- টেবিল
- গ্রহণ করা
- লাগে
- কথাবার্তা
- লক্ষ্য
- প্রান্তিক
- পরীক্ষা
- সার্জারির
- তৃতীয়
- হাজার হাজার
- দ্বারা
- সময়
- টাইমস্ট্যাম্প
- থেকে
- শীর্ষ
- বিষয়
- ঐতিহ্যগতভাবে
- রেলগাড়ি
- প্রশিক্ষিত
- প্রশিক্ষণ
- লেনদেন
- লেনদেনের
- লেনদেন
- রুপান্তর
- রূপান্তরের
- রূপান্তর
- প্রবণতা
- আপডেট
- আপডেট
- ব্যবহার
- ব্যবহার
- ব্যবহারকারী
- যাচাই
- মূল্য
- মানগুলি
- বিভিন্ন
- verity
- সংস্করণ
- চেক
- মতামত
- চলাফেরা
- , walkthrough
- গুদাম
- গুদামজাত করা
- ওয়েবসাইট
- সপ্তাহান্তিক কাল
- সাপ্তাহিক
- কি
- যে
- যখন
- উইকিপিডিয়া
- ইচ্ছা
- ছাড়া
- কাজ করছে
- কাজ
- কাজ
- লেখা
- বছর
- যোগশাস্ত্র
- আপনার
- zephyrnet