Amazon OpenSearch سروس میں لوڈ کرنے سے پہلے AWS Glue کا استعمال کرتے ہوئے PII ڈیٹا کا پتہ لگائیں، ماسک کریں اور اسے دوبارہ ترتیب دیں۔ ایمیزون ویب سروسز

Amazon OpenSearch سروس میں لوڈ کرنے سے پہلے AWS Glue کا استعمال کرتے ہوئے PII ڈیٹا کا پتہ لگائیں، ماسک کریں اور اسے دوبارہ ترتیب دیں۔ ایمیزون ویب سروسز

ماخذ نوڈ: 3059547

بہت سی تنظیمیں، چھوٹی اور بڑی، Amazon Web Services (AWS) پر اپنے تجزیاتی کام کے بوجھ کو منتقل کرنے اور جدید بنانے کے لیے کام کر رہی ہیں۔ صارفین کے AWS میں منتقل ہونے کی بہت سی وجوہات ہیں، لیکن ایک اہم وجہ انفراسٹرکچر، پیچنگ، مانیٹرنگ، بیک اپ وغیرہ کو برقرار رکھنے میں وقت صرف کرنے کے بجائے مکمل طور پر منظم خدمات کو استعمال کرنے کی صلاحیت ہے۔ قیادت اور ترقیاتی ٹیمیں موجودہ بنیادی ڈھانچے کو برقرار رکھنے کے بجائے موجودہ حلوں کو بہتر بنانے اور نئے استعمال کے معاملات کے ساتھ تجربہ کرنے میں زیادہ وقت صرف کر سکتی ہیں۔

AWS پر تیزی سے آگے بڑھنے کی صلاحیت کے ساتھ، آپ کو اس ڈیٹا کے ساتھ ذمہ دار ہونے کی بھی ضرورت ہے جو آپ حاصل کر رہے ہیں اور اس پر کارروائی کر رہے ہیں کیونکہ آپ اسکیل جاری رکھیں گے۔ ان ذمہ داریوں میں ڈیٹا پرائیویسی کے قوانین اور ضوابط کی تعمیل کرنا اور اپ اسٹریم ذرائع سے ذاتی طور پر قابل شناخت معلومات (PII) یا محفوظ شدہ صحت کی معلومات (PHI) جیسے حساس ڈیٹا کو ذخیرہ یا ظاہر نہ کرنا شامل ہے۔

اس پوسٹ میں، ہم ایک اعلیٰ سطحی فن تعمیر اور استعمال کے ایک مخصوص کیس کے ذریعے چلتے ہیں جو یہ ظاہر کرتا ہے کہ آپ ڈیٹا پرائیویسی کے خدشات کو دور کرنے کے لیے بڑی مقدار میں ترقیاتی وقت خرچ کیے بغیر اپنی تنظیم کے ڈیٹا پلیٹ فارم کی پیمائش کیسے جاری رکھ سکتے ہیں۔ ہم استعمال کرتے ہیں AWS گلو PII ڈیٹا کو لوڈ کرنے سے پہلے اس کا پتہ لگانے، ماسک کرنے اور اسے دوبارہ ترتیب دینے کے لیے ایمیزون اوپن سرچ سروس.

حل جائزہ

درج ذیل خاکہ اعلیٰ سطحی حل کے فن تعمیر کو واضح کرتا ہے۔ ہم نے اپنے ڈیزائن کی تمام پرتوں اور اجزاء کی وضاحت کی ہے۔ AWS اچھی طرح سے تعمیر شدہ فریم ورک ڈیٹا اینالیٹک لینس.

os_glue_architecture

فن تعمیر کئی اجزاء پر مشتمل ہے:

ذریعہ اعداد و شمار

ڈیٹا بیسیوں، فائلوں کی منتقلی، لاگز، سافٹ ویئر بطور سروس (SaaS) ایپلی کیشنز سمیت کئی دسیوں سے سینکڑوں ذرائع تک آ سکتا ہے۔ ان چینلز کے ذریعے اور ان کے بہاو والے اسٹوریج اور ایپلیکیشنز میں کون سا ڈیٹا آتا ہے اس پر تنظیموں کا ہمیشہ کنٹرول نہیں ہوتا ہے۔

ادخال: ڈیٹا لیک بیچ، مائیکرو بیچ، اور سٹریمنگ

بہت سی تنظیمیں اپنے ماخذ کے ڈیٹا کو مختلف طریقوں سے اپنی ڈیٹا لیک میں اتارتی ہیں، بشمول بیچ، مائیکرو بیچ، اور اسٹریمنگ جابز۔ مثال کے طور پر، ایمیزون ای ایم آر, AWS گلو، اور AWS ڈیٹا بیس مائیگریشن سروس (AWS DMS) سبھی کو بیچ اور یا اسٹریمنگ آپریشنز انجام دینے کے لیے استعمال کیا جا سکتا ہے جو ڈیٹا لیک میں ڈوب جاتے ہیں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)۔ ایمیزون ایپ فلو مختلف SaaS ایپلی کیشنز سے ڈیٹا کو ڈیٹا لیک میں منتقل کرنے کے لیے استعمال کیا جا سکتا ہے۔ AWS ڈیٹا سنک اور AWS ٹرانسفر فیملی متعدد مختلف پروٹوکولز پر فائلوں کو ڈیٹا لیک میں اور اس سے منتقل کرنے میں مدد کرسکتا ہے۔ ایمیزون کنیسیس اور ایمیزون ایم ایس کے کے پاس ایمیزون S3 پر ڈیٹا لیک میں براہ راست ڈیٹا سٹریم کرنے کی صلاحیت بھی ہے۔

S3 ڈیٹا جھیل

اپنے ڈیٹا لیک کے لیے Amazon S3 کا استعمال جدید ڈیٹا حکمت عملی کے مطابق ہے۔ یہ کارکردگی، وشوسنییتا، یا دستیابی کی قربانی کے بغیر کم لاگت کا ذخیرہ فراہم کرتا ہے۔ اس نقطہ نظر کے ساتھ، آپ ضرورت کے مطابق اپنے ڈیٹا میں کمپیوٹ لا سکتے ہیں اور صرف اس صلاحیت کے لیے ادائیگی کر سکتے ہیں جس کی اسے چلانے کی ضرورت ہے۔

اس فن تعمیر میں، خام ڈیٹا مختلف ذرائع (اندرونی اور بیرونی) سے آ سکتا ہے، جس میں حساس ڈیٹا ہو سکتا ہے۔

AWS Glue crawlers کا استعمال کرتے ہوئے، ہم ڈیٹا کو دریافت اور کیٹلاگ کر سکتے ہیں، جو ہمارے لیے ٹیبل اسکیموں کو تیار کرے گا، اور بالآخر PII ٹرانسفارم کے ساتھ AWS Glue ETL کو استعمال کرنے کے لیے اسے سیدھا بنا دیتا ہے تاکہ کسی بھی حساس ڈیٹا کا پتہ لگانے اور اسے چھپانے کے لیے یا اسے دوبارہ درست کیا جا سکے۔ ڈیٹا جھیل میں.

کاروباری سیاق و سباق اور ڈیٹاسیٹس

ہمارے نقطہ نظر کی قدر کو ظاہر کرنے کے لیے، آئیے تصور کریں کہ آپ مالیاتی خدمات کی تنظیم کے لیے ڈیٹا انجینئرنگ ٹیم کا حصہ ہیں۔ آپ کے تقاضے یہ ہیں کہ حساس ڈیٹا کا پتہ لگانا اور اسے ماسک کرنا ہے کیونکہ یہ آپ کی تنظیم کے کلاؤڈ ماحول میں داخل ہوتا ہے۔ ڈیٹا کو بہاو تجزیاتی عمل کے ذریعے استعمال کیا جائے گا۔ مستقبل میں، آپ کے صارفین اندرونی بینکنگ سسٹمز سے جمع کردہ ڈیٹا سٹریمز کی بنیاد پر تاریخی ادائیگی کے لین دین کو محفوظ طریقے سے تلاش کر سکیں گے۔ آپریشن ٹیموں، صارفین، اور انٹرفیسنگ ایپلی کیشنز کے تلاش کے نتائج کو حساس شعبوں میں نقاب پوش ہونا چاہیے۔

مندرجہ ذیل جدول حل کے لیے استعمال ہونے والے ڈیٹا ڈھانچے کو دکھاتا ہے۔ وضاحت کے لیے، ہم نے کیوریٹڈ کالم کے ناموں کے لیے خام نقشہ بنایا ہے۔ آپ دیکھیں گے کہ اس اسکیما کے اندر متعدد فیلڈز کو حساس ڈیٹا سمجھا جاتا ہے، جیسے پہلا نام، آخری نام، سوشل سیکیورٹی نمبر (SSN)، پتہ، کریڈٹ کارڈ نمبر، فون نمبر، ای میل، اور IPv4 پتہ۔

خام کالم کا نام کیوریٹڈ کالم کا نام قسم
c0 پہلا نام سٹرنگ
c1 آخری نام سٹرنگ
c2 ایس ایس این سٹرنگ
c3 پتہ سٹرنگ
c4 پوسٹ کوڈ سٹرنگ
c5 ملک سٹرنگ
c6 خریداری_سائٹ سٹرنگ
c7 کریڈٹ کارڈ نمبر سٹرنگ
c8 credit_card_provider سٹرنگ
c9 کرنسی سٹرنگ
c10 خریداری_قدر عددی
c11 ٹرانزیکشن_تاریخ تاریخ
c12 فون نمبر سٹرنگ
c13 ای میل سٹرنگ
c14 ipvxnumx سٹرنگ

کیس استعمال کریں: OpenSearch سروس پر لوڈ کرنے سے پہلے PII بیچ کا پتہ لگانا

درج ذیل فن تعمیر کو نافذ کرنے والے صارفین نے مختلف قسم کے تجزیات کو پیمانے پر چلانے کے لیے Amazon S3 پر اپنی ڈیٹا لیک بنائی ہے۔ یہ حل ان صارفین کے لیے موزوں ہے جنہیں OpenSearch سروس میں ریئل ٹائم ادخال کی ضرورت نہیں ہے اور وہ ڈیٹا انٹیگریشن ٹولز استعمال کرنے کا ارادہ رکھتے ہیں جو شیڈول پر چلتے ہیں یا ایونٹس کے ذریعے متحرک ہوتے ہیں۔

بیچ_آرکیٹیکچر

Amazon S3 پر ڈیٹا ریکارڈ کرنے سے پہلے، ہم تمام ڈیٹا اسٹریمز کو قابل اعتماد اور محفوظ طریقے سے ڈیٹا لیک تک لانے کے لیے ایک ادخال پرت کو لاگو کرتے ہیں۔ Kinesis ڈیٹا اسٹریمز کو سٹرکچرڈ اور نیم سٹرکچرڈ ڈیٹا اسٹریمز کے تیز انٹیک کے لیے ایک ادخال پرت کے طور پر تعینات کیا گیا ہے۔ ان کی مثالیں متعلقہ ڈیٹا بیس کی تبدیلیاں، ایپلی کیشنز، سسٹم لاگز، یا کلک اسٹریمز ہیں۔ تبدیلی کے ڈیٹا کیپچر (CDC) کے استعمال کے معاملات کے لیے، آپ AWS DMS کے ہدف کے طور پر Kinesis ڈیٹا اسٹریمز کا استعمال کر سکتے ہیں۔ حساس ڈیٹا پر مشتمل اسٹریمز بنانے والی ایپلی کیشنز یا سسٹمز کو تین معاون طریقوں میں سے کسی ایک کے ذریعے Kinesis ڈیٹا سٹریم میں بھیجا جاتا ہے: Amazon Kinesis Agent، AWS SDK for Java، یا Kinesis Producer Library۔ آخری قدم کے طور پر، ایمیزون کائنیسس ڈیٹا فائر ہوز ہماری S3 ڈیٹا جھیل کی منزل میں ڈیٹا کے ریئل ٹائم بیچز کو قابل اعتماد طریقے سے لوڈ کرنے میں ہماری مدد کرتا ہے۔

مندرجہ ذیل اسکرین شاٹ سے پتہ چلتا ہے کہ کس طرح ڈیٹا Kinesis ڈیٹا اسٹریمز کے ذریعے بہتا ہے۔ ڈیٹا ویور اور نمونہ ڈیٹا بازیافت کرتا ہے جو خام S3 سابقہ ​​پر آتا ہے۔ اس فن تعمیر کے لیے، ہم نے S3 سابقے کے لیے ڈیٹا لائف سائیکل کی پیروی کی جیسا کہ تجویز کیا گیا ہے۔ ڈیٹا لیک فاؤنڈیشن.

kinesis خام ڈیٹا

جیسا کہ آپ مندرجہ ذیل اسکرین شاٹ میں پہلے ریکارڈ کی تفصیلات سے دیکھ سکتے ہیں، JSON پے لوڈ پچھلے حصے کی طرح اسی اسکیما کی پیروی کرتا ہے۔ آپ غیر ترمیم شدہ ڈیٹا کو Kinesis ڈیٹا سٹریم میں بہتے ہوئے دیکھ سکتے ہیں، جسے بعد میں آنے والے مراحل میں مبہم کر دیا جائے گا۔

raw_json

Kinesis Data Firehose کا استعمال کرتے ہوئے ڈیٹا کو اکٹھا کرنے اور اسے S3 بالٹی میں پہنچانے کے بعد، فن تعمیر کی پروسیسنگ پرت سنبھال لیتی ہے۔ ہم اپنی پائپ لائن میں حساس ڈیٹا کی خودکار شناخت اور ماسکنگ کے لیے AWS Glue PII ٹرانسفارم کا استعمال کرتے ہیں۔ جیسا کہ مندرجہ ذیل ورک فلو ڈایاگرام میں دکھایا گیا ہے، ہم نے AWS Glue Studio میں اپنی تبدیلی کے کام کو نافذ کرنے کے لیے بغیر کوڈ، بصری ETL اپروچ کو اپنایا۔

گلو سٹوڈیو نوڈس

سب سے پہلے، ہم ماخذ ڈیٹا کیٹلاگ ٹیبل خام تک رسائی حاصل کرتے ہیں۔ pii_data_db ڈیٹا بیس جدول میں اسکیما ڈھانچہ ہے جو پچھلے حصے میں پیش کیا گیا ہے۔ خام پروسیسڈ ڈیٹا کا سراغ لگانے کے لیے، ہم نے استعمال کیا۔ نوکری کے بک مارکس.

گلو کیٹلاگ

ہم استعمال کرتے ہیں AWS Glue DataBrew کی ترکیبیں AWS Glue Studio بصری ETL جاب میں OpenSearch متوقع کے ساتھ ہم آہنگ ہونے کے لیے تاریخ کی دو خصوصیات کو تبدیل کرنا فارمیٹ. یہ ہمیں مکمل بغیر کوڈ کا تجربہ کرنے کی اجازت دیتا ہے۔

ہم حساس کالموں کی شناخت کے لیے ڈیٹیکٹ PII ایکشن استعمال کرتے ہیں۔ ہم AWS Glue کو منتخب پیٹرن، پتہ لگانے کی حد، اور ڈیٹاسیٹ سے قطاروں کے نمونے والے حصے کی بنیاد پر اس کا تعین کرنے دیتے ہیں۔ ہماری مثال میں، ہم نے ایسے نمونوں کا استعمال کیا جو خاص طور پر ریاستہائے متحدہ پر لاگو ہوتے ہیں (جیسے SSNs) اور ہو سکتا ہے دوسرے ممالک کے حساس ڈیٹا کا پتہ نہ لگ سکے۔ آپ اپنے استعمال کے معاملے پر لاگو دستیاب زمرہ جات اور مقامات تلاش کر سکتے ہیں یا دوسرے ممالک کے حساس ڈیٹا کے لیے پتہ لگانے والے اداروں کو بنانے کے لیے AWS Glue میں ریگولر ایکسپریشنز (regex) استعمال کر سکتے ہیں۔

نمونے لینے کا صحیح طریقہ منتخب کرنا ضروری ہے جو AWS Glue پیش کرتا ہے۔ اس مثال میں، یہ معلوم ہے کہ سٹریم سے آنے والے ڈیٹا میں ہر قطار میں حساس ڈیٹا ہوتا ہے، اس لیے ڈیٹا سیٹ میں 100% قطاروں کا نمونہ لینا ضروری نہیں ہے۔ اگر آپ کے پاس کوئی ضرورت ہے جہاں کسی بھی حساس ڈیٹا کو ڈاؤن اسٹریم ذرائع میں جانے کی اجازت نہیں ہے، تو اپنے منتخب کردہ پیٹرن کے لیے ڈیٹا کے 100% نمونے لینے پر غور کریں، یا پورے ڈیٹاسیٹ کو اسکین کریں اور ہر ایک سیل پر عمل کریں تاکہ یہ یقینی بنایا جا سکے کہ تمام حساس ڈیٹا کا پتہ چلا ہے۔ نمونے لینے سے جو فائدہ آپ کو ملتا ہے وہ لاگت میں کمی ہے کیونکہ آپ کو زیادہ ڈیٹا اسکین کرنے کی ضرورت نہیں ہے۔

PII اختیارات

ڈیٹیکٹ PII ایکشن آپ کو حساس ڈیٹا کو ماسک کرتے وقت ڈیفالٹ سٹرنگ منتخب کرنے کی اجازت دیتا ہے۔ ہماری مثال میں، ہم سٹرنگ ********** استعمال کرتے ہیں۔

منتخب_اختیارات

ہم اپلائی میپنگ آپریشن کا نام تبدیل کرنے اور غیر ضروری کالموں کو ہٹانے کے لیے استعمال کرتے ہیں جیسے ingestion_year, ingestion_month، اور ingestion_day. یہ قدم ہمیں کالموں میں سے ایک کی ڈیٹا کی قسم کو تبدیل کرنے کی بھی اجازت دیتا ہے (purchase_value) سٹرنگ سے انٹیجر تک۔

سکیم

اس مقام سے، نوکری دو آؤٹ پٹ منزلوں میں تقسیم ہو جاتی ہے: اوپن سرچ سروس اور ایمیزون S3۔

ہمارا فراہم کردہ OpenSearch سروس کلسٹر کے ذریعے منسلک ہے۔ Glue کے لیے OpenSearch بلٹ ان کنیکٹر. ہم OpenSearch Index کی وضاحت کرتے ہیں جس پر ہم لکھنا چاہتے ہیں اور کنیکٹر اسناد، ڈومین اور پورٹ کو ہینڈل کرتا ہے۔ ذیل میں اسکرین شاٹ میں، ہم مخصوص انڈیکس پر لکھتے ہیں۔ index_os_pii.

opensearch config

ہم ماسک شدہ ڈیٹاسیٹ کو کیوریٹڈ S3 سابقہ ​​میں اسٹور کرتے ہیں۔ وہاں، ہمارے پاس ڈیٹا کو مخصوص استعمال کے معاملے میں معمول بنایا گیا ہے اور ڈیٹا سائنسدانوں یا ایڈہاک رپورٹنگ کی ضروریات کے لیے محفوظ استعمال ہے۔

اوپن سرچ ٹارگٹ ایس 3 فولڈر

متحد حکمرانی، رسائی کنٹرول، اور تمام ڈیٹاسیٹس اور ڈیٹا کیٹلاگ ٹیبلز کے آڈٹ ٹریلز کے لیے، آپ استعمال کر سکتے ہیں AWS جھیل کی تشکیل. اس سے آپ کو AWS Glue Data Catalog ٹیبلز اور بنیادی ڈیٹا تک رسائی کو صرف ان صارفین اور کرداروں تک محدود کرنے میں مدد ملتی ہے جنہیں ایسا کرنے کے لیے ضروری اجازتیں دی گئی ہیں۔

بیچ جاب کامیابی سے چلنے کے بعد، آپ تلاش کے سوالات یا رپورٹس چلانے کے لیے اوپن سرچ سروس استعمال کر سکتے ہیں۔ جیسا کہ مندرجہ ذیل اسکرین شاٹ میں دکھایا گیا ہے، پائپ لائن نے کوڈ کی ترقی کی کوششوں کے بغیر خود بخود حساس فیلڈز کو ماسک کر دیا ہے۔

آپ آپریشنل ڈیٹا سے رجحانات کی شناخت کر سکتے ہیں، جیسے کہ کریڈٹ کارڈ فراہم کنندہ کے ذریعے فلٹر کردہ روزانہ کی لین دین کی مقدار، جیسا کہ پچھلے اسکرین شاٹ میں دکھایا گیا ہے۔ آپ ان مقامات اور ڈومینز کا بھی تعین کر سکتے ہیں جہاں صارفین خریداری کرتے ہیں۔ دی transaction_date attribute ہمیں وقت کے ساتھ ساتھ ان رجحانات کو دیکھنے میں مدد کرتا ہے۔ مندرجہ ذیل اسکرین شاٹ ایک ریکارڈ دکھاتا ہے جس میں لین دین کی تمام معلومات کو مناسب طریقے سے درست کیا گیا ہے۔

json نقاب پوش

Amazon OpenSearch میں ڈیٹا لوڈ کرنے کے متبادل طریقوں کے لیے، ملاحظہ کریں۔ ایمیزون اوپن سرچ سروس میں اسٹریمنگ ڈیٹا لوڈ ہو رہا ہے۔.

مزید برآں، حساس ڈیٹا کو دیگر AWS سلوشنز کا استعمال کرتے ہوئے بھی دریافت اور نقاب پوش کیا جا سکتا ہے۔ مثال کے طور پر، آپ استعمال کر سکتے ہیں۔ ایمیزون ماکی S3 بالٹی کے اندر حساس ڈیٹا کا پتہ لگانے کے لیے، اور پھر استعمال کریں۔ ایمیزون کی تعریف حساس ڈیٹا کو دوبارہ ترتیب دینے کے لیے جو پتہ چلا تھا۔ مزید معلومات کے لیے رجوع کریں۔ AWS سروسز کا استعمال کرتے ہوئے PHI اور PII ڈیٹا کا پتہ لگانے کی عام تکنیک.

نتیجہ

اس پوسٹ میں آپ کے ماحول کے اندر حساس ڈیٹا کو سنبھالنے کی اہمیت اور مختلف طریقوں اور فن تعمیرات کے مطابق رہنے کے ساتھ ساتھ آپ کی تنظیم کو تیزی سے پیمائش کرنے کی بھی اجازت دینے پر تبادلہ خیال کیا گیا ہے۔ اب آپ کو اپنے ڈیٹا کو ایمیزون اوپن سرچ سروس میں کیسے کھوجنے، ماسک کرنے، یا اسے تبدیل کرنے اور لوڈ کرنے کے بارے میں اچھی طرح سمجھنا چاہیے۔


مصنفین کے بارے میں

مائیکل ہیملٹن ایک Sr Analytics سلوشنز آرکیٹیکٹ ہے جو انٹرپرائز صارفین کو AWS پر ان کے تجزیاتی کام کے بوجھ کو جدید اور آسان بنانے میں مدد کرنے پر توجہ مرکوز کرتا ہے۔ وہ ماؤنٹین بائیکنگ سے لطف اندوز ہوتا ہے اور کام نہ کرنے پر اپنی بیوی اور تین بچوں کے ساتھ وقت گزارتا ہے۔

ڈینیئل روزو ہالینڈ میں AWS کے معاون گاہکوں کے ساتھ ایک سینئر سولیوشن آرکیٹیکٹ ہے۔ اس کا جنون انجینئرنگ سادہ ڈیٹا اور اینالیٹکس سلوشنز اور صارفین کو جدید ڈیٹا آرکیٹیکچرز کی طرف جانے میں مدد کرنا ہے۔ کام سے باہر، وہ ٹینس اور بائیک چلانے سے لطف اندوز ہوتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS بگ ڈیٹا