Amazon SageMaker جغرافیائی صلاحیتوں کا استعمال کرتے ہوئے بصیرت حاصل کرنے کے لیے نقل و حرکت کا ڈیٹا استعمال کریں | ایمیزون ویب سروسز

Amazon SageMaker جغرافیائی صلاحیتوں کا استعمال کرتے ہوئے بصیرت حاصل کرنے کے لیے نقل و حرکت کا ڈیٹا استعمال کریں | ایمیزون ویب سروسز

ماخذ نوڈ: 3067923

جغرافیائی ڈیٹا زمین کی سطح پر مخصوص مقامات کے بارے میں ڈیٹا ہے۔ یہ مجموعی طور پر ایک جغرافیائی علاقے کی نمائندگی کر سکتا ہے یا یہ کسی جغرافیائی علاقے سے وابستہ واقعہ کی نمائندگی کر سکتا ہے۔ چند صنعتوں میں جغرافیائی اعداد و شمار کے تجزیہ کی کوشش کی جاتی ہے۔ اس میں یہ سمجھنا شامل ہے کہ ڈیٹا مقامی نقطہ نظر سے کہاں موجود ہے اور یہ وہاں کیوں موجود ہے۔

جغرافیائی ڈیٹا کی دو قسمیں ہیں: ویکٹر ڈیٹا اور راسٹر ڈیٹا۔ راسٹر ڈیٹا سیلز کا ایک میٹرکس ہے جس کی نمائندگی گرڈ کے طور پر کی جاتی ہے، زیادہ تر تصاویر اور سیٹلائٹ امیجری کی نمائندگی کرتے ہیں۔ اس پوسٹ میں، ہم ویکٹر ڈیٹا پر توجہ مرکوز کرتے ہیں، جو عرض البلد اور عرض البلد کے جغرافیائی نقاط کے ساتھ ساتھ لائنوں اور کثیر الاضلاع (علاقوں) کو جوڑنے یا گھیرنے کے طور پر پیش کیا جاتا ہے۔ ویکٹر ڈیٹا میں نقل و حرکت کی بصیرت حاصل کرنے میں استعمال کے بہت سے معاملات ہوتے ہیں۔ صارف کا موبائل ڈیٹا اس کا ایک ایسا ہی جزو ہے، اور یہ زیادہ تر موبائل آلات کی جغرافیائی پوزیشن سے اخذ کیا گیا ہے جو SDKs یا اسی طرح کے انضمام کا استعمال کرتے ہوئے GPS یا ایپ پبلشرز کا استعمال کرتے ہیں۔ اس پوسٹ کے مقصد کے لیے، ہم اس ڈیٹا کو بطور حوالہ دیتے ہیں۔ نقل و حرکت کا ڈیٹا.

یہ دو حصوں کی سیریز ہے۔ اس پہلی پوسٹ میں، ہم نقل و حرکت کے اعداد و شمار، اس کے ذرائع، اور اس ڈیٹا کا ایک مخصوص اسکیما متعارف کراتے ہیں۔ اس کے بعد ہم مختلف استعمال کے معاملات پر تبادلہ خیال کرتے ہیں اور دریافت کرتے ہیں کہ آپ ڈیٹا کو صاف کرنے کے لیے AWS سروسز کا استعمال کیسے کر سکتے ہیں، مشین لرننگ (ML) اس کوشش میں کس طرح مدد کر سکتی ہے، اور آپ بصری اور بصیرت پیدا کرنے میں ڈیٹا کا اخلاقی استعمال کیسے کر سکتے ہیں۔ دوسری پوسٹ زیادہ تکنیکی نوعیت کی ہو گی اور نمونے کے کوڈ کے ساتھ ان مراحل کا تفصیل سے احاطہ کرے گی۔ اس پوسٹ میں کوئی نمونہ ڈیٹاسیٹ یا نمونہ کوڈ نہیں ہے، بلکہ اس میں ڈیٹا ایگریگیٹر سے خریدے جانے کے بعد ڈیٹا کو استعمال کرنے کا طریقہ بتایا گیا ہے۔

آپ استعمال کر سکتے ہیں ایمیزون سیج میکر کی جغرافیائی صلاحیتیں۔ ایک بنیادی نقشے پر نقل و حرکت کے اعداد و شمار کو اوورلے کرنا اور تعاون کو آسان بنانے کے لیے تہہ دار تصور فراہم کرنا۔ GPU سے چلنے والے انٹرایکٹو ویژولائزر اور Python نوٹ بک ایک ہی ونڈو میں لاکھوں ڈیٹا پوائنٹس کو دریافت کرنے اور بصیرت اور نتائج کا اشتراک کرنے کا ایک ہموار طریقہ فراہم کرتے ہیں۔

ذرائع اور اسکیما

نقل و حرکت کے اعداد و شمار کے چند ذرائع ہیں۔ GPS پنگس اور ایپ پبلشرز کے علاوہ، ڈیٹاسیٹ کو بڑھانے کے لیے دیگر ذرائع استعمال کیے جاتے ہیں، جیسے Wi-Fi رسائی پوائنٹس، موبائل ڈیوائسز پر اشتہارات پیش کرنے کے ذریعے حاصل کردہ بولی سٹریم ڈیٹا، اور کاروبار کے ذریعے رکھے گئے مخصوص ہارڈویئر ٹرانسمیٹر (مثال کے طور پر، فزیکل اسٹورز میں )۔ کاروباروں کے لیے یہ ڈیٹا خود اکٹھا کرنا اکثر مشکل ہوتا ہے، اس لیے وہ اسے ڈیٹا جمع کرنے والوں سے خرید سکتے ہیں۔ ڈیٹا جمع کرنے والے مختلف ذرائع سے نقل و حرکت کا ڈیٹا اکٹھا کرتے ہیں، اسے صاف کرتے ہیں، شور ڈالتے ہیں، اور مخصوص جغرافیائی علاقوں کے لیے روزانہ کی بنیاد پر ڈیٹا دستیاب کرتے ہیں۔ خود ڈیٹا کی نوعیت کی وجہ سے اور چونکہ اسے حاصل کرنا مشکل ہے، اس لیے اس ڈیٹا کی درستگی اور معیار کافی حد تک مختلف ہو سکتا ہے، اور یہ کاروبار پر منحصر ہے کہ وہ روزانہ ایکٹیو یوزرز، کل ڈیلی پِنگز جیسے میٹرکس کا استعمال کر کے اس کی تشخیص اور تصدیق کریں۔ اور فی آلہ اوسط روزانہ پنگ۔ مندرجہ ذیل جدول دکھاتا ہے کہ ڈیٹا جمع کرنے والوں کے ذریعہ بھیجے جانے والے روزانہ ڈیٹا فیڈ کا ایک عام اسکیما کیسا ہوسکتا ہے۔

وصف Description
ID یا MAID ڈیوائس کی موبائل ایڈورٹائزنگ ID (MAID) (ہیشڈ)
لیٹ آلے کا عرض بلد
lng ڈیوائس کا طول بلد
geohash ڈیوائس کا جیواش مقام
device_type ڈیوائس کا آپریٹنگ سسٹم = IDFA یا GAID
افقی_درستگی افقی GPS کوآرڈینیٹ کی درستگی (میٹر میں)
ٹائمسٹیمپ تقریب کا ٹائم اسٹیمپ
ip IP پتہ
ALT آلے کی اونچائی (میٹر میں)
تیزی ڈیوائس کی رفتار (میٹر/سیکنڈ میں)
ملک اصل ملک کے لیے ISO دو ہندسوں کا کوڈ
تھے ریاست کی نمائندگی کرنے والے کوڈز
شہر شہر کی نمائندگی کرنے والے کوڈز
زپ کوڈ جہاں ڈیوائس آئی ڈی نظر آتی ہے اس کا زپ کوڈ
کیریئر ڈیوائس کا کیریئر
ڈیوائس_مینوفیکچرر ڈیوائس کا مینوفیکچرر

استعمال کے مقدمات

موبلٹی ڈیٹا کی مختلف صنعتوں میں وسیع پیمانے پر ایپلی کیشنز ہیں۔ مندرجہ ذیل کچھ عام استعمال کے معاملات ہیں:

  • کثافت میٹرکس - سرگرمیوں اور دلچسپی کے مقامات (POIs) کے دورے کا مشاہدہ کرنے کے لیے فٹ ٹریفک کے تجزیہ کو آبادی کی کثافت کے ساتھ ملایا جا سکتا ہے۔ یہ میٹرکس اس بات کی تصویر پیش کرتے ہیں کہ کتنے آلات یا صارفین فعال طور پر کسی کاروبار کو روک رہے ہیں اور اس سے منسلک ہو رہے ہیں، جنہیں سائٹ کے انتخاب کے لیے مزید استعمال کیا جا سکتا ہے یا کسی ایونٹ کے ارد گرد نقل و حرکت کے نمونوں کا تجزیہ بھی کیا جا سکتا ہے (مثال کے طور پر، گیم ڈے کے لیے سفر کرنے والے لوگ)۔ اس طرح کی بصیرتیں حاصل کرنے کے لیے، آنے والا خام ڈیٹا ایکسٹریکٹ، ٹرانسفارم، اور لوڈ (ETL) کے عمل سے گزرتا ہے تاکہ ڈیوائس لوکیشن پِنگز کے مسلسل سلسلے سے سرگرمیوں یا مصروفیات کی نشاندہی کی جا سکے۔ ہم ML ماڈلز کا استعمال کرتے ہوئے کلسٹرنگ پنگ کے ذریعے صارف یا موبائل ڈیوائس کے ذریعہ بنائے گئے اسٹاپس کی شناخت کرکے سرگرمیوں کا تجزیہ کرسکتے ہیں۔ ایمیزون سیج میکر.
  • سفر اور رفتار - ایک ڈیوائس کی روزانہ لوکیشن فیڈ کو سرگرمیوں (اسٹاپس) اور ٹرپس (حرکت) کے مجموعہ کے طور پر ظاہر کیا جاسکتا ہے۔ سرگرمیوں کا ایک جوڑا ان کے درمیان سفر کی نمائندگی کر سکتا ہے، اور جغرافیائی جگہ میں حرکت پذیر آلے کے ذریعے سفر کا سراغ لگانا اصل رفتار کی نقشہ سازی کا باعث بن سکتا ہے۔ صارف کی نقل و حرکت کے ٹریکٹری پیٹرن دلچسپ بصیرت کا باعث بن سکتے ہیں جیسے ٹریفک پیٹرن، ایندھن کی کھپت، شہر کی منصوبہ بندی، اور مزید۔ یہ اشتہاری پوائنٹس جیسے کہ بل بورڈ سے لیے گئے راستے کا تجزیہ کرنے کے لیے ڈیٹا بھی فراہم کر سکتا ہے، سپلائی چین کے آپریشنز کو بہتر بنانے کے لیے سب سے موثر ترسیل کے راستوں کی نشاندہی کر سکتا ہے، یا قدرتی آفات میں انخلاء کے راستوں کا تجزیہ کر سکتا ہے (مثال کے طور پر سمندری طوفان سے انخلاء)۔
  • کیچمنٹ ایریا کا تجزیہ اے کیچمنٹ ایریا ان جگہوں سے مراد ہے جہاں سے کوئی علاقہ اپنے زائرین کو کھینچتا ہے، جو گاہک یا ممکنہ گاہک ہو سکتے ہیں۔ خوردہ کاروبار اس معلومات کو ایک نیا اسٹور کھولنے کے لیے بہترین مقام کا تعین کرنے کے لیے استعمال کر سکتے ہیں، یا اس بات کا تعین کر سکتے ہیں کہ آیا دو اسٹور مقامات اوور لیپنگ کیچمنٹ ایریاز کے ساتھ ایک دوسرے کے بہت قریب ہیں اور ایک دوسرے کے کاروبار میں رکاوٹ ڈال رہے ہیں۔ وہ یہ بھی جان سکتے ہیں کہ اصل گاہک کہاں سے آ رہے ہیں، ممکنہ گاہکوں کی شناخت کر سکتے ہیں جو کام یا گھر کا سفر کرنے والے علاقے سے گزرتے ہیں، حریفوں کے لیے اسی طرح کے وزٹ میٹرکس کا تجزیہ کر سکتے ہیں، اور بہت کچھ۔ مارکیٹنگ ٹیک (MarTech) اور ایڈورٹائزمنٹ ٹیک (AdTech) کمپنیاں بھی اس تجزیے کو کسی برانڈ کے اسٹور کے قریب سامعین کی شناخت کرکے یا گھر سے باہر اشتہارات کی کارکردگی کے لحاظ سے اسٹورز کی درجہ بندی کرنے کے لیے مارکیٹنگ کی مہمات کو بہتر بنانے کے لیے استعمال کرسکتی ہیں۔

استعمال کے کئی دیگر معاملات ہیں، جن میں کمرشل رئیل اسٹیٹ کے لیے لوکیشن انٹیلی جنس پیدا کرنا، فٹ فال نمبر کے ساتھ سیٹلائٹ امیجری ڈیٹا کو بڑھانا، ریستورانوں کے لیے ڈیلیوری ہب کی نشاندہی کرنا، پڑوس کے انخلاء کے امکانات کا تعین کرنا، وبائی امراض کے دوران لوگوں کی نقل و حرکت کے نمونوں کو دریافت کرنا، اور بہت کچھ۔

چیلنجز اور اخلاقی استعمال

نقل و حرکت کے اعداد و شمار کا اخلاقی استعمال بہت سی دلچسپ بصیرت کا باعث بن سکتا ہے جو تنظیموں کو اپنے کاموں کو بہتر بنانے، مؤثر مارکیٹنگ انجام دینے، یا یہاں تک کہ مسابقتی فائدہ حاصل کرنے میں مدد کر سکتا ہے۔ اس ڈیٹا کو اخلاقی طور پر استعمال کرنے کے لیے، کئی مراحل پر عمل کرنے کی ضرورت ہے۔

اس کا آغاز خود ڈیٹا اکٹھا کرنے سے ہوتا ہے۔ اگرچہ زیادہ تر نقل و حرکت کا ڈیٹا ذاتی طور پر قابل شناخت معلومات (PII) سے خالی رہتا ہے جیسے کہ نام اور پتہ، ڈیٹا جمع کرنے والوں اور جمع کرنے والوں کے پاس اپنا ڈیٹا اکٹھا کرنے، استعمال کرنے، ذخیرہ کرنے اور شیئر کرنے کے لیے صارف کی رضامندی ہونی چاہیے۔ ڈیٹا پرائیویسی قوانین جیسے کہ GDPR اور CCPA پر عمل کرنے کی ضرورت ہے کیونکہ وہ صارفین کو اس بات کا تعین کرنے کے لیے بااختیار بناتے ہیں کہ کاروبار اپنے ڈیٹا کو کس طرح استعمال کر سکتے ہیں۔ یہ پہلا قدم نقل و حرکت کے اعداد و شمار کے اخلاقی اور ذمہ دارانہ استعمال کی طرف ایک اہم اقدام ہے، لیکن مزید کیا جا سکتا ہے۔

ہر ڈیوائس کو ایک ہیشڈ موبائل ایڈورٹائزنگ ID (MAID) تفویض کیا جاتا ہے، جو انفرادی پنگ کو اینکر کرنے کے لیے استعمال ہوتا ہے۔ اسے استعمال کرکے مزید مبہم کیا جاسکتا ہے۔ ایمیزون ماکی, ایمیزون S3 آبجیکٹ لیمبڈا, ایمیزون کی تعریف، یا اس سے بھی AWS گلو اسٹوڈیو PII تبدیلی کا پتہ لگائیں۔ مزید معلومات کے لیے رجوع کریں۔ AWS سروسز کا استعمال کرتے ہوئے PHI اور PII ڈیٹا کا پتہ لگانے کی عام تکنیک.

PII کے علاوہ، صارف کے گھر کے مقام کے ساتھ ساتھ دیگر حساس مقامات جیسے فوجی اڈوں یا عبادت گاہوں کو بھی نقاب پوش کرنے پر غور کیا جانا چاہیے۔

اخلاقی استعمال کا آخری مرحلہ Amazon SageMaker سے صرف مجموعی میٹرکس کو اخذ کرنا اور برآمد کرنا ہے۔ اس کا مطلب ہے میٹرکس حاصل کرنا جیسے کہ اوسط تعداد یا زائرین کی کل تعداد انفرادی سفری نمونوں کے برعکس؛ روزانہ، ہفتہ وار، ماہانہ یا سالانہ رجحانات حاصل کرنا؛ یا عوامی طور پر دستیاب اعداد و شمار جیسے مردم شماری کے اعداد و شمار پر نقل و حرکت کے پیٹررز کو ترتیب دینا۔

حل جائزہ

جیسا کہ پہلے ذکر کیا گیا ہے، AWS سروسز جو آپ نقل و حرکت کے ڈیٹا کے تجزیہ کے لیے استعمال کر سکتے ہیں وہ ہیں Amazon S3، Amazon Macie، AWS Glue، S3 Object Lambda، Amazon Comprehend، اور Amazon SageMaker جغرافیائی صلاحیتیں۔ Amazon SageMaker جغرافیائی صلاحیتیں ڈیٹا سائنسدانوں اور ML انجینئرز کے لیے جغرافیائی ڈیٹا کا استعمال کرتے ہوئے ماڈلز کی تعمیر، تربیت اور تعیناتی کو آسان بناتی ہیں۔ آپ بڑے پیمانے پر جغرافیائی ڈیٹاسیٹس کو مؤثر طریقے سے تبدیل یا افزودہ کر سکتے ہیں، پہلے سے تربیت یافتہ ML ماڈلز کے ساتھ ماڈل کی تعمیر کو تیز کر سکتے ہیں، اور 3D ایکسلریٹڈ گرافکس اور بلٹ ان ویژولائزیشن ٹولز کا استعمال کرتے ہوئے ایک انٹرایکٹو نقشے پر ماڈل کی پیشین گوئیوں اور جغرافیائی ڈیٹا کو دریافت کر سکتے ہیں۔

مندرجہ ذیل ریفرنس آرکیٹیکچر میں جغرافیائی ڈیٹا کے ساتھ ML کا استعمال کرتے ہوئے ورک فلو کو دکھایا گیا ہے۔

فن تعمیر کا ڈایاگرام

اس ورک فلو میں، خام ڈیٹا کو مختلف ڈیٹا ذرائع سے جمع کیا جاتا ہے اور ایک میں محفوظ کیا جاتا ہے۔ ایمیزون سادہ اسٹوریج سروس (S3) بالٹی۔ Amazon Macie کو اس S3 بالٹی پر شناخت کرنے اور اسے درست کرنے اور PII کے لیے استعمال کیا جاتا ہے۔ اس کے بعد AWS Glue کا استعمال خام ڈیٹا کو صاف اور مطلوبہ فارمیٹ میں تبدیل کرنے کے لیے کیا جاتا ہے، پھر ترمیم شدہ اور صاف کیے گئے ڈیٹا کو الگ S3 بالٹی میں محفوظ کیا جاتا ہے۔ ان ڈیٹا کی تبدیلیوں کے لیے جو AWS Glue کے ذریعے ممکن نہیں ہیں، آپ استعمال کرتے ہیں۔ او ڈبلیو ایس لامبڈا۔ خام ڈیٹا میں ترمیم اور صاف کرنے کے لیے۔ جب ڈیٹا صاف ہو جاتا ہے، تو آپ Amazon SageMaker کو پہلے سے تیار کردہ جغرافیائی ڈیٹا پر ایم ایل ماڈل بنانے، تربیت دینے اور تعینات کرنے کے لیے استعمال کر سکتے ہیں۔ آپ بھی استعمال کر سکتے ہیں۔ geospatial پروسیسنگ نوکریاں ڈیٹا کو پہلے سے پروسیس کرنے کے لیے Amazon SageMaker جغرافیائی صلاحیتوں کی خصوصیت — مثال کے طور پر، خام نقل و حرکت کے ڈیٹا سے سرگرمیوں کی نشاندہی کرنے کے لیے ایک Python فنکشن اور SQL اسٹیٹمنٹس کا استعمال۔ ڈیٹا سائنسدان ایمیزون سیج میکر نوٹ بک کے ذریعے منسلک ہو کر اس عمل کو پورا کر سکتے ہیں۔ آپ بھی استعمال کر سکتے ہیں۔ ایمیزون کوئیک سائٹ ڈیٹا سے کاروباری نتائج اور دیگر اہم میٹرکس کا تصور کرنے کے لیے۔

Amazon SageMaker جغرافیائی صلاحیتیں اور جغرافیائی پروسیسنگ جابز

ڈیٹا حاصل کرنے اور اسے ایمیزون S3 میں روزانہ فیڈ کے ساتھ فیڈ کرنے اور کسی بھی حساس ڈیٹا کے لیے صاف کرنے کے بعد، اسے ایمیزون سیج میکر میں امپورٹ کیا جا سکتا ہے۔ ایمیزون سیج میکر اسٹوڈیو ایک جغرافیائی تصویر کے ساتھ نوٹ بک۔ مندرجہ ذیل اسکرین شاٹ روزانہ ڈیوائس پنگز کا ایک نمونہ دکھاتا ہے جو ایمیزون S3 میں CSV فائل کے طور پر اپ لوڈ کیا جاتا ہے اور پھر پانڈا ڈیٹا فریم میں لوڈ کیا جاتا ہے۔ جغرافیائی تصویر والی Amazon SageMaker اسٹوڈیو نوٹ بک جغرافیائی لائبریریوں جیسے GDAL، GeoPandas، Fiona، اور Shapely کے ساتھ پہلے سے لوڈ ہوتی ہے، اور اس ڈیٹا پر کارروائی اور تجزیہ کرنے کے لیے اسے سیدھا بناتی ہے۔

اس نمونے کے ڈیٹاسیٹ میں 400,000 مئی 5,000 کو فینکس، ایریزونا کے ایک مشہور شاپنگ مال کمپلیکس ایرو ہیڈ مال کا دورہ کرنے والے صارفین سے ریکارڈ کردہ 14,000 منفرد جگہوں سے 15 ڈیوائسز سے تقریباً 2023 روزانہ ڈیوائس پنگز شامل ہیں۔ ڈیٹا سکیما. دی MAID کالم ڈیوائس آئی ڈی کی نمائندگی کرتا ہے، اور ہر MAID ہر منٹ میں آلے کے عرض البلد اور عرض البلد کو ریلے کرتے ہوئے پنگ تیار کرتا ہے، جو نمونہ فائل میں درج کیا گیا ہے۔ Lat اور Lng کالم۔

Foursquare سٹوڈیو سے چلنے والے Amazon SageMaker جغرافیائی صلاحیتوں کے نقشے کے تصور کے آلے کے اسکرین شاٹس درج ذیل ہیں، جو صبح 7:00 AM اور 6:00 PM کے درمیان مال میں آنے والے آلات سے پنگ کے لے آؤٹ کو ظاہر کرتے ہیں۔

مندرجہ ذیل اسکرین شاٹ مال اور آس پاس کے علاقوں سے پنگ دکھاتا ہے۔

مندرجہ ذیل مال میں مختلف اسٹورز کے اندر سے پنگ دکھاتا ہے۔

اسکرین شاٹس میں ہر ڈاٹ وقت کے ایک مقررہ مقام پر دیئے گئے ڈیوائس سے پنگ کو ظاہر کرتا ہے۔ پنگوں کا ایک جھرمٹ مقبول مقامات کی نمائندگی کرتا ہے جہاں آلات جمع ہوتے ہیں یا رک جاتے ہیں، جیسے کہ اسٹورز یا ریستوراں۔

ابتدائی ETL کے حصے کے طور پر، اس خام ڈیٹا کو AWS Glue کا استعمال کرتے ہوئے میزوں پر لوڈ کیا جا سکتا ہے۔ آپ ڈیٹا کے اسکیما کی شناخت کے لیے ایک AWS Glue کرالر بنا سکتے ہیں اور Amazon S3 میں ڈیٹا ماخذ کے طور پر خام ڈیٹا کے مقام کی طرف اشارہ کر کے ٹیبل بنا سکتے ہیں۔

جیسا کہ اوپر ذکر کیا گیا ہے، خام ڈیٹا (روزانہ ڈیوائس پِنگز)، ابتدائی ETL کے بعد بھی، GPS پِنگز کے مسلسل سلسلے کی نمائندگی کرے گا جو ڈیوائس کے مقامات کی نشاندہی کرتا ہے۔ اس ڈیٹا سے قابل عمل بصیرت نکالنے کے لیے، ہمیں اسٹاپس اور ٹرپس (ٹریجیکٹریز) کی شناخت کرنے کی ضرورت ہے۔ یہ استعمال کرکے حاصل کیا جاسکتا ہے۔ geospatial پروسیسنگ نوکریاں SageMaker جغرافیائی صلاحیتوں کی خصوصیت۔ ایمیزون سیج میکر پروسیسنگ مقصد سے بنائے گئے جغرافیائی کنٹینر کے ساتھ ڈیٹا پروسیسنگ کے کام کے بوجھ کو چلانے کے لیے SageMaker پر ایک آسان، منظم تجربہ استعمال کرتا ہے۔ سیج میکر پروسیسنگ جاب کے لیے بنیادی ڈھانچہ مکمل طور پر سیج میکر کے زیر انتظام ہے۔ یہ خصوصیت SageMaker پروسیسنگ جاب پر geospatial ML کنٹینر چلا کر Amazon S3 پر ذخیرہ شدہ جغرافیائی ڈیٹا پر چلنے کے لیے حسب ضرورت کوڈ کو قابل بناتی ہے۔ آپ اوپن سورس لائبریریوں کے ساتھ کسٹم کوڈ لکھ کر اوپن یا پرائیویٹ جغرافیائی ڈیٹا پر کسٹم آپریشنز چلا سکتے ہیں، اور SageMaker پروسیسنگ جابز کا استعمال کرتے ہوئے پیمانے پر آپریشن چلا سکتے ہیں۔ کنٹینر پر مبنی نقطہ نظر عام طور پر استعمال شدہ اوپن سورس لائبریریوں کے ساتھ ترقیاتی ماحول کی معیاری کاری کے ارد گرد ضروریات کو حل کرتا ہے۔

اس طرح کے بڑے پیمانے پر کام کے بوجھ کو چلانے کے لیے، آپ کو ایک لچکدار کمپیوٹ کلسٹر کی ضرورت ہے جو سٹی بلاک پر کارروائی کرنے کے لیے دسیوں مثالوں سے لے کر سیاروں کے پیمانے پر پروسیسنگ کے لیے ہزاروں مثالوں تک۔ DIY کمپیوٹ کلسٹر کو دستی طور پر منظم کرنا سست اور مہنگا ہے۔ یہ خصوصیت خاص طور پر اس وقت مددگار ثابت ہوتی ہے جب نقل و حرکت ڈیٹاسیٹ میں چند شہروں سے لے کر متعدد ریاستوں یا یہاں تک کہ ممالک شامل ہوں اور اسے دو قدمی ML اپروچ چلانے کے لیے استعمال کیا جا سکتا ہے۔

پہلا قدم یہ ہے کہ کثافت پر مبنی اسپیشل کلسٹرنگ آف ایپلی کیشنز کا شور (DBSCAN) الگورتھم کے ساتھ کلسٹر اسٹاپس کو پنگ سے روکنا ہے۔ اگلا مرحلہ سپورٹ ویکٹر مشینوں (SVMs) کا طریقہ استعمال کرنا ہے تاکہ شناخت شدہ اسٹاپس کی درستگی کو مزید بہتر بنایا جا سکے اور POI بمقابلہ ایک کے بغیر اسٹاپس (جیسے گھر یا کام) کے ساتھ مصروفیات کے ساتھ اسٹاپس کی تمیز کرنا۔ آپ سیج میکر پروسیسنگ جاب کا بھی استعمال کر سکتے ہیں روزانہ ڈیوائس پنگ سے ٹرپس اور ٹریجیکٹری پیدا کرنے کے لیے لگاتار اسٹاپس کی شناخت کر کے اور منبع اور منزلوں کے اسٹاپس کے درمیان راستے کا نقشہ بنا کر۔

جغرافیائی پروسیسنگ جابز کے ساتھ پیمانے پر خام ڈیٹا (ڈیلی ڈیوائس پنگ) پر کارروائی کرنے کے بعد، نئے ڈیٹاسیٹ جسے اسٹاپس کہتے ہیں درج ذیل اسکیما ہونا چاہیے۔

وصف Description
ID یا MAID ڈیوائس کی موبائل ایڈورٹائزنگ ID (ہیشڈ)
لیٹ سٹاپ کلسٹر کے سینٹروڈ کا عرض بلد
lng سٹاپ کلسٹر کے سینٹروڈ کا طول بلد
geohash POI کا جیواش مقام
device_type ڈیوائس کا آپریٹنگ سسٹم (IDFA یا GAID)
ٹائمسٹیمپ سٹاپ کا آغاز وقت
رہنے کا وقت قیام کا وقت (سیکنڈ میں)
ip IP پتہ
ALT آلے کی اونچائی (میٹر میں)
ملک اصل ملک کے لیے ISO دو ہندسوں کا کوڈ
تھے ریاست کی نمائندگی کرنے والے کوڈز
شہر شہر کی نمائندگی کرنے والے کوڈز
زپ کوڈ جہاں آلہ ID نظر آتا ہے اس کا زپ کوڈ
کیریئر ڈیوائس کا کیریئر
ڈیوائس_مینوفیکچرر ڈیوائس کا مینوفیکچرر

اسٹاپس کو فی آلہ پنگز کو کلسٹر کرکے مضبوط کیا جاتا ہے۔ کثافت پر مبنی کلسٹرنگ کو پیرامیٹرز کے ساتھ جوڑا جاتا ہے جیسے کہ اسٹاپ تھریشولڈ 300 سیکنڈ اور اسٹاپ کے درمیان کم از کم فاصلہ 50 میٹر ہے۔ ان پیرامیٹرز کو آپ کے استعمال کے معاملے کے مطابق ایڈجسٹ کیا جا سکتا ہے۔

مندرجہ ذیل اسکرین شاٹ تقریباً 15,000 اسٹاپ دکھاتا ہے جو 400,000 پنگز سے شناخت کیے گئے ہیں۔ پچھلے اسکیما کا ایک ذیلی سیٹ بھی موجود ہے، جہاں کالم Dwell Time سٹاپ کی مدت کی نمائندگی کرتا ہے، اور Lat اور Lng کالم اسٹاپس کلسٹر کے سینٹروائڈز کے عرض البلد اور طول البلد کی نمائندگی کرتے ہیں فی آلہ فی مقام۔

ETL کے بعد، ڈیٹا کو Parquet فائل فارمیٹ میں محفوظ کیا جاتا ہے، جو کہ کالم سٹوریج کی شکل ہے جو بڑی مقدار میں ڈیٹا پر کارروائی کرنا آسان بناتا ہے۔

مندرجہ ذیل اسکرین شاٹ مال اور آس پاس کے علاقوں کے اندر فی آلہ پنگس سے یکجا کیے گئے اسٹاپوں کو دکھاتا ہے۔

اسٹاپس کی شناخت کے بعد، اس ڈیٹاسیٹ کو عوامی طور پر دستیاب POI ڈیٹا یا استعمال کے معاملے کے لیے مخصوص اپنی مرضی کے POI ڈیٹا کے ساتھ شامل کیا جا سکتا ہے تاکہ سرگرمیوں کی شناخت کی جا سکے، جیسے برانڈز کے ساتھ مشغولیت۔

مندرجہ ذیل اسکرین شاٹ ایرو ہیڈ مال کے اندر بڑے POIs (اسٹوروں اور برانڈز) پر شناخت شدہ اسٹاپوں کو دکھاتا ہے۔

ہوم زپ کوڈز کو ہر آنے والے کے گھر کے مقام کو ماسک کرنے کے لیے استعمال کیا گیا ہے تاکہ رازداری کو برقرار رکھا جا سکے اگر یہ ڈیٹا سیٹ میں ان کے سفر کا حصہ ہو۔ ایسے معاملات میں عرض البلد اور عرض البلد زپ کوڈ کے سنٹرائڈ کے متعلقہ نقاط ہیں۔

مندرجہ ذیل اسکرین شاٹ ایسی سرگرمیوں کی بصری نمائندگی ہے۔ بائیں تصویر اسٹورز کے اسٹاپ کا نقشہ بناتی ہے، اور دائیں تصویر خود مال کی ترتیب کا اندازہ دیتی ہے۔

اس کے نتیجے میں ڈیٹاسیٹ کو کئی طریقوں سے تصور کیا جا سکتا ہے، جس پر ہم مندرجہ ذیل حصوں میں بحث کرتے ہیں۔

کثافت میٹرکس

ہم سرگرمیوں اور دوروں کی کثافت کا حساب اور تصور کر سکتے ہیں۔

مثال 1 - مندرجہ ذیل اسکرین شاٹ مال میں وزٹ کیے گئے ٹاپ 15 اسٹورز کو دکھاتا ہے۔

مثال 2 - مندرجہ ذیل اسکرین شاٹ ہر گھنٹے کے حساب سے ایپل اسٹور پر آنے والوں کی تعداد دکھاتا ہے۔

سفر اور رفتار

جیسا کہ پہلے ذکر کیا گیا ہے، لگاتار سرگرمیوں کا ایک جوڑا ایک سفر کی نمائندگی کرتا ہے۔ ہم سرگرمیوں کے اعداد و شمار سے دوروں کو حاصل کرنے کے لیے درج ذیل طریقہ استعمال کر سکتے ہیں۔ یہاں، ونڈو فنکشنز ایس کیو ایل کے ساتھ جنریٹ کرنے کے لیے استعمال کیے جاتے ہیں۔ trips ٹیبل، جیسا کہ اسکرین شاٹ میں دکھایا گیا ہے۔

کے بعد trips ٹیبل تیار کیا گیا ہے، پی او آئی کے سفر کا تعین کیا جا سکتا ہے۔

مثال 1 - مندرجہ ذیل اسکرین شاٹ ٹاپ 10 اسٹورز کو دکھاتا ہے جو ایپل اسٹور کی طرف پیدل ٹریفک کو ڈائریکٹ کرتے ہیں۔

مثال 2 - مندرجہ ذیل اسکرین شاٹ ایرو ہیڈ مال کے تمام دوروں کو دکھاتا ہے۔

مثال 3 - مندرجہ ذیل ویڈیو مال کے اندر نقل و حرکت کے نمونے دکھاتی ہے۔

مثال 4 - مندرجہ ذیل ویڈیو مال کے باہر نقل و حرکت کے نمونے دکھاتی ہے۔

کیچمنٹ ایریا کا تجزیہ

ہم POI کے تمام دوروں کا تجزیہ کر سکتے ہیں اور کیچمنٹ ایریا کا تعین کر سکتے ہیں۔

مثال 1 - مندرجہ ذیل اسکرین شاٹ میسی کے اسٹور کے تمام دوروں کو دکھاتا ہے۔

مثال 2 - مندرجہ ذیل اسکرین شاٹ گھر کے 10 ٹاپ ایریا زپ کوڈز دکھاتا ہے (حدود کو نمایاں کیا گیا) جہاں سے دورے ہوئے ہیں۔

ڈیٹا کوالٹی چیک

ہم معیار کے لیے روزانہ آنے والے ڈیٹا فیڈ کو چیک کر سکتے ہیں اور QuickSight ڈیش بورڈز اور ڈیٹا کے تجزیوں کا استعمال کرتے ہوئے بے ضابطگیوں کا پتہ لگا سکتے ہیں۔ مندرجہ ذیل اسکرین شاٹ ایک مثال ڈیش بورڈ دکھاتا ہے۔

نتیجہ

موبلٹی ڈیٹا اور کسٹمر کی بصیرت حاصل کرنے اور مسابقتی فائدہ حاصل کرنے کے لیے اس کا تجزیہ ایک خاص علاقہ ہے کیونکہ مستقل اور درست ڈیٹا سیٹ حاصل کرنا مشکل ہے۔ تاہم، یہ ڈیٹا تنظیموں کو موجودہ تجزیے میں سیاق و سباق شامل کرنے اور یہاں تک کہ کسٹمر کی نقل و حرکت کے نمونوں کے بارے میں نئی ​​بصیرت پیدا کرنے میں مدد کر سکتا ہے۔ Amazon SageMaker جغرافیائی صلاحیتیں اور جغرافیائی پروسیسنگ جابز ان استعمال کے معاملات کو لاگو کرنے اور بصیرت حاصل کرنے میں بدیہی اور قابل رسائی طریقے سے مدد کر سکتی ہیں۔

اس پوسٹ میں، ہم نے دکھایا ہے کہ موبلٹی ڈیٹا کو صاف کرنے کے لیے AWS سروسز کا استعمال کیسے کیا جاتا ہے اور پھر ایمیزون سیج میکر کی جغرافیائی صلاحیتوں کو استعمال کرتے ہوئے مشتق ڈیٹا سیٹس جیسے کہ اسٹاپس، سرگرمیاں، اور ایم ایل ماڈلز کا استعمال کرتے ہوئے ٹرپس تیار کیے جاتے ہیں۔ پھر ہم نے مشتق ڈیٹا سیٹس کو حرکت کے نمونوں کو دیکھنے اور بصیرت پیدا کرنے کے لیے استعمال کیا۔

آپ Amazon SageMaker جغرافیائی صلاحیتوں کے ساتھ دو طریقوں سے شروعات کر سکتے ہیں:

مزید جاننے کے لئے، ملاحظہ کریں ایمیزون سیج میکر کی جغرافیائی صلاحیتیں۔ اور Amazon SageMaker geospatial کے ساتھ شروع کرنا. اس کے علاوہ، ہمارے ملاحظہ کریں GitHub repo، جس میں Amazon SageMaker جغرافیائی صلاحیتوں پر متعدد مثالی نوٹ بک ہیں۔


مصنفین کے بارے میں

جمی میتھیوز AI/ML ٹیک میں مہارت کے ساتھ AWS سلوشنز آرکیٹیکٹ ہے۔ جمی بوسٹن سے تعلق رکھتا ہے اور انٹرپرائز صارفین کے ساتھ کام کرتا ہے کیونکہ وہ کلاؤڈ کو اپنا کر اپنے کاروبار کو تبدیل کرتے ہیں اور موثر اور پائیدار حل تیار کرنے میں ان کی مدد کرتے ہیں۔ وہ اپنے خاندان، کاروں اور مکسڈ مارشل آرٹس کے بارے میں پرجوش ہے۔

گریش کیشو AWS میں ایک سولیوشن آرکیٹیکٹ ہے، جو کلاؤڈ مائیگریشن کے سفر میں صارفین کی مدد کرتا ہے تاکہ کام کے بوجھ کو محفوظ اور موثر طریقے سے جدید بنایا جا سکے۔ وہ ٹیکنالوجی ٹیموں کے لیڈروں کے ساتھ مل کر ایپلی کیشن سیکیورٹی، مشین لرننگ، لاگت کی اصلاح اور پائیداری پر رہنمائی کرتا ہے۔ وہ سان فرانسسکو سے باہر ہے، اور اسے سفر کرنا، پیدل سفر کرنا، کھیل دیکھنا، اور کرافٹ بریوری کی تلاش کرنا پسند ہے۔

رمیش جیٹی AWS انٹرپرائز کے صارفین کو ان کے ڈیٹا اثاثوں کو منیٹائز کرنے میں مدد کرنے پر توجہ مرکوز کرنے والے سولیوشنز آرکیٹیکچر کے ایک سینئر لیڈر ہیں۔ وہ ایگزیکٹوز اور انجینئرز کو انتہائی قابل توسیع، قابل اعتماد، اور لاگت سے موثر کلاؤڈ سلوشنز کو ڈیزائن اور بنانے کا مشورہ دیتا ہے، خاص طور پر مشین لرننگ، ڈیٹا اور تجزیات پر توجہ مرکوز کرتے ہیں۔ اپنے فارغ وقت میں وہ اپنے گھر والوں کے ساتھ باہر نکلنے، بائیک چلانے اور پیدل سفر سے لطف اندوز ہوتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ