یہ 10 سوالات پوچھے بغیر ڈیٹاسیٹ کو مت چھوئے۔

ٹیگز: ڈیٹا سیٹ, ڈسٹری, Outliers, نجی معلومات کی حفاظتی, معیاری کاری

آپ کے AI پروجیکٹ کی کامیابی کے لیے صحیح ڈیٹا سیٹ کا انتخاب بہت ضروری ہے۔

By سندیپ اتم چندانی، پی ایچ ڈی۔، دونوں ایک پروڈکٹ/سافٹ ویئر بلڈر (VP of Engg) اور آپریٹنگ انٹرپرائز وائیڈ ڈیٹا/AI اقدامات (CDO) میں رہنما

ڈیٹا ایکسپلوریشن

ڈیٹا ایک AI پروڈکٹ کا دل ہے۔ ماڈلز کو ٹیوننگ کرنے کے بجائے ڈیٹا کو ٹیون کرنے پر بڑھتا ہوا زور ہے - جسے اینڈریو این جی نے بنایا ڈیٹا سینٹرک AI. میرے تجربے میں، AI پروجیکٹ کی کامیابی یا ناکامی کا اندازہ استعمال کیے جانے والے ڈیٹاسیٹس سے لگایا جا سکتا ہے۔

اگر آپ ڈیٹا سائنٹسٹ/AI انجینئر ہیں جو ایک نیا ماڈل بنانا چاہتے ہیں یا AI پروجیکٹ کے لیے پائپ لائنوں کی تعمیر پر کام کرنے والے ڈیٹا انجینئر ہیں، ہر ڈیٹاسیٹ کے لیے جسے آپ شارٹ لسٹ کرتے ہیں، AI لائف سائیکل میں بعد میں سر درد اور توقعات سے محروم ہونے سے بچنے کے لیے درج ذیل سوالات پوچھیں۔

1. کیا ڈیٹاسیٹ اوصاف کا معنی دستاویزی ہے؟

Prior to the big data era, data was curated before being added to the central data warehouse. This is known as schema-on-write. Today, the approach with data lakes is to first aggregate the data and then infer the meaning of data at the time of consumption. This is known as schema-on-read.

ڈیٹا کے اوصاف شاذ و نادر ہی درست طریقے سے دستاویز کیے جاتے ہیں یا تازہ ترین رکھے جاتے ہیں۔ اگرچہ دستاویزات کو ایک ایسے قدم کے طور پر دیکھا جا سکتا ہے جو پروجیکٹ کو سست کر رہا ہے، لیکن یہ ماڈل ڈیبگنگ کے دوران اصل میں انتہائی اہم ہو جاتا ہے۔ ڈیٹا اسٹیورڈ کی شناخت کریں جو ڈیٹا سیٹ کا مالک ہے اور یقینی بنائیں کہ وہ انتہائی درست دستاویزات فراہم کر سکتا ہے۔

2. کیا ڈیٹاسیٹ میں مجموعی/ماخوذ میٹرکس معیاری ہیں؟

اخذ کردہ ڈیٹا یا میٹرکس میں سچائی اور کاروباری تعریف کے متعدد ذرائع ہو سکتے ہیں۔ اس بات کو یقینی بنائیں کہ میٹرکس میں واضح دستاویزی کاروباری تعریف موجود ہے (بعض اوقات ETL کے اندر مضمر)

3. کیا ڈیٹا سیٹ ڈیٹا کے حقوق کے ضوابط کی تعمیل کرتا ہے (جیسے GDPR، CCPA، وغیرہ)

ڈیٹا کے حقوق کے ضوابط اب اہم ہوتے جا رہے ہیں - ماڈل ٹریننگ اور ری ٹریننگ کے دوران ان کو ٹریک کرنا اور ان کو نافذ کرنا اہم ہے۔ اعداد و شمار کے حقوق کے ضوابط جیسے GDPR، CCPA، برازیلین جنرل ڈیٹا پروٹیکشن ایکٹ، انڈیا پرسنل ڈیٹا پروٹیکشن بل، اور کئی دوسرے، جیسا کہ تصویر میں دکھایا گیا ہے، کی بڑھتی ہوئی تعداد ہے۔ یہ قوانین گاہک کے ڈیٹا کو ان کی ترجیحات کی بنیاد پر جمع، استعمال اور حذف کرنے کا تقاضا کرتے ہیں۔ وہاں ہے مختلف پہلوؤں ڈیٹا کے حقوق، یعنی: ڈیٹا کے حقوق کا مجموعہ، ڈیٹا کے حقوق کا استعمال، ڈیٹا کے حقوق کو حذف کرنا، ڈیٹا کے حقوق تک رسائی۔

کیا۔

یہ بہت عام ہے کہ منبع پر اسکیما کی تبدیلیاں ڈاون اسٹریم پروسیسنگ کے ساتھ غیر مربوط ہوتی ہیں۔ تبدیلیاں اسکیما تبدیلیوں (موجودہ پائپ لائنوں کو توڑنے) سے لے کر ڈیٹا کی خصوصیات میں سیمیٹک تبدیلیوں کا پتہ لگانا مشکل تک ہوسکتی ہیں۔ اس کے علاوہ، جب کاروباری میٹرکس تبدیل ہوتے ہیں، تو تعریفوں کے ورژن کی کمی ہوتی ہے۔

5. وہ سیاق و سباق کیا ہے جس میں ڈیٹاسیٹ جمع کیا گیا تھا؟

ڈیٹا سیٹس شاذ و نادر ہی شماریاتی نقطہ نظر سے حتمی سچائی کو پکڑتے ہیں۔ وہ صرف ان صفات کو حاصل کرتے ہیں جن کی درخواست کے مالکان کو اس وقت اپنے استعمال کے معاملے میں ضرورت ہوتی ہے۔ تعصب اور گرائے گئے ڈیٹا کے لیے ڈیٹا سیٹس کا تجزیہ کرنا ضروری ہے۔ ڈیٹاسیٹ کے سیاق و سباق کو سمجھنا انتہائی اہم ہے۔

6. کیا ڈیٹا IID ہے؟

۔ باضابطہ مفروضہ ماڈل ٹریننگ کا ڈیٹا یہ ہے۔ آئی آئی ڈی (آزاد اور شناختی طور پر تقسیم شدہ) اس کے علاوہ، ڈیٹا ایک ختم ہونے کی تاریخ ہے. 10 سال پہلے کے کسٹمر کے رویے کا ریکارڈ نمائندہ نہیں ہو سکتا۔

7. کیا ڈیٹا سیٹ کو ڈیٹا اکٹھا کرنے میں منظم غلطیوں کے لیے جانچا/توثیق کیا گیا ہے؟

اگر ڈیٹا سیٹ میں غلطیاں بے ترتیب ہیں، تو وہ ماڈل ٹریننگ کے لیے کم نقصان دہ ہیں۔ لیکن اگر کوئی ایسا بگ ہے کہ ایک مخصوص قطار یا کالم منظم طریقے سے غائب ہے، تو یہ ڈیٹاسیٹ میں تعصب کا باعث بن سکتا ہے۔ مثال کے طور پر، ایک بگ کی وجہ سے صارف کے زمرے کے لیے صارف کے کلکس کی ڈیوائس کی تفصیلات غائب ہیں، ڈیٹا سیٹ حقیقت کا نمائندہ نہیں ہوگا۔

8. کیا اچانک تقسیم کی تبدیلیوں کے لیے ڈیٹا سیٹ کی نگرانی کی جاتی ہے؟

ڈیٹا سیٹ مسلسل تیار ہو رہے ہیں۔ ڈیٹا کی تقسیم کا تجزیہ ایک بار کی سرگرمی نہیں ہے جو صرف ماڈل کی تخلیق کے وقت درکار ہے۔ اس کے بجائے، خاص طور پر آن لائن ٹریننگ کے لیے ڈیٹا سیٹس کی مسلسل نگرانی کرنے کی ضرورت ہے۔

9. ڈیٹاسیٹ میں آؤٹ لیرز کو کیسے ہینڈل کیا جاتا ہے؟

آؤٹلیئرز ضروری نہیں کہ برے ہوں اور کبھی کبھی ماڈل کو صحیح طریقے سے بنانے کے لیے ضروری ہوتے ہیں۔ یہ سمجھنا ضروری ہے کہ آیا جمع کرنے کے دوران آؤٹ لیرز کو فلٹر کیا جا رہا ہے اور منطق/معیار کیا ہے۔

10. کیا ڈیٹاسیٹ کے پاس ایک تفویض کردہ ڈیٹا سٹیورڈ ہے؟ (بڑے سائز کی ٹیموں کے لیے قابل اطلاق)

ڈیٹا سیٹ بیکار ہیں اگر وہ سمجھ نہیں سکتے۔ کالم کے معنی کو ریورس کرنے کی کوشش کرنا اکثر 'ہارنے والی جنگ' ہوتا ہے۔ کلید اس بات کو یقینی بنانا ہے کہ ڈیٹاسیٹ کے لیے ایک ڈیٹا اسٹیورڈ ذمہ دار ہے جو دستاویزات کی تفصیلات کو اپ ڈیٹ اور تیار کرتا ہے۔

میرے تجربے میں، ان سوالات کا جواب فعال طور پر بے نقاب کرنے میں مدد کرتا ہے۔ معلوم معروف، معلوم نامعلوم، اور نامعلوم نامعلوم ڈیٹاسیٹ میں یہ ضروری نہیں ہے کہ ہر سوال کا اثبات میں جواب ہو۔ بلکہ، ان جوابات کو مدنظر رکھنا AI لائف سائیکل کو تیز کر سکتا ہے اور اندھے دھبوں سے بچنے میں مدد کر سکتا ہے۔

بیو: سندیپ اتم چندانی، پی ایچ ڈی۔: ڈیٹا + AI/ML — دونوں ایک پروڈکٹ/سافٹ ویئر بلڈر (VP of Engg) اور آپریٹنگ انٹرپرائز وائیڈ ڈیٹا/AI اقدامات (CDO) میں رہنما | O'Reilly کتاب مصنف | بانی - DataForHumanity (غیر منافع بخش)

متعلقہ: