5 Reasons Why You Need Synthetic Data

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

5 وجوہات کیوں آپ کو مصنوعی ڈیٹا کی ضرورت ہے۔
سے تیار کردہ مصنوعی ڈیٹا کبرک

مشین لرننگ ماڈل کو تربیت دینے کے لیے، آپ کو ڈیٹا کی ضرورت ہے۔ ڈیٹا سائنس کے کام عام طور پر کاگل مقابلہ نہیں ہوتے ہیں جہاں آپ کے پاس ایک اچھا بڑا کیوریٹڈ ڈیٹاسیٹ ہوتا ہے جو پہلے سے لیبل لگا ہوتا ہے۔ کبھی کبھی آپ کو اپنا ڈیٹا اکٹھا کرنا، منظم کرنا اور صاف کرنا پڑتا ہے۔ حقیقی دنیا میں ڈیٹا اکٹھا کرنے اور لیبل لگانے کا یہ عمل وقت طلب، بوجھل، مہنگا، غلط اور بعض اوقات خطرناک بھی ہو سکتا ہے۔ مزید برآں، اس عمل کے اختتام پر، آپ اس ڈیٹا کے ساتھ ختم کر سکتے ہیں جس کا سامنا آپ کو حقیقی دنیا میں ہوا، ضروری نہیں کہ وہ ڈیٹا ہو جو آپ معیار، تنوع (مثلاً، طبقاتی عدم توازن) اور مقدار کے لحاظ سے چاہتے ہیں۔ ذیل میں عام مسائل ہیں جن کا آپ حقیقی ڈیٹا کے ساتھ کام کرتے وقت سامنا کر سکتے ہیں۔

حقیقی ڈیٹا اکٹھا کرنا اور لیبلنگ قابل توسیع نہیں ہے۔
اصلی ڈیٹا کو دستی طور پر لیبل لگانا بعض اوقات ناممکن ہو سکتا ہے۔
حقیقی ڈیٹا میں رازداری اور حفاظت کے مسائل ہوتے ہیں۔
حقیقی ڈیٹا قابل پروگرام نہیں ہے۔
حقیقی اعداد و شمار پر خصوصی طور پر تربیت یافتہ ماڈل کافی کارکردگی کا مظاہرہ نہیں کرتا ہے (مثال کے طور پر، ترقی کی سست رفتار)

خوش قسمتی سے، اس طرح کے مسائل کو مصنوعی ڈیٹا کے ساتھ حل کیا جا سکتا ہے. آپ سوچ رہے ہوں گے، مصنوعی ڈیٹا کیا ہے؟? مصنوعی اعداد و شمار کو مصنوعی طور پر تیار کردہ ڈیٹا کے طور پر بیان کیا جا سکتا ہے جو عام طور پر الگورتھم کا استعمال کرتے ہوئے تخلیق کیا جاتا ہے جو حقیقی دنیا کے عمل کی نقل کرتے ہیں، دوسرے سڑک استعمال کرنے والوں کے رویے سے لے کر روشنی کے رویے تک جب یہ سطحوں کے ساتھ تعامل کرتا ہے۔ یہ پوسٹ حقیقی دنیا کے ڈیٹا کی حدود سے تجاوز کرتی ہے، اور کس طرح مصنوعی ڈیٹا ان مسائل پر قابو پانے اور ماڈل کی کارکردگی کو بہتر بنانے میں مدد کر سکتا ہے۔

چھوٹے ڈیٹاسیٹس کے لیے، عام طور پر ڈیٹا اکٹھا کرنا اور دستی طور پر لیبل لگانا ممکن ہوتا ہے۔ تاہم، بہت سے پیچیدہ مشین سیکھنے کے کاموں کو تربیت کے لیے بڑے ڈیٹا سیٹس کی ضرورت ہوتی ہے۔ مثال کے طور پر، خود مختار گاڑیوں کی ایپلی کیشنز کے لیے تربیت یافتہ ماڈلز کو کاروں یا ڈرونز سے منسلک سینسر سے جمع کیے گئے ڈیٹا کی بڑی مقدار کی ضرورت ہوتی ہے۔ ڈیٹا اکٹھا کرنے کا یہ عمل سست ہے اور اس میں مہینوں یا سال بھی لگ سکتے ہیں۔ ایک بار خام ڈیٹا اکٹھا ہوجانے کے بعد، اس کے بعد انسانوں کے ذریعہ دستی طور پر تشریح کی جانی چاہیے، جو کہ مہنگا اور وقت طلب بھی ہے۔ مزید برآں، اس بات کی کوئی گارنٹی نہیں ہے کہ لیبل لگا ہوا ڈیٹا جو واپس آتا ہے وہ تربیتی ڈیٹا کے طور پر فائدہ مند ہوگا، کیونکہ اس میں ایسی مثالیں شامل نہیں ہوسکتی ہیں جو ماڈل کے علم میں موجودہ خلا کو مطلع کرتی ہوں۔

[ایمبیڈڈ مواد] [ایمبیڈڈ مواد]

اس ڈیٹا کو لیبل لگانے میں اکثر سینسر ڈیٹا کے اوپر انسانوں کے ہاتھ سے ڈرائنگ لیبل شامل ہوتے ہیں۔ یہ بہت مہنگا ہے کیونکہ زیادہ معاوضہ لینے والی ML ٹیمیں اکثر اپنے وقت کا ایک بڑا حصہ اس بات کو یقینی بنانے میں صرف کرتی ہیں کہ لیبل درست ہیں اور غلطیاں لیبلرز کو واپس بھیجتی ہیں۔ مصنوعی ڈیٹا کی ایک بڑی طاقت یہ ہے کہ آپ اپنی مرضی کے مطابق زیادہ سے زیادہ لیبل لگا ڈیٹا بنا سکتے ہیں۔ آپ کو صرف معیاری مصنوعی ڈیٹا تیار کرنے کا ایک طریقہ درکار ہے۔

مصنوعی ڈیٹا تیار کرنے کے لیے اوپن سورس سافٹ ویئر: کبرک (سیگمنٹیشن ماسک، گہرائی کے نقشے، اور آپٹیکل فلو کے ساتھ ملٹی آبجیکٹ ویڈیوز) اور ایس ڈی وی (ٹیبلر، رشتہ دار، اور ٹائم سیریز کا ڈیٹا)۔

کچھ (بہت سی) کمپنیاں جو مصنوعات فروخت کرتی ہیں یا پلیٹ فارم بناتی ہیں جو مصنوعی ڈیٹا تیار کر سکتی ہیں۔ Gretel.ai (مصنوعی ڈیٹا سیٹ جو حقیقی ڈیٹا کی رازداری کو یقینی بناتے ہیں) NVIDIA (عالمگیر)، اور متوازی ڈومین (خود مختار گاڑیاں)۔ زیادہ کے لئے، مصنوعی ڈیٹا کمپنیوں کی 2022 کی فہرست دیکھیں.

5 وجوہات کیوں آپ کو مصنوعی ڈیٹا کی ضرورت ہے۔
سے تصویر متوازی ڈومین

کچھ ڈیٹا ہے جس کی انسان مکمل تشریح اور لیبل نہیں کر سکتے۔ ذیل میں استعمال کے کچھ معاملات ہیں جہاں مصنوعی ڈیٹا واحد آپشن ہے:

گہرائی کا درست اندازہ اور آپٹیکل بہاؤ ایک تصویر سے
سیلف ڈرائیونگ ایپلی کیشنز جو ریڈار ڈیٹا کا استعمال کرتی ہیں جو انسانی آنکھ کو نظر نہیں آتا
گہری جعلی تیار کرنا جو چہرے کی شناخت کے نظام کو جانچنے کے لیے استعمال کیا جا سکتا ہے۔

5 وجوہات کیوں آپ کو مصنوعی ڈیٹا کی ضرورت ہے۔
تصویر کی طرف سے مائیکل گالرنک

مصنوعی ڈیٹا ان ڈومینز میں ایپلی کیشنز کے لیے انتہائی مفید ہے جہاں آپ آسانی سے حقیقی ڈیٹا حاصل نہیں کر سکتے۔ اس میں کار حادثے کے ڈیٹا کی کچھ اقسام اور صحت کے ڈیٹا کی زیادہ تر اقسام شامل ہیں جن پر رازداری کی پابندیاں ہیں (مثلاً، الیکٹرانک صحت کے ریکارڈ)۔ حالیہ برسوں میں، صحت کی دیکھ بھال کے محققین ای سی جی اور پی پی جی سگنلز کا استعمال کرتے ہوئے ایٹریل فبریلیشن (دل کی بے قاعدہ تال) کی پیش گوئی کرنے میں دلچسپی رکھتے ہیں۔ اریتھمیا ڈٹیکٹر تیار کرنا نہ صرف مشکل ہے کیونکہ ان سگنلز کی تشریح مشکل اور مہنگی ہے، بلکہ رازداری کی پابندیوں کی وجہ سے بھی۔ یہ ایک وجہ ہے کیوں وہاں ہے ان سگنلز کی تقلید میں تحقیق.

اس بات پر زور دینا ضروری ہے کہ حقیقی ڈیٹا اکٹھا کرنے میں صرف وقت اور توانائی نہیں لگتی بلکہ درحقیقت خطرناک بھی ہو سکتی ہے۔ روبوٹک ایپلی کیشنز جیسے سیلف ڈرائیونگ کاروں کے ساتھ ایک بنیادی مسئلہ یہ ہے کہ وہ مشین لرننگ کی فزیکل ایپلی کیشنز ہیں۔ آپ حقیقی دنیا میں غیر محفوظ ماڈل تعینات نہیں کر سکتے ہیں اور متعلقہ ڈیٹا کی کمی کی وجہ سے کریش ہو سکتے ہیں۔ مصنوعی ڈیٹا کے ساتھ ڈیٹا سیٹ کو بڑھانے سے ماڈلز کو ان مسائل سے بچنے میں مدد مل سکتی ہے۔

ایپلیکیشن کی حفاظت کو بہتر بنانے کے لیے مصنوعی ڈیٹا استعمال کرنے والی کچھ کمپنیاں درج ذیل ہیں: ٹویوٹا, واہمو، اور کروز.

5 وجوہات کیوں آپ کو مصنوعی ڈیٹا کی ضرورت ہے۔
سے تصویر متوازی ڈومین

مضافاتی کیلیفورنیا کے طرز کے ماحول میں اسکول بس کے پیچھے سے نکلتے ہوئے اور سڑک کے پار سائیکل چلاتے ہوئے سائیکل پر سوار بچے کی مصنوعی تصویر۔

خود مختار گاڑیوں کی ایپلی کیشنز اکثر نسبتاً "غیر معمولی" (ڈرائیونگ کے عام حالات کے نسبت) واقعات سے نمٹتی ہیں جیسے رات کے وقت پیدل چلنے والوں یا سڑک کے بیچوں بیچ سوار سائیکل سوار۔ ایک منظر نامے کو سیکھنے کے لیے ماڈلز کو اکثر سیکڑوں ہزاروں یا لاکھوں مثالوں کی ضرورت ہوتی ہے۔ ایک بڑا مسئلہ یہ ہے کہ حقیقی دنیا کا جمع کردہ ڈیٹا شاید وہ نہ ہو جو آپ معیار، تنوع (مثلاً، طبقاتی عدم توازن، موسمی حالات، مقام) اور مقدار کے لحاظ سے تلاش کر رہے ہیں۔ ایک اور مسئلہ یہ ہے کہ سیلف ڈرائیونگ کاروں اور روبوٹس کے لیے، آپ ہمیشہ یہ نہیں جانتے کہ آپ کو کون سا ڈیٹا درکار ہے جو کہ فکسڈ ڈیٹاسیٹس اور فکسڈ بینچ مارکس کے ساتھ روایتی مشین لرننگ کاموں کے برعکس ہے۔ جبکہ کچھ ڈیٹا بڑھانے کی تکنیکیں جو منظم یا تصادفی طور پر تصاویر کو تبدیل کرتی ہیں مددگار ثابت ہوتی ہیں۔، یہ تکنیک کر سکتے ہیں ان کے اپنے مسائل پیش کرتے ہیں۔.

یہ وہ جگہ ہے جہاں مصنوعی ڈیٹا آتا ہے۔ مصنوعی ڈیٹا جنریشن APIs آپ کو ڈیٹاسیٹس کو انجینئر کرنے کی اجازت دیتا ہے۔ یہ APIs آپ کو بہت پیسہ بچا سکتے ہیں کیونکہ روبوٹ بنانا اور حقیقی دنیا میں ڈیٹا اکٹھا کرنا بہت مہنگا ہے۔ مصنوعی ڈیٹاسیٹ جنریشن کا استعمال کرتے ہوئے ڈیٹا تیار کرنے اور انجینئرنگ کے اصولوں کا پتہ لگانے کی کوشش کرنا بہت بہتر اور تیز ہے۔

مندرجہ ذیل مثالیں ہیں جو اس بات کو نمایاں کرتی ہیں کہ کس طرح قابل پروگرام مصنوعی ڈیٹا ماڈلز کو سیکھنے میں مدد کرتا ہے: دھوکہ دہی سے متعلق لین دین کی روک تھام (امریکن ایکسپریس), بہتر سائیکل سوار کا پتہ لگانا (متوازی ڈومین)، اور سرجری کا تجزیہ اور جائزہ (Hutom.io).

5 وجوہات کیوں آپ کو مصنوعی ڈیٹا کی ضرورت ہے۔
ماڈل ڈویلپمنٹ سائیکل کے مراحل | سے تصویر جلیس ایس دامجی

صنعت میں، وہاں ہیں بہت سارے عوامل جو ترقی اور پیداوار دونوں میں مشین لرننگ پروجیکٹ کی عملداری/کارکردگی کو متاثر کرتے ہیں۔ (مثال کے طور پر، ڈیٹا کا حصول، تشریح، ماڈل ٹریننگ، اسکیلنگ، تعیناتی، نگرانی، ماڈل کی دوبارہ تربیت، اور ترقی کی رفتار)۔ حال ہی میں، 18 مشین لرننگ انجینئرز نے انٹرویو کے مطالعے میں حصہ لیا۔ جس کا مقصد تمام تنظیموں اور ایپلی کیشنز (مثلاً خود مختار گاڑیاں، کمپیوٹر ہارڈویئر، ریٹیل، اشتہارات، سفارشی نظام وغیرہ) میں عام MLOps طریقوں اور چیلنجوں کو سمجھنا تھا۔ مطالعہ کے نتائج میں سے ایک ترقی کی رفتار کی اہمیت تھی جس کی تعریف تیزی سے پروٹو ٹائپ کرنے اور خیالات پر اعادہ کرنے کی صلاحیت کے طور پر کی جا سکتی ہے۔

ترقی کی رفتار کو متاثر کرنے والا ایک عنصر ابتدائی ماڈل کی تربیت اور تشخیص کرنے کے لیے ڈیٹا کی ضرورت ہے۔ نیز بار بار ماڈل کی دوبارہ تربیت وقت کے ساتھ ساتھ ماڈل کی کارکردگی کے زوال پذیر ہونے کی وجہ سے ڈیٹا ڈرفٹ، کانسیپٹ ڈرفٹ، یا یہاں تک کہ ٹرین ٹریننگ سرونگ سکیو کی وجہ سے۔

5 وجوہات کیوں آپ کو مصنوعی ڈیٹا کی ضرورت ہے۔
سے تصویر ظاہر ہے AI

مطالعہ نے یہ بھی بتایا کہ اس ضرورت نے کچھ تنظیموں کو لائیو ڈیٹا کو کثرت سے لیبل کرنے کے لیے ایک ٹیم تشکیل دینے پر مجبور کیا۔ یہ مہنگا، وقت طلب ہے، اور کسی تنظیم کی ماڈلز کو بار بار تربیت دینے کی صلاحیت کو محدود کرتا ہے۔

5 وجوہات کیوں آپ کو مصنوعی ڈیٹا کی ضرورت ہے۔
سے تصویر Gretel.ai

نوٹ، یہ خاکہ اس بات کا احاطہ نہیں کرتا ہے کہ مصنوعی ڈیٹا کو کس طرح چیزوں کے لیے بھی استعمال کیا جا سکتا ہے۔ سفارش کنندگان میں MLOps کی جانچ.

مصنوعی ڈیٹا میں مشین لرننگ لائف سائیکل (اوپر تصویر) میں حقیقی دنیا کے ڈیٹا کے ساتھ استعمال کیے جانے کی صلاحیت ہے تاکہ تنظیموں کو اپنے ماڈلز کو زیادہ دیر تک پرفارمنس رکھنے میں مدد مل سکے۔

مشین لرننگ ورک فلو میں مصنوعی ڈیٹا جنریشن زیادہ سے زیادہ عام ہوتا جا رہا ہے۔ حقیقت میں، گارٹنر پیشن گوئی کرتا ہے کہ 2030 تک، مشین لرننگ ماڈلز کو تربیت دینے کے لیے مصنوعی ڈیٹا حقیقی دنیا کے ڈیٹا سے کہیں زیادہ استعمال کیا جائے گا۔ اگر آپ کے پاس اس پوسٹ کے بارے میں کوئی سوالات یا خیالات ہیں تو ، نیچے دیئے گئے تبصروں میں یا اس کے ذریعے بلا جھجھک رابطہ کریں۔ ٹویٹر.

مائیکل گالرنک ڈیٹا سائنس پروفیشنل ہے، اور Anyscale میں ڈیولپر ریلیشنز میں کام کرتا ہے۔