Heart Of The Matter: Demystifying Copying In The Training Of LLMs - DATAVERSITY

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

پچھلے 15 مہینوں پر غور کرتے ہوئے، عوام کے لیے ChatGPT کے تعارف اور دستیابی کے بعد جنریٹیو AI اور بڑے لینگوئج ماڈلز (LLMs) میں ہونے والی پیش رفت نے سرخیوں پر غلبہ حاصل کیا ہے۔

اس پیشرفت کے لیے بنیادی رکاوٹ ٹرانسفارمر ماڈل آرکیٹیکچر تھا جسے گوگل کے محققین کی ایک ٹیم نے ایک مقالے میں بیان کیا ہے جس کا عنوان "توجہ صرف آپ کی ضرورت ہے۔" جیسا کہ عنوان سے پتہ چلتا ہے، تمام ٹرانسفارمر ماڈلز کی ایک اہم خصوصیت توجہ کا طریقہ کار ہے، جس کی وضاحت کاغذ میں اس طرح کی گئی ہے:

"ایک توجہ کے فنکشن کو ایک سوال کی نقشہ سازی کے طور پر بیان کیا جا سکتا ہے اور آؤٹ پٹ میں کلیدی قدر کے جوڑوں کا ایک سیٹ، جہاں استفسار، کلیدیں، قدریں، اور آؤٹ پٹ سبھی ویکٹر ہیں۔ آؤٹ پٹ کو اقدار کے وزنی مجموعہ کے طور پر شمار کیا جاتا ہے، جہاں ہر قدر کو تفویض کردہ وزن متعلقہ کلید کے ساتھ استفسار کے مطابقت پذیری کے فنکشن کے ذریعے شمار کیا جاتا ہے۔

جنریٹو AI ماڈلز کی ایک خصوصیت ڈیٹا ان پٹ کا بڑے پیمانے پر استعمال ہے، جس میں ٹیکسٹ، امیجز، آڈیو فائلز، ویڈیو فائلز، یا ان پٹ کے کسی بھی امتزاج پر مشتمل ہوسکتا ہے (ایک کیس جسے عام طور پر "ملٹی موڈل" کہا جاتا ہے)۔ کاپی رائٹ کے نقطہ نظر سے، ایک اہم سوال (بہت سے اہم سوالات میں سے) پوچھنا ہے کہ آیا تربیتی مواد کو بڑی زبان کا ماڈل (LLM) مختلف LLM فروشوں کے ذریعہ تیار کیا گیا ہے۔ اس سوال کا جواب دینے کے لیے، ہمیں یہ سمجھنا ہوگا کہ متنی مواد پر کیسے عمل کیا جاتا ہے۔ متن پر توجہ مرکوز کرتے ہوئے، اس کے بعد ایل ایل ایم کی تربیت کے بالکل اسی پہلو کی ایک مختصر، غیر تکنیکی وضاحت ہے۔

انسان الفاظ کو ترتیب میں رکھ کر فطری زبان میں بات چیت کرتے ہیں۔ کسی لفظ کی ترتیب اور مخصوص شکل کے بارے میں قواعد مخصوص زبان (مثلاً، انگریزی) کے ذریعے وضع کیے جاتے ہیں۔ تمام سافٹ ویئر سسٹمز کے لیے فن تعمیر کا ایک لازمی حصہ جو ٹیکسٹ پر کارروائی کرتے ہیں (اور اس وجہ سے ان تمام AI سسٹمز کے لیے جو ایسا کرتے ہیں) یہ ہے کہ اس متن کی نمائندگی کیسے کی جائے تاکہ سسٹم کے افعال کو زیادہ مؤثر طریقے سے انجام دیا جاسکے۔ لہٰذا، لینگویج ماڈلز میں ٹیکسٹول ان پٹ کی پروسیسنگ کا ایک اہم مرحلہ صارف کے ان پٹ کو خصوصی "الفاظ" میں تقسیم کرنا ہے جسے AI سسٹم سمجھ سکتا ہے۔ ان خاص الفاظ کو "ٹوکن" کہا جاتا ہے۔ اس کے لیے ذمہ دار جزو "ٹوکنائزر" کہلاتا ہے۔ ٹوکنائزرز کی بہت سی قسمیں ہیں۔ مثال کے طور پر، OpenAI اور Azure OpenAI اپنے جنریٹیو پری ٹرینڈ ٹرانسفارمر (GPT) پر مبنی ماڈلز کے لیے "Byte-Pair Encoding (BPE)" نامی ذیلی لفظ ٹوکنائزیشن کا طریقہ استعمال کرتے ہیں۔ بی پی ای ایک ایسا طریقہ ہے جو حروف یا بائٹس کے اکثر ہونے والے جوڑوں کو ایک ٹوکن میں ضم کرتا ہے، جب تک کہ ٹوکن کی ایک مخصوص تعداد یا الفاظ کے سائز تک نہ پہنچ جائے۔ ذخیرہ الفاظ کا سائز جتنا بڑا ہوگا، ماڈل میں متنوع متنوع اور اظہار خیال کیا جا سکتا ہے۔

ایک بار جب AI سسٹم نے ان پٹ ٹیکسٹ کو ٹوکنز میں میپ کیا ہے، تو یہ ٹوکنز کو نمبرز میں انکوڈ کرتا ہے اور ان ترتیبوں کو تبدیل کرتا ہے جن پر اس نے ویکٹر کے طور پر کارروائی کی ہے جسے "لفظ ایمبیڈنگز" کہا جاتا ہے۔ ویکٹر نمبروں کا ایک ترتیب شدہ سیٹ ہے – آپ اسے ٹیبل میں ایک قطار یا کالم کے طور پر سوچ سکتے ہیں۔ یہ ویکٹر ٹوکنز کی نمائندگی کرتے ہیں جو اپنی اصل فطری زبان کی نمائندگی کو محفوظ رکھتے ہیں جو بطور متن دیا گیا تھا۔ جب کاپی رائٹ کی بات آتی ہے تو لفظ سرایت کے کردار کو سمجھنا ضروری ہے کیونکہ سرایت پورے جملے، یا یہاں تک کہ پیراگراف کی نمائندگی (یا انکوڈنگز) بناتی ہے، اور اسی لیے، ویکٹر کے امتزاج میں، یہاں تک کہ ایک اعلیٰ جہتی ویکٹر اسپیس میں پوری دستاویزات۔ یہ ان ایمبیڈنگز کے ذریعے ہی ہے کہ اے آئی سسٹم فطری زبان سے الفاظ کے معنی اور تعلق کو پکڑتا اور محفوظ کرتا ہے۔

ایمبیڈنگز کو عملی طور پر ہر اس کام میں استعمال کیا جاتا ہے جو ایک تخلیقی AI نظام انجام دیتا ہے (مثال کے طور پر، ٹیکسٹ جنریشن، ٹیکسٹ سمریائزیشن، ٹیکسٹ کی درجہ بندی، ٹیکسٹ ٹرانسلیشن، امیج جنریشن، کوڈ جنریشن وغیرہ)۔ ورڈ ایمبیڈنگز عام طور پر ویکٹر ڈیٹا بیس میں محفوظ کی جاتی ہیں، لیکن ذخیرہ کرنے کے تمام طریقوں کی تفصیلی وضاحت اس پوسٹ کے دائرہ کار سے باہر ہے کیونکہ اس میں بہت سے قسم کے وینڈرز، عمل اور طریقے استعمال میں ہیں۔

جیسا کہ ذکر کیا گیا ہے، تقریباً تمام ایل ایل ایمز ٹرانسفارمر آرکیٹیکچر پر مبنی ہیں، جو توجہ دینے کے طریقہ کار کی دعوت دیتا ہے۔ مؤخر الذکر AI ٹکنالوجی کو صرف حروف کی ترتیب کے بجائے پورے جملے اور یہاں تک کہ پیراگراف کو دیکھنے کی اجازت دیتا ہے۔ یہ سافٹ ویئر کو ان مختلف سیاق و سباق کو پکڑنے کی اجازت دیتا ہے جن کے اندر کوئی لفظ واقع ہو سکتا ہے، اور چونکہ یہ سیاق و سباق تربیت میں استعمال کیے جانے والے کاموں کے ذریعے فراہم کیے جاتے ہیں، بشمول کاپی رائٹ والے کام، وہ صوابدیدی نہیں ہیں۔ اس طرح، الفاظ کا اصل استعمال، اصل کام کا اظہار، AI سسٹم میں محفوظ رہتا ہے۔ اسے دوبارہ تیار کیا جا سکتا ہے اور تجزیہ کیا جا سکتا ہے، اور نئے تاثرات کی بنیاد بنا سکتا ہے (جو کہ مخصوص حالات پر منحصر ہے، کاپی رائٹ کی زبان میں "ماخوذ کام" کے طور پر بیان کیا جا سکتا ہے)۔

LLMs اصل کاموں کے تاثرات کو برقرار رکھتے ہیں جن پر انہیں تربیت دی گئی ہے۔ وہ مقصد سے تیار کردہ ویکٹر اسپیس میں متن کی اندرونی نمائندگی کرتے ہیں اور، ٹرگر کے طور پر مناسب ان پٹ کو دیکھتے ہوئے، وہ اصل کاموں کو دوبارہ پیش کر سکتے ہیں جو ان کی تربیت میں استعمال کیے گئے تھے۔ AI سسٹمز مواد سے دائمی فوائد حاصل کرتے ہیں، بشمول کاپی رائٹ شدہ مواد، جو LLMs کو تربیت دینے کے لیے استعمال کیا جاتا ہے جس پر وہ مبنی ہیں۔ ایل ایل ایم اصل کام میں الفاظ کے اظہار کی بنیاد پر الفاظ کے سیاق و سباق کو پہچانتے ہیں۔ اور یہ سیاق و سباق تربیت میں استعمال ہونے والے کاپی رائٹ والے کاموں کے ہزاروں یا لاکھوں میں مجموعی طور پر AI سسٹم کو فائدہ پہنچاتا ہے۔ ان اصل کاموں کو AI سسٹم کے ذریعے دوبارہ تخلیق کیا جا سکتا ہے کیونکہ وہ کاپی رائٹ والے کام کے ویکٹرز - ٹوکنز کی ویکٹر-اسپیس نمائندگی جو ان کی اصل قدرتی زبان کی نمائندگی کو محفوظ رکھتے ہیں، میں محفوظ کیے جاتے ہیں۔ کاپی رائٹ کے نقطہ نظر سے، اس بات کا تعین کرنا کہ آیا LLMs میں تربیتی مواد کو برقرار رکھا جاتا ہے، اور یہ واضح ہے کہ اس سوال کا جواب ہاں میں ہے۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/

ٹائم اسٹیمپ: 2 فروری 2024

ٹائم اسٹیمپ: دسمبر 14، 2023

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

DataStax ڈیمو: Apache Cassandra اور Apache Pulsar کے ساتھ ایک موثر اسٹریمنگ ڈیٹا پائپ لائن بنانا

ڈیٹا ایپیسوڈ 46 میں میرا کیریئر: سنتھیا کین فٹزجیرالڈ، یونیورسٹی مینیجر، بزنس انٹیلی جنس تجزیات، انٹیوچ یونیورسٹی - ڈیٹاورسٹی

2024 میں کیا توقع رکھیں: ہائبرڈ اور ملٹی کلاؤڈ آرکیٹیکچر کا غلبہ - ڈیٹاورسٹی

ڈیٹا سیزن 2 ایپیسوڈ 2 میں میرا کیریئر: جان لیڈلی، پرنسپل، سونرائی - ڈیٹاورسٹی

data.world نئے ڈیٹا کوالٹی میٹرکس فراہم کرنے کے لیے Snowflake کے ساتھ ضم ہوتا ہے - DATAVERSITY

12 دسمبر ڈیٹا ایڈ ویبینار: ڈیٹا مینجمنٹ کے بہترین طریقے - ڈیٹاورسٹی

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ