پچھلے 15 مہینوں پر غور کرتے ہوئے، عوام کے لیے ChatGPT کے تعارف اور دستیابی کے بعد جنریٹیو AI اور بڑے لینگوئج ماڈلز (LLMs) میں ہونے والی پیش رفت نے سرخیوں پر غلبہ حاصل کیا ہے۔
اس پیشرفت کے لیے بنیادی رکاوٹ ٹرانسفارمر ماڈل آرکیٹیکچر تھا جسے گوگل کے محققین کی ایک ٹیم نے ایک مقالے میں بیان کیا ہے جس کا عنوان "توجہ صرف آپ کی ضرورت ہے۔" جیسا کہ عنوان سے پتہ چلتا ہے، تمام ٹرانسفارمر ماڈلز کی ایک اہم خصوصیت توجہ کا طریقہ کار ہے، جس کی وضاحت کاغذ میں اس طرح کی گئی ہے:
"ایک توجہ کے فنکشن کو ایک سوال کی نقشہ سازی کے طور پر بیان کیا جا سکتا ہے اور آؤٹ پٹ میں کلیدی قدر کے جوڑوں کا ایک سیٹ، جہاں استفسار، کلیدیں، قدریں، اور آؤٹ پٹ سبھی ویکٹر ہیں۔ آؤٹ پٹ کو اقدار کے وزنی مجموعہ کے طور پر شمار کیا جاتا ہے، جہاں ہر قدر کو تفویض کردہ وزن متعلقہ کلید کے ساتھ استفسار کے مطابقت پذیری کے فنکشن کے ذریعے شمار کیا جاتا ہے۔
جنریٹو AI ماڈلز کی ایک خصوصیت ڈیٹا ان پٹ کا بڑے پیمانے پر استعمال ہے، جس میں ٹیکسٹ، امیجز، آڈیو فائلز، ویڈیو فائلز، یا ان پٹ کے کسی بھی امتزاج پر مشتمل ہوسکتا ہے (ایک کیس جسے عام طور پر "ملٹی موڈل" کہا جاتا ہے)۔ کاپی رائٹ کے نقطہ نظر سے، ایک اہم سوال (بہت سے اہم سوالات میں سے) پوچھنا ہے کہ آیا تربیتی مواد کو بڑی زبان کا ماڈل (LLM) مختلف LLM فروشوں کے ذریعہ تیار کیا گیا ہے۔ اس سوال کا جواب دینے کے لیے، ہمیں یہ سمجھنا ہوگا کہ متنی مواد پر کیسے عمل کیا جاتا ہے۔ متن پر توجہ مرکوز کرتے ہوئے، اس کے بعد ایل ایل ایم کی تربیت کے بالکل اسی پہلو کی ایک مختصر، غیر تکنیکی وضاحت ہے۔
انسان الفاظ کو ترتیب میں رکھ کر فطری زبان میں بات چیت کرتے ہیں۔ کسی لفظ کی ترتیب اور مخصوص شکل کے بارے میں قواعد مخصوص زبان (مثلاً، انگریزی) کے ذریعے وضع کیے جاتے ہیں۔ تمام سافٹ ویئر سسٹمز کے لیے فن تعمیر کا ایک لازمی حصہ جو ٹیکسٹ پر کارروائی کرتے ہیں (اور اس وجہ سے ان تمام AI سسٹمز کے لیے جو ایسا کرتے ہیں) یہ ہے کہ اس متن کی نمائندگی کیسے کی جائے تاکہ سسٹم کے افعال کو زیادہ مؤثر طریقے سے انجام دیا جاسکے۔ لہٰذا، لینگویج ماڈلز میں ٹیکسٹول ان پٹ کی پروسیسنگ کا ایک اہم مرحلہ صارف کے ان پٹ کو خصوصی "الفاظ" میں تقسیم کرنا ہے جسے AI سسٹم سمجھ سکتا ہے۔ ان خاص الفاظ کو "ٹوکن" کہا جاتا ہے۔ اس کے لیے ذمہ دار جزو "ٹوکنائزر" کہلاتا ہے۔ ٹوکنائزرز کی بہت سی قسمیں ہیں۔ مثال کے طور پر، OpenAI اور Azure OpenAI اپنے جنریٹیو پری ٹرینڈ ٹرانسفارمر (GPT) پر مبنی ماڈلز کے لیے "Byte-Pair Encoding (BPE)" نامی ذیلی لفظ ٹوکنائزیشن کا طریقہ استعمال کرتے ہیں۔ بی پی ای ایک ایسا طریقہ ہے جو حروف یا بائٹس کے اکثر ہونے والے جوڑوں کو ایک ٹوکن میں ضم کرتا ہے، جب تک کہ ٹوکن کی ایک مخصوص تعداد یا الفاظ کے سائز تک نہ پہنچ جائے۔ ذخیرہ الفاظ کا سائز جتنا بڑا ہوگا، ماڈل میں متنوع متنوع اور اظہار خیال کیا جا سکتا ہے۔
ایک بار جب AI سسٹم نے ان پٹ ٹیکسٹ کو ٹوکنز میں میپ کیا ہے، تو یہ ٹوکنز کو نمبرز میں انکوڈ کرتا ہے اور ان ترتیبوں کو تبدیل کرتا ہے جن پر اس نے ویکٹر کے طور پر کارروائی کی ہے جسے "لفظ ایمبیڈنگز" کہا جاتا ہے۔ ویکٹر نمبروں کا ایک ترتیب شدہ سیٹ ہے – آپ اسے ٹیبل میں ایک قطار یا کالم کے طور پر سوچ سکتے ہیں۔ یہ ویکٹر ٹوکنز کی نمائندگی کرتے ہیں جو اپنی اصل فطری زبان کی نمائندگی کو محفوظ رکھتے ہیں جو بطور متن دیا گیا تھا۔ جب کاپی رائٹ کی بات آتی ہے تو لفظ سرایت کے کردار کو سمجھنا ضروری ہے کیونکہ سرایت پورے جملے، یا یہاں تک کہ پیراگراف کی نمائندگی (یا انکوڈنگز) بناتی ہے، اور اسی لیے، ویکٹر کے امتزاج میں، یہاں تک کہ ایک اعلیٰ جہتی ویکٹر اسپیس میں پوری دستاویزات۔ یہ ان ایمبیڈنگز کے ذریعے ہی ہے کہ اے آئی سسٹم فطری زبان سے الفاظ کے معنی اور تعلق کو پکڑتا اور محفوظ کرتا ہے۔
ایمبیڈنگز کو عملی طور پر ہر اس کام میں استعمال کیا جاتا ہے جو ایک تخلیقی AI نظام انجام دیتا ہے (مثال کے طور پر، ٹیکسٹ جنریشن، ٹیکسٹ سمریائزیشن، ٹیکسٹ کی درجہ بندی، ٹیکسٹ ٹرانسلیشن، امیج جنریشن، کوڈ جنریشن وغیرہ)۔ ورڈ ایمبیڈنگز عام طور پر ویکٹر ڈیٹا بیس میں محفوظ کی جاتی ہیں، لیکن ذخیرہ کرنے کے تمام طریقوں کی تفصیلی وضاحت اس پوسٹ کے دائرہ کار سے باہر ہے کیونکہ اس میں بہت سے قسم کے وینڈرز، عمل اور طریقے استعمال میں ہیں۔
جیسا کہ ذکر کیا گیا ہے، تقریباً تمام ایل ایل ایمز ٹرانسفارمر آرکیٹیکچر پر مبنی ہیں، جو توجہ دینے کے طریقہ کار کی دعوت دیتا ہے۔ مؤخر الذکر AI ٹکنالوجی کو صرف حروف کی ترتیب کے بجائے پورے جملے اور یہاں تک کہ پیراگراف کو دیکھنے کی اجازت دیتا ہے۔ یہ سافٹ ویئر کو ان مختلف سیاق و سباق کو پکڑنے کی اجازت دیتا ہے جن کے اندر کوئی لفظ واقع ہو سکتا ہے، اور چونکہ یہ سیاق و سباق تربیت میں استعمال کیے جانے والے کاموں کے ذریعے فراہم کیے جاتے ہیں، بشمول کاپی رائٹ والے کام، وہ صوابدیدی نہیں ہیں۔ اس طرح، الفاظ کا اصل استعمال، اصل کام کا اظہار، AI سسٹم میں محفوظ رہتا ہے۔ اسے دوبارہ تیار کیا جا سکتا ہے اور تجزیہ کیا جا سکتا ہے، اور نئے تاثرات کی بنیاد بنا سکتا ہے (جو کہ مخصوص حالات پر منحصر ہے، کاپی رائٹ کی زبان میں "ماخوذ کام" کے طور پر بیان کیا جا سکتا ہے)۔
LLMs اصل کاموں کے تاثرات کو برقرار رکھتے ہیں جن پر انہیں تربیت دی گئی ہے۔ وہ مقصد سے تیار کردہ ویکٹر اسپیس میں متن کی اندرونی نمائندگی کرتے ہیں اور، ٹرگر کے طور پر مناسب ان پٹ کو دیکھتے ہوئے، وہ اصل کاموں کو دوبارہ پیش کر سکتے ہیں جو ان کی تربیت میں استعمال کیے گئے تھے۔ AI سسٹمز مواد سے دائمی فوائد حاصل کرتے ہیں، بشمول کاپی رائٹ شدہ مواد، جو LLMs کو تربیت دینے کے لیے استعمال کیا جاتا ہے جس پر وہ مبنی ہیں۔ ایل ایل ایم اصل کام میں الفاظ کے اظہار کی بنیاد پر الفاظ کے سیاق و سباق کو پہچانتے ہیں۔ اور یہ سیاق و سباق تربیت میں استعمال ہونے والے کاپی رائٹ والے کاموں کے ہزاروں یا لاکھوں میں مجموعی طور پر AI سسٹم کو فائدہ پہنچاتا ہے۔ ان اصل کاموں کو AI سسٹم کے ذریعے دوبارہ تخلیق کیا جا سکتا ہے کیونکہ وہ کاپی رائٹ والے کام کے ویکٹرز - ٹوکنز کی ویکٹر-اسپیس نمائندگی جو ان کی اصل قدرتی زبان کی نمائندگی کو محفوظ رکھتے ہیں، میں محفوظ کیے جاتے ہیں۔ کاپی رائٹ کے نقطہ نظر سے، اس بات کا تعین کرنا کہ آیا LLMs میں تربیتی مواد کو برقرار رکھا جاتا ہے، اور یہ واضح ہے کہ اس سوال کا جواب ہاں میں ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
- پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/
- : ہے
- : ہے
- : نہیں
- :کہاں
- 15٪
- a
- ہمارے بارے میں
- کے پار
- Ad
- AI
- اے آئی ماڈلز
- اے آئی سسٹمز
- تمام
- کی اجازت دیتا ہے
- تقریبا
- an
- تجزیہ کیا
- اور
- جواب
- کوئی بھی
- نقطہ نظر
- مناسب
- صوابدیدی
- فن تعمیر
- کیا
- AS
- پوچھنا
- پہلو
- تفویض
- At
- توجہ
- آڈیو
- دستیابی
- Azure
- کی بنیاد پر
- بنیاد
- BE
- کیونکہ
- رہا
- فوائد
- سے پرے
- بلاک
- عمارت
- لیکن
- by
- کہا جاتا ہے
- کر سکتے ہیں
- قبضہ
- قبضہ
- کیس
- کچھ
- خصوصیت
- خصوصیات
- حروف
- چیٹ جی پی ٹی
- حالات
- درجہ بندی
- واضح
- کوڈ
- کالم
- مجموعہ
- کے مجموعے
- آتا ہے
- ابلاغ
- مطابقت
- جزو
- شمار
- کھپت
- مواد
- سیاق و سباق
- سیاق و سباق
- کاپی
- کاپی رائٹ
- اسی کے مطابق
- سکتا ہے
- اعداد و شمار
- ڈیٹا بیس
- ڈیٹاورسٹی
- کی وضاحت
- منحصر ہے
- اخذ کردہ
- بیان کیا
- تفصیل
- تفصیلی
- کا تعین کرنے
- مسلط
- متنوع
- DM
- do
- دستاویزات
- غلبہ
- e
- ہر ایک
- مؤثر طریقے سے
- انکوڈنگ
- انگریزی
- پوری
- جس کا عنوان
- ضروری
- Ether (ETH)
- بھی
- واقعہ
- ہر کوئی
- بالکل
- مثال کے طور پر
- اظہار
- اظہار
- اظہار
- نمایاں کریں
- فائلوں
- توجہ مرکوز
- کے بعد
- مندرجہ ذیل ہے
- کے لئے
- فارم
- اکثر
- سے
- تقریب
- افعال
- پیدا
- نسل
- پیداواری
- پیداواری AI۔
- دی
- گوگل
- ہے
- خبروں کی تعداد
- ہارٹ
- مدد
- کس طرح
- کیسے
- HTTPS
- تصویر
- تصویر کی نسل
- تصاویر
- اہم
- in
- سمیت
- ان پٹ
- آدانوں
- اندرونی
- میں
- تعارف
- پکارتے ہیں۔
- IT
- کلیدی
- چابیاں
- زبان
- بڑے
- بڑے
- ایل ایل ایم
- بنا
- بہت سے
- تعریفیں
- بڑے پیمانے پر
- مواد
- معاملہ
- مئی..
- مطلب
- میکانزم
- ذکر کیا
- mers
- انضمام
- طریقہ
- لاکھوں
- ماڈل
- ماڈل
- ماہ
- زیادہ
- سب سے زیادہ
- قدرتی
- قدرتی زبان
- ضرورت ہے
- نیورپس
- نئی
- نیوز لیٹر
- غیر تکنیکی
- تعداد
- تعداد
- واقع
- واقع ہو رہا ہے
- of
- on
- اوپنائی
- or
- اصل
- بیان کیا
- پیداوار
- جوڑے
- کاغذ.
- حصہ
- گزشتہ
- کارکردگی
- کارکردگی کا مظاہرہ
- ہمیشہ
- نقطہ نظر
- رکھ
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- پوسٹ
- عملی طور پر
- طریقوں
- محفوظ
- عمل
- عملدرآمد
- عمل
- پروسیسنگ
- تیار
- پیش رفت
- فراہم
- عوامی
- استفسار میں
- سوال
- سوالات
- بلکہ
- پہنچ گئی
- تسلیم
- کہا جاتا ہے
- تعلقات
- کی نمائندگی
- نمائندگی
- محققین
- ذمہ دار
- برقرار رکھنے
- برقرار رکھا
- کردار
- ROW
- قوانین
- گنجائش
- ترتیب
- مقرر
- ایک
- سائز
- So
- سافٹ ویئر کی
- خلا
- خالی جگہیں
- خصوصی
- مخصوص
- مرحلہ
- ذخیرہ
- ذخیرہ
- پردہ
- پتہ چلتا ہے
- رقم
- کے نظام
- سسٹمز
- ٹیبل
- ٹاسک
- ٹیم
- ٹیکنالوجی
- متن
- متن کی درجہ بندی
- متن کی نسل
- متنی
- سے
- کہ
- ۔
- ان
- وہاں.
- لہذا
- یہ
- وہ
- لگتا ہے کہ
- اس
- ان
- ہزاروں
- کے ذریعے
- عنوان
- کرنے کے لئے
- ٹوکن
- ٹوکن بنانا
- ٹوکن
- ٹرین
- تربیت یافتہ
- ٹریننگ
- ٹرانسفارمر
- ترجمہ
- ٹرگر
- اقسام
- سمجھ
- جب تک
- صلی اللہ علیہ وسلم
- استعمال کی شرائط
- استعمال کیا جاتا ہے
- رکن کا
- عام طور پر
- قیمت
- اقدار
- مختلف اقسام کے
- مختلف
- دکانداروں
- ویڈیو
- لنک
- دیکھا
- تھا
- راستہ..
- we
- ہفتہ وار
- وزن
- تھے
- کیا
- جب
- چاہے
- جس
- پوری
- وسیع
- ساتھ
- کے اندر
- لفظ
- الفاظ
- کام
- کام کرتا ہے
- جی ہاں
- آپ
- زیفیرنیٹ