بڑے لینگویج ماڈلز (LLMs) تیزی سے مقبول ہو رہے ہیں، نئے استعمال کے کیسز کو مسلسل تلاش کیا جا رہا ہے۔ عام طور پر، آپ اپنے کوڈ میں پرامپٹ انجینئرنگ کو شامل کرکے LLMs سے چلنے والی ایپلیکیشنز بنا سکتے ہیں۔ تاہم، ایسے معاملات ہیں جہاں موجودہ LLM کا اشارہ کرنا کم ہے۔ یہ وہ جگہ ہے جہاں ماڈل فائن ٹیوننگ مدد کر سکتی ہے۔ پرامپٹ انجینئرنگ ان پٹ پرامپٹس تیار کرکے ماڈل کے آؤٹ پٹ کی رہنمائی کرنے کے بارے میں ہے، جبکہ فائن ٹیوننگ ماڈل کو کسٹم ڈیٹاسیٹ پر تربیت دینے کے بارے میں ہے تاکہ اسے مخصوص کاموں یا ڈومینز کے لیے بہتر بنایا جاسکے۔
اس سے پہلے کہ آپ کسی ماڈل کو ٹھیک کر سکیں، آپ کو کام کے لیے مخصوص ڈیٹا سیٹ تلاش کرنے کی ضرورت ہے۔ ایک ڈیٹاسیٹ جو عام طور پر استعمال ہوتا ہے وہ ہے۔ عام کرال ڈیٹاسیٹ. کامن کرال کارپس ڈیٹا کے پیٹا بائٹس پر مشتمل ہے، جو 2008 سے باقاعدگی سے اکٹھا کیا جاتا ہے، اور اس میں خام ویب پیج ڈیٹا، میٹا ڈیٹا کے اقتباسات، اور متن کے نچوڑ شامل ہیں۔ اس بات کا تعین کرنے کے علاوہ کہ کون سا ڈیٹاسیٹ استعمال کیا جانا چاہیے، فائن ٹیوننگ کی مخصوص ضرورت کے مطابق ڈیٹا کو صاف اور پروسیس کرنے کی ضرورت ہے۔
ہم نے حال ہی میں ایک ایسے گاہک کے ساتھ کام کیا جو تازہ ترین کامن کرال ڈیٹاسیٹ کے سب سیٹ کو پہلے سے پروسیس کرنا چاہتا تھا اور پھر اپنے LLM کو صاف شدہ ڈیٹا کے ساتھ ٹھیک کرنا چاہتا تھا۔ گاہک اس بات کی تلاش میں تھا کہ وہ AWS پر سب سے زیادہ کفایتی طریقے سے یہ کیسے حاصل کر سکتا ہے۔ ضروریات پر بحث کرنے کے بعد، ہم نے استعمال کرنے کی سفارش کی۔ ایمیزون EMR سرور لیس ڈیٹا پری پروسیسنگ کے لیے ان کے پلیٹ فارم کے طور پر۔ EMR Serverless بڑے پیمانے پر ڈیٹا پروسیسنگ کے لیے موزوں ہے اور بنیادی ڈھانچے کی دیکھ بھال کی ضرورت کو ختم کرتا ہے۔ لاگت کے لحاظ سے، یہ صرف ہر کام کے لیے استعمال ہونے والے وسائل اور مدت کی بنیاد پر چارج کرتا ہے۔ صارف EMR سرور لیس کا استعمال کرتے ہوئے ایک ہفتے کے اندر سینکڑوں ٹی بی ڈیٹا کو پہلے سے پروسیس کرنے کے قابل تھا۔ ڈیٹا کو پہلے سے پروسیس کرنے کے بعد، انہوں نے استعمال کیا۔ ایمیزون سیج میکر ایل ایل ایم کو ٹھیک کرنے کے لیے۔
اس پوسٹ میں، ہم آپ کو گاہک کے استعمال کے کیس اور استعمال شدہ فن تعمیر کے بارے میں بتاتے ہیں۔
مندرجہ ذیل حصوں میں، ہم سب سے پہلے کامن کرال ڈیٹاسیٹ کو متعارف کراتے ہیں اور ہمیں مطلوبہ ڈیٹا کو کیسے دریافت اور فلٹر کیا جائے۔ ایمیزون ایتینا صرف اس ڈیٹا کے سائز کے لیے چارج کیا جاتا ہے جو یہ اسکین کرتا ہے اور اس کا استعمال ڈیٹا کو تیزی سے دریافت کرنے اور فلٹر کرنے کے لیے کیا جاتا ہے، جبکہ لاگت سے موثر ہوتا ہے۔ EMR سرور لیس اسپارک ڈیٹا پروسیسنگ کے لیے لاگت سے موثر اور بغیر دیکھ بھال کا اختیار فراہم کرتا ہے، اور اسے فلٹر کیے گئے ڈیٹا پر کارروائی کرنے کے لیے استعمال کیا جاتا ہے۔ اگلا، ہم استعمال کرتے ہیں ایمیزون سیج میکر جمپ اسٹارٹ ٹھیک ٹیون کرنے کے لئے لاما 2 ماڈل پہلے سے تیار کردہ ڈیٹاسیٹ کے ساتھ۔ SageMaker JumpStart سب سے زیادہ عام استعمال کے معاملات کے حل کا ایک سیٹ فراہم کرتا ہے جو صرف چند کلکس کے ساتھ تعینات کیا جا سکتا ہے۔ آپ کو LLM کو ٹھیک کرنے کے لیے کوئی کوڈ لکھنے کی ضرورت نہیں ہے جیسے Llama 2۔ آخر میں، ہم فائن ٹیون ماڈل استعمال کرتے ہیں ایمیزون سیج میکر اور ایک ہی سوال کے لیے ٹیکسٹ آؤٹ پٹ میں فرق کا موازنہ کریں اصل اور فائن ٹیونڈ لاما 2 ماڈلز کے درمیان۔
مندرجہ ذیل خاکہ اس حل کے فن تعمیر کو واضح کرتا ہے۔
اس سے پہلے کہ آپ حل کی تفصیلات میں گہرائی میں جائیں، درج ذیل ضروری اقدامات کو مکمل کریں:
کامن کرال ایک کھلا کارپس ڈیٹاسیٹ ہے جو 50 بلین سے زیادہ ویب صفحات کو کرال کرکے حاصل کیا جاتا ہے۔ اس میں متعدد زبانوں میں غیر ساختہ ڈیٹا کی بڑی مقدار شامل ہے، جو 2008 سے شروع ہو کر پیٹا بائٹ کی سطح تک پہنچتی ہے۔ یہ مسلسل اپ ڈیٹ ہوتا ہے۔
GPT-3 کی تربیت میں، کامن کرول ڈیٹاسیٹ اپنے تربیتی ڈیٹا کا 60% حصہ بناتا ہے، جیسا کہ درج ذیل خاکہ میں دکھایا گیا ہے (ماخذ: زبان کے ماڈلز چند شاٹ سیکھنے والے ہیں۔).
ایک اور اہم ڈیٹاسیٹ قابل ذکر ہے۔ C4 ڈیٹاسیٹ. C4، Colossal Clean Crawled Corpus کے لیے مختصر، ایک ڈیٹا سیٹ ہے جو کامن کرول ڈیٹاسیٹ کی پوسٹ پروسیسنگ سے حاصل کیا گیا ہے۔ میٹا کے ایل ایل اے ایم اے پیپر میں، انہوں نے استعمال شدہ ڈیٹاسیٹس کا خاکہ پیش کیا، جس میں کامن کرول کا حساب 67% ہے (3.3 TB ڈیٹا کا استعمال) اور C4 کا 15% (783 GB ڈیٹا کا استعمال)۔ کاغذ ماڈل کی کارکردگی کو بڑھانے کے لیے مختلف طریقے سے پہلے سے تیار کردہ ڈیٹا کو شامل کرنے کی اہمیت پر زور دیتا ہے۔ اصل C4 ڈیٹا کامن کرال کا حصہ ہونے کے باوجود، میٹا نے اس ڈیٹا کے ری پروسیس شدہ ورژن کا انتخاب کیا۔
اس سیکشن میں، ہم کامن کرال ڈیٹاسیٹ کو تعامل، فلٹر اور پروسیس کرنے کے عام طریقوں کا احاطہ کرتے ہیں۔
کامن کرال خام ڈیٹاسیٹ میں تین قسم کی ڈیٹا فائلیں شامل ہیں: خام ویب پیج ڈیٹا (WARC)، میٹا ڈیٹا (WAT)، اور ٹیکسٹ ایکسٹرکشن (WET)۔
2013 کے بعد جمع کردہ ڈیٹا کو WARC فارمیٹ میں محفوظ کیا جاتا ہے اور اس میں متعلقہ میٹا ڈیٹا (WAT) اور ٹیکسٹ ایکسٹرکشن ڈیٹا (WET) شامل ہوتا ہے۔ ڈیٹاسیٹ Amazon S3 میں واقع ہے، جو ماہانہ بنیادوں پر اپ ڈیٹ ہوتا ہے، اور اس کے ذریعے براہ راست رسائی حاصل کی جا سکتی ہے۔ AWS مارکیٹ پلیٹ فارم.
$ aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2023-23/
PRE segments/
2023-06-21 00:34:08 2164 cc-index-table.paths.gz
2023-06-21 00:34:08 637 cc-index.paths.gz
2023-06-21 05:52:05 2724 index.html
2023-06-21 00:34:09 161064 non200responses.paths.gz
2023-06-21 00:34:10 160888 robotstxt.paths.gz
2023-06-21 00:34:10 480 segment.paths.gz
2023-06-21 00:34:11 161082 warc.paths.gz
2023-06-21 00:34:12 160895 wat.paths.gz
2023-06-21 00:34:12 160898 wet.paths.gz
کامن کرال ڈیٹاسیٹ ڈیٹا کو فلٹر کرنے کے لیے ایک انڈیکس ٹیبل بھی فراہم کرتا ہے، جسے cc-index-table کہا جاتا ہے۔
cc-index-table موجودہ ڈیٹا کا ایک انڈیکس ہے، جو WARC فائلوں کا ٹیبل پر مبنی انڈیکس فراہم کرتا ہے۔ یہ معلومات کی آسانی سے تلاش کرنے کی اجازت دیتا ہے، جیسے کہ کون سی WARC فائل کسی مخصوص URL سے مطابقت رکھتی ہے۔
مثال کے طور پر، آپ درج ذیل کوڈ کے ساتھ cc-index ڈیٹا کا نقشہ بنانے کے لیے ایک ایتھینا ٹیبل بنا سکتے ہیں۔
پچھلے ایس کیو ایل کے بیانات یہ ظاہر کرتے ہیں کہ ایتھینا ٹیبل کیسے بنایا جائے، پارٹیشنز شامل کی جائیں، اور استفسار کیسے چلایا جائے۔
کامن کرال ڈیٹاسیٹ سے ڈیٹا فلٹر کریں۔
جیسا کہ آپ تخلیق ٹیبل ایس کیو ایل اسٹیٹمنٹ سے دیکھ سکتے ہیں، کئی فیلڈز ہیں جو ڈیٹا کو فلٹر کرنے میں مدد کرسکتے ہیں۔ مثال کے طور پر، اگر آپ کسی مخصوص مدت کے دوران چینی دستاویزات کی گنتی حاصل کرنا چاہتے ہیں، تو ایس کیو ایل کا بیان درج ذیل ہو سکتا ہے:
اگر آپ مزید پروسیسنگ کرنا چاہتے ہیں، تو آپ نتائج کو کسی اور S3 بالٹی میں محفوظ کر سکتے ہیں۔
فلٹر شدہ ڈیٹا کا تجزیہ کریں۔
۔ کامن کرال GitHub ذخیرہ خام ڈیٹا پر کارروائی کرنے کے لیے کئی PySpark مثالیں فراہم کرتا ہے۔
چلو دوڑنے کی ایک مثال دیکھتے ہیں۔ server_count.py
(مثال کے طور پر اسکرپٹ جو کامن کرول گٹ ہب ریپو کے ذریعہ فراہم کیا گیا ہے) میں موجود ڈیٹا پر s3://commoncrawl/crawl-data/CC-MAIN-2023-23/segments/1685224643388.45/warc/
.
سب سے پہلے، آپ کو اسپارک ماحول کی ضرورت ہے، جیسے EMR اسپارک۔ مثال کے طور پر، آپ EC2 کلسٹر میں Amazon EMR لانچ کر سکتے ہیں۔ us-east-1
(کیونکہ ڈیٹاسیٹ اندر ہے۔ us-east-1
)۔ EC2 کلسٹر پر EMR استعمال کرنے سے آپ کو پروڈکشن ماحول میں ملازمتیں جمع کرانے سے پہلے ٹیسٹ کروانے میں مدد مل سکتی ہے۔
EC2 کلسٹر پر EMR شروع کرنے کے بعد، آپ کو کلسٹر کے بنیادی نوڈ پر SSH لاگ ان کرنے کی ضرورت ہے۔ پھر، ازگر کے ماحول کو پیک کریں اور اسکرپٹ جمع کرائیں (حوالہ کریں۔ کونڈا دستاویزات Miniconda انسٹال کرنے کے لیے):
warc.path میں تمام حوالوں پر کارروائی کرنے میں وقت لگ سکتا ہے۔ ڈیمو مقاصد کے لیے، آپ درج ذیل حکمت عملیوں کے ساتھ پروسیسنگ کے وقت کو بہتر بنا سکتے ہیں۔
- فائل ڈاؤن لوڈ کریں
s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz
اپنی مقامی مشین پر، اسے ان زپ کریں، اور پھر اسے HDFS یا Amazon S3 پر اپ لوڈ کریں۔ اس کی وجہ یہ ہے کہ .gzip فائل قابل تقسیم نہیں ہے۔ اس فائل کو متوازی طور پر پروسیس کرنے کے لیے آپ کو اسے ان زپ کرنے کی ضرورت ہے۔ - ترمیم کریں
warc.path
فائل، اس کی زیادہ تر لائنوں کو حذف کریں، اور کام کو تیز تر بنانے کے لیے صرف دو لائنیں رکھیں۔
کام مکمل ہونے کے بعد، آپ اس میں نتیجہ دیکھ سکتے ہیں۔ s3://xxxx-common-crawl/output/
, Parquet فارمیٹ میں۔
اپنی مرضی کے مطابق منطق کو نافذ کریں۔
کامن کرال گٹ ہب ریپو WARC فائلوں پر کارروائی کرنے کے لیے ایک عام طریقہ فراہم کرتا ہے۔ عام طور پر، آپ توسیع کر سکتے ہیں CCSparkJob
ایک طریقہ کو اوور رائڈ کرنا (process_record
)، جو بہت سے معاملات کے لیے کافی ہے۔
آئی ایم ڈی بی حالیہ فلموں کے جائزے حاصل کرنے کے لیے ایک مثال دیکھتے ہیں۔ سب سے پہلے، آپ کو IMDB سائٹ پر فائلوں کو فلٹر کرنے کی ضرورت ہے:
اس کے بعد آپ WARC فائل کی فہرستیں حاصل کر سکتے ہیں جس میں IMDB ریویو ڈیٹا ہوتا ہے، اور WARC فائل کے ناموں کو ایک ٹیکسٹ فائل میں بطور فہرست محفوظ کر سکتے ہیں۔
متبادل طور پر، آپ استعمال کر سکتے ہیں EMR Spark get the WARC فائل کی فہرست اور اسے Amazon S3 میں محفوظ کریں۔ مثال کے طور پر:
آؤٹ پٹ فائل کی طرح نظر آنا چاہئے۔ s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt
.
اگلا مرحلہ ان WARC فائلوں سے صارف کے جائزے نکالنا ہے۔ آپ توسیع کر سکتے ہیں CCSparkJob
کو اوور رائڈ کرنے کے لیے process_record()
طریقہ:
آپ پچھلے اسکرپٹ کو بطور imdb_extractor.py محفوظ کر سکتے ہیں، جسے آپ درج ذیل مراحل میں استعمال کریں گے۔ ڈیٹا اور اسکرپٹ تیار کرنے کے بعد، آپ فلٹر کیے گئے ڈیٹا پر کارروائی کرنے کے لیے EMR سرور لیس استعمال کر سکتے ہیں۔
EMR سرور لیس
ای ایم آر سرور لیس ایک سرور لیس تعیناتی کا اختیار ہے جس میں اوپن سورس فریم ورک جیسے Apache Spark اور Hive کا استعمال کرتے ہوئے بڑے ڈیٹا اینالیٹکس ایپلی کیشنز کو چلانے کے لیے بغیر کلسٹرز یا سرورز کو کنفیگر کیے، ان کا انتظام اور اسکیلنگ کیا جاتا ہے۔
EMR Serverless کے ساتھ، آپ تجزیاتی کام کے بوجھ کو کسی بھی پیمانے پر خودکار اسکیلنگ کے ساتھ چلا سکتے ہیں جو ڈیٹا کے حجم اور پروسیسنگ کے تقاضوں کو تبدیل کرنے کے لیے سیکنڈوں میں وسائل کا سائز تبدیل کرتا ہے۔ EMR Serverless خود بخود وسائل کو اوپر اور نیچے کی پیمائش کرتا ہے تاکہ آپ کی درخواست کے لیے صحیح مقدار کی گنجائش فراہم کی جا سکے، اور آپ صرف وہی ادائیگی کرتے ہیں جو آپ استعمال کرتے ہیں۔
کامن کرال ڈیٹاسیٹ پر کارروائی کرنا عام طور پر ایک وقتی پروسیسنگ کا کام ہے، جو اسے EMR سرور لیس کام کے بوجھ کے لیے موزوں بناتا ہے۔
ایک EMR سرور لیس ایپلی کیشن بنائیں
آپ EMR اسٹوڈیو کنسول پر EMR سرور لیس ایپلیکیشن بنا سکتے ہیں۔ درج ذیل مراحل کو مکمل کریں:
- EMR اسٹوڈیو کنسول پر، منتخب کریں۔ درخواستیں کے تحت بے سرور نیوی گیشن پین میں.
- میں سے انتخاب کریں درخواست بنائیں.
- ایپلیکیشن کے لیے ایک نام فراہم کریں اور Amazon EMR ورژن منتخب کریں۔
- اگر VPC وسائل تک رسائی درکار ہے تو، اپنی مرضی کے مطابق نیٹ ورک سیٹنگ شامل کریں۔
- میں سے انتخاب کریں درخواست بنائیں.
اس کے بعد آپ کا اسپارک سرور لیس ماحول تیار ہو جائے گا۔
اس سے پہلے کہ آپ EMR Spark Serverless پر جاب جمع کرائیں، آپ کو اب بھی ایک ایگزیکیوشن رول بنانے کی ضرورت ہے۔ کا حوالہ دیتے ہیں ایمیزون EMR سرور لیس کے ساتھ شروع کرنا مزید تفصیلات کے لئے.
EMR سرور لیس کے ساتھ کامن کرال ڈیٹا پر کارروائی کریں۔
آپ کی EMR اسپارک سرور لیس ایپلیکیشن تیار ہونے کے بعد، ڈیٹا پر کارروائی کرنے کے لیے درج ذیل مراحل کو مکمل کریں:
- ایک کونڈا ماحول تیار کریں اور اسے Amazon S3 پر اپ لوڈ کریں، جسے EMR Spark Serverless میں ماحول کے طور پر استعمال کیا جائے گا۔
- S3 بالٹی پر چلانے کے لیے اسکرپٹس اپ لوڈ کریں۔ مندرجہ ذیل مثال میں، دو اسکرپٹ ہیں:
- imbd_extractor.py - ڈیٹاسیٹ سے مواد نکالنے کے لیے حسب ضرورت منطق۔ مندرجات اس پوسٹ میں پہلے مل سکتے ہیں۔
- cc-pyspark/sparkcc.py - سے PySpark فریم ورک کی مثال کامن کرال گٹ ہب ریپو، جس میں شامل ہونا ضروری ہے۔
- PySpark جاب EMR Serverless Spark میں جمع کروائیں۔ اپنے ماحول میں اس مثال کو چلانے کے لیے درج ذیل پیرامیٹرز کی وضاحت کریں:
- درخواست کی شناخت - آپ کی EMR سرور لیس ایپلیکیشن کی درخواست ID۔
- پھانسی-رول-آرن - آپ کا EMR سرور لیس ایگزیکیوشن رول۔ اسے بنانے کے لیے رجوع کریں۔ ایک جاب رن ٹائم رول بنائیں.
- WARC فائل کا مقام - آپ کی WARC فائلوں کا مقام۔
s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt
فلٹر شدہ WARC فائل کی فہرست پر مشتمل ہے، جو آپ نے پہلے اس پوسٹ میں حاصل کی تھی۔ - spark.sql.warehouse.dir - پہلے سے طے شدہ گودام کا مقام (اپنی S3 ڈائریکٹری استعمال کریں)۔
- spark.archives - تیار کونڈا ماحول کا S3 مقام۔
- spark.submit.pyFiles - تیار کردہ PySpark اسکرپٹ sparkcc.py۔
درج ذیل کوڈ دیکھیں:
کام مکمل ہونے کے بعد، نکالے گئے جائزے Amazon S3 میں محفوظ کیے جاتے ہیں۔ مندرجات کو چیک کرنے کے لیے، آپ Amazon S3 سلیکٹ استعمال کر سکتے ہیں، جیسا کہ درج ذیل اسکرین شاٹ میں دکھایا گیا ہے۔
خیال
حسب ضرورت کوڈ کے ساتھ بڑے پیمانے پر ڈیٹا سے نمٹنے کے لیے درج ذیل نکات پر غور کرنا ہے۔
- ہو سکتا ہے کچھ تھرڈ پارٹی پِتھون لائبریریاں کونڈا میں دستیاب نہ ہوں۔ ایسی صورتوں میں، آپ PySpark رن ٹائم ماحول بنانے کے لیے Python ورچوئل ماحول میں جا سکتے ہیں۔
- اگر ڈیٹا کی ایک بڑی مقدار پر کارروائی کی جانی ہے، تو اسے متوازی بنانے کے لیے متعدد EMR سرور لیس اسپارک ایپلی کیشنز بنانے اور استعمال کرنے کی کوشش کریں۔ ہر درخواست فائل کی فہرستوں کے ذیلی سیٹ سے متعلق ہے۔
- کامن کرال ڈیٹا کو فلٹر کرتے یا اس پر کارروائی کرتے وقت آپ کو Amazon S3 کے ساتھ سست روی کا مسئلہ درپیش ہو سکتا ہے۔ اس کی وجہ یہ ہے کہ ڈیٹا کو ذخیرہ کرنے والی S3 بالٹی عوامی طور پر قابل رسائی ہے، اور دوسرے صارفین اسی وقت ڈیٹا تک رسائی حاصل کر سکتے ہیں۔ اس مسئلے کو کم کرنے کے لیے، آپ دوبارہ کوشش کرنے کا طریقہ کار شامل کر سکتے ہیں یا Common Crawl S3 بالٹی سے مخصوص ڈیٹا کو اپنی بالٹی میں سنک کر سکتے ہیں۔
سیج میکر کے ساتھ فائن ٹیون لاما 2
ڈیٹا تیار ہونے کے بعد، آپ اس کے ساتھ Llama 2 ماڈل کو ٹھیک کر سکتے ہیں۔ آپ بغیر کوئی کوڈ لکھے SageMaker JumpStart کا استعمال کر کے ایسا کر سکتے ہیں۔ مزید معلومات کے لیے رجوع کریں۔ Amazon SageMaker JumpStart پر ٹیکسٹ جنریشن کے لیے فائن ٹیون لاما 2.
اس منظر نامے میں، آپ ڈومین کے موافقت کی فائن ٹیوننگ کرتے ہیں۔ اس ڈیٹاسیٹ کے ساتھ، ان پٹ CSV، JSON، یا TXT فائل پر مشتمل ہوتا ہے۔ آپ کو تمام جائزہ ڈیٹا کو TXT فائل میں ڈالنے کی ضرورت ہے۔ ایسا کرنے کے لیے، آپ EMR Spark Serverless کو ایک سیدھی سادی Spark جاب جمع کرا سکتے ہیں۔ مندرجہ ذیل نمونہ کوڈ کا ٹکڑا دیکھیں:
ٹریننگ ڈیٹا تیار کرنے کے بعد، ڈیٹا لوکیشن درج کریں۔ تربیتی ڈیٹا سیٹ، پھر منتخب کریں ٹرین.
آپ تربیتی ملازمت کی حیثیت کو ٹریک کرسکتے ہیں۔
ٹھیک ٹیونڈ ماڈل کا اندازہ کریں۔
تربیت مکمل ہونے کے بعد، انتخاب کریں۔ تعینات سیج میکر جمپ سٹارٹ میں اپنے عمدہ ماڈل کو تعینات کرنے کے لیے۔
ماڈل کے کامیابی کے ساتھ تعینات ہونے کے بعد، منتخب کریں۔ نوٹ بک کھولیں۔، جو آپ کو ایک تیار کردہ Jupyter نوٹ بک پر بھیجتا ہے جہاں آپ اپنا Python کوڈ چلا سکتے ہیں۔
آپ نوٹ بک کے لیے تصویر ڈیٹا سائنس 2.0 اور Python 3 کرنل استعمال کر سکتے ہیں۔
پھر، آپ اس نوٹ بک میں ٹھیک ٹیون شدہ ماڈل اور اصل ماڈل کا اندازہ لگا سکتے ہیں۔
ایک ہی سوال کے لیے اصل ماڈل اور فائن ٹیونڈ ماڈل کے ذریعے واپس کیے گئے دو جوابات درج ذیل ہیں۔
ہم نے دونوں ماڈلز کو ایک ہی جملہ فراہم کیا: "فلم 'اے وومن آف پیرس: اے ڈرامہ آف فیٹ' کا جائزہ ہے" اور انہیں جملہ مکمل کرنے دیں۔
اصل ماڈل بے معنی جملے نکالتا ہے:
"The review of movie 'A woman of Paris: A Drama of Fate' is 3.0/5.
A Woman of Paris: A Drama of Fate(1923)
A Woman of Paris: A Drama of Fate movie released on 17 October, 1992. The movie is directed by. A Woman of Paris: A Drama of Fate featured Jeanne Eagles, William Haines, Burr McIntosh and Jack Rollens in lead rols.
..."
اس کے برعکس، فائن ٹیونڈ ماڈل کے آؤٹ پٹس فلم کے جائزے کی طرح ہیں:
" The review of movie 'A Woman of Paris: A Drama of Fate' is 6.3/10. I liked the story, the plot, the character, the background. The performances are amazing. Rory (Judy Davis) is an Australian photographer who travels to Africa to photograph the people, wildlife, and scenery. She meets Peter (Donald Sutherland), a zoologist, and they begin a relationship..."
ظاہر ہے، ٹھیک ٹیونڈ ماڈل اس مخصوص منظر نامے میں بہتر کارکردگی کا مظاہرہ کرتا ہے۔
صاف کرو
اس مشق کو ختم کرنے کے بعد، اپنے وسائل کو صاف کرنے کے لیے درج ذیل اقدامات مکمل کریں:
- S3 بالٹی کو حذف کریں۔ جو صاف شدہ ڈیٹاسیٹ کو محفوظ کرتا ہے۔
- EMR سرور لیس ماحول کو روکیں۔.
- سیج میکر اینڈ پوائنٹ کو حذف کریں۔ جو LLM ماڈل کی میزبانی کرتا ہے۔
- سیج میکر ڈومین کو حذف کریں۔ جو آپ کی نوٹ بک چلاتا ہے۔
آپ نے جو ایپلیکیشن بنائی ہے وہ ڈیفالٹ کے طور پر 15 منٹ کی غیرفعالیت کے بعد خود بخود بند ہو جائے گی۔
عام طور پر، آپ کو ایتھینا کے ماحول کو صاف کرنے کی ضرورت نہیں ہے کیونکہ جب آپ اسے استعمال نہیں کر رہے ہوتے ہیں تو کوئی چارج نہیں ہوتا ہے۔
نتیجہ
اس پوسٹ میں، ہم نے کامن کرال ڈیٹاسیٹ اور LLM فائن ٹیوننگ کے لیے ڈیٹا پر کارروائی کرنے کے لیے EMR Serverless کا استعمال کرنے کا طریقہ متعارف کرایا ہے۔ پھر ہم نے دکھایا کہ سیج میکر جمپ اسٹارٹ کو ایل ایل ایم کو ٹھیک کرنے اور بغیر کسی کوڈ کے تعینات کرنے کے لیے کیسے استعمال کیا جائے۔ EMR سرور لیس کے مزید استعمال کے معاملات کے لیے، رجوع کریں۔ ایمیزون EMR سرور لیس۔ Amazon SageMaker JumpStart پر ہوسٹنگ اور فائن ٹیوننگ ماڈلز کے بارے میں مزید معلومات کے لیے، دیکھیں سیج میکر جمپ اسٹارٹ دستاویزات.
مصنفین کے بارے میں
شیجیان تانگ ایمیزون ویب سروسز میں تجزیات کے ماہر حل آرکیٹیکٹ ہیں۔
میتھیو لائم ایمیزون ویب سروسز میں ایک سینئر حل آرکیٹیکچر مینیجر ہے۔
ڈیلی سو ایمیزون ویب سروسز میں تجزیات کے ماہر حل آرکیٹیکٹ ہیں۔
یوآنجن ژاؤ ایمیزون ویب سروسز میں ایک سینئر حل آرکیٹیکٹ ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
- پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/big-data/preprocess-and-fine-tune-llms-quickly-and-cost-effectively-using-amazon-emr-serverless-and-amazon-sagemaker/
- : ہے
- : نہیں
- :کہاں
- $UP
- 08
- 09
- 1
- 10
- 100
- 11
- 12
- 14
- 15٪
- 17
- 2008
- 2013
- 23
- 258
- 40
- 50
- 52
- 7
- 9
- a
- قابلیت
- ہمارے بارے میں
- تک رسائی حاصل
- رسائی
- قابل رسائی
- اکاؤنٹنگ
- اکاؤنٹس
- حاصل
- چالو
- شامل کریں
- اس کے علاوہ
- افریقہ
- کے بعد
- تمام
- کی اجازت دیتا ہے
- بھی
- حیرت انگیز
- ایمیزون
- ایمیزون ای ایم آر
- ایمیزون سیج میکر
- ایمیزون سیج میکر جمپ اسٹارٹ
- ایمیزون ویب سروسز
- رقم
- مقدار
- an
- تجزیاتی
- اور
- ایک اور
- کوئی بھی
- اپاچی
- اپاچی چمک
- درخواست
- ایپلی کیشنز
- نقطہ نظر
- فن تعمیر
- کیا
- AS
- At
- آسٹریلیا
- خودکار
- خود کار طریقے سے
- دستیاب
- AWS
- پس منظر
- کی بنیاد پر
- بنیاد
- BE
- خوبصورت
- کیونکہ
- بننے
- اس سے پہلے
- شروع کریں
- کیا جا رہا ہے
- بہتر
- کے درمیان
- بگ
- بگ ڈیٹا
- ارب
- جسم
- دونوں
- تعمیر
- by
- کہا جاتا ہے
- کر سکتے ہیں
- حاصل کر سکتے ہیں
- اہلیت
- لے جانے کے
- کیس
- مقدمات
- تبدیل کرنے
- کردار
- بوجھ
- چیک کریں
- چینی
- میں سے انتخاب کریں
- طبقے
- صاف
- کلائنٹ
- کلسٹر
- کوڈ
- COM
- کامن
- عام طور پر
- موازنہ
- مکمل
- ترتیب دیں
- غور کریں
- مشتمل
- کنسول
- مسلسل
- پر مشتمل ہے
- پر مشتمل ہے
- مندرجات
- مسلسل
- اس کے برعکس
- اسی کے مطابق
- مساوی ہے
- قیمت
- سرمایہ کاری مؤثر
- سکتا ہے
- شمار
- احاطہ
- تخلیق
- بنائی
- اپنی مرضی کے
- گاہک
- اپنی مرضی کے مطابق
- اعداد و شمار
- ڈیٹا تجزیات
- ڈیٹا پروسیسنگ
- ڈیٹا سائنس
- ڈیٹاسیٹس
- ڈیوس
- معاملہ
- ڈیلز
- گہری
- پہلے سے طے شدہ
- وضاحت
- ڈیمو
- مظاہرہ
- demonstrated,en
- تعیناتی
- تعینات
- تعیناتی
- اخذ کردہ
- کے باوجود
- تفصیلات
- کا تعین کرنے
- آریھ
- اختلافات
- مختلف
- ہدایت
- براہ راست
- بات چیت
- ڈوبکی
- do
- دستاویزات
- ڈومین
- ڈومینز
- ڈونالڈ
- نہیں
- نیچے
- ڈرامہ
- ڈرائیور
- مدت
- کے دوران
- ہر ایک
- اس سے قبل
- آسان
- ختم
- پر زور دیتا ہے
- تصادم
- انجنیئرنگ
- بڑھانے
- درج
- ماحولیات
- Ether (ETH)
- اندازہ
- مثال کے طور پر
- مثال کے طور پر
- پھانسی
- ورزش
- موجودہ
- موجود ہے
- تلاش
- وضاحت کی
- توسیع
- بیرونی
- نکالنے
- نکالنے
- نچوڑ۔
- آبشار
- جھوٹی
- تیز تر
- قسمت
- شامل
- چند
- قطعات
- فائل
- فائلوں
- فلٹر
- فلٹرنگ
- آخر
- مل
- ختم
- پہلا
- کے بعد
- مندرجہ ذیل ہے
- کے لئے
- فارمیٹ
- ملا
- فریم ورک
- فریم ورک
- سے
- مزید
- جنرل
- عام طور پر
- پیدا کرنے والے
- نسل
- حاصل
- جاؤ
- GitHub کے
- رہنمائی کرنے والا
- ہے
- مدد
- چھتہ
- ہوسٹنگ
- میزبان
- کس طرح
- کیسے
- تاہم
- HTML
- HTTPS
- سینکڑوں
- i
- IAM
- ID
- if
- وضاحت کرتا ہے
- تصویر
- درآمد
- اہم
- کو بہتر بنانے کے
- in
- شامل
- شامل ہیں
- شامل کرنا
- اضافہ
- انڈکس
- معلومات
- انفراسٹرکچر
- ان پٹ
- آدانوں
- انسٹال
- بات چیت
- میں
- متعارف کرانے
- متعارف
- مسئلہ
- IT
- میں
- جیک
- ایوب
- نوکریاں
- JSON
- Jupyter نوٹ بک
- صرف
- رکھیں
- کلیدی
- زبان
- زبانیں
- بڑے پیمانے پر
- تازہ ترین
- شروع
- شروع
- قیادت
- دو
- سطح
- لائبریریوں
- کی طرح
- LIMIT
- لائنوں
- لسٹ
- فہرستیں
- لاما
- ایل ایل ایم
- مقامی
- واقع ہے
- محل وقوع
- منطق
- لاگ ان
- دیکھو
- تلاش
- تلاش
- مشین
- دیکھ بھال
- بنا
- بنانا
- مینیجر
- مینیجنگ
- بہت سے
- نقشہ
- بڑے پیمانے پر
- مئی..
- میکانزم
- سے ملو
- ملتا ہے
- ذکر کرنا
- میٹا
- میٹا ڈیٹا
- طریقہ
- منٹ
- تخفیف کریں
- ماڈل
- ماڈل
- ماہانہ
- زیادہ
- سب سے زیادہ
- فلم
- فلم
- بہت
- ایک سے زیادہ
- نام
- نام
- سمت شناسی
- ضروری
- ضرورت ہے
- نیٹ ورک
- نئی
- اگلے
- نہیں
- نوڈ
- نوٹ بک
- نوٹ بک
- حاصل کی
- اکتوبر
- of
- on
- ایک
- صرف
- کھول
- اوپن سورس
- اختیار
- or
- اصل
- دیگر
- باہر
- بیان کیا
- پیداوار
- نتائج
- پر
- منسوخی
- خود
- پیک
- پیکج
- پین
- کاغذ.
- متوازی
- پیرامیٹرز
- پیرس
- حصہ
- راستہ
- راستے
- ادا
- لوگ
- کارکردگی
- پرفارمنس
- کارکردگی کا مظاہرہ
- مدت
- پیٹا بائٹ
- پیٹر
- فوٹوگرافر
- پلیٹ فارم
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- پلاٹ
- پوائنٹس
- مقبول
- پوسٹ
- طاقت
- پری
- پہلے
- تیار
- تیار
- پرائمری
- عمل
- عملدرآمد
- پروسیسنگ
- پیداوار
- اشارہ کرتا ہے
- فراہم
- فراہم
- فراہم کرتا ہے
- فراہم کرنے
- عوامی طور پر
- مقاصد
- ڈال
- ازگر
- استفسار میں
- سوال
- جلدی سے
- خام
- خام ڈیٹا
- پہنچنا
- پڑھیں
- تیار
- حال ہی میں
- حال ہی میں
- سفارش کی
- ریکارڈ
- کا حوالہ دیتے ہیں
- حوالہ جات
- باقاعدگی سے
- تعلقات
- جاری
- مرمت
- کی جگہ
- درخواستوں
- ضرورت
- ضروریات
- وسائل
- جواب
- جوابات
- نتیجہ
- نتائج کی نمائش
- کا جائزہ لینے کے
- جائزہ
- ٹھیک ہے
- کردار
- روری
- رن
- چل رہا ہے
- چلتا ہے
- sagemaker
- اسی
- محفوظ کریں
- پیمانے
- ترازو
- سکیلنگ
- اسکین کرتا ہے
- منظر نامے
- سائنس
- اسکرپٹ
- سکرپٹ
- سیکنڈ
- سیکشن
- سیکشنز
- دیکھنا
- حصے
- منتخب
- SELF
- سینئر
- سزا
- بے سرور
- سرورز
- سروسز
- مقرر
- قائم کرنے
- کئی
- وہ
- مختصر
- ہونا چاہئے
- دکھایا گیا
- اہمیت
- اسی طرح
- بعد
- ایک
- سائٹ
- سائز
- سست روی۔
- ٹکڑا
- So
- حل
- حل
- سوپ
- ماخذ
- چنگاری
- ماہر
- مخصوص
- SQL
- SSH
- شروع
- شروع
- بیان
- بیانات
- درجہ
- مرحلہ
- مراحل
- ابھی تک
- بند کرو
- ذخیرہ
- ذخیرہ
- پردہ
- کہانی
- براہ راست
- حکمت عملیوں
- سلک
- سٹوڈیو
- جمع
- جمع کرانا
- کامیابی کے ساتھ
- اس طرح
- کافی
- موزوں
- سوئچ کریں
- ہم آہنگی
- ٹیبل
- لے لو
- ہدف
- ٹاسک
- کاموں
- ٹیسسرور
- شرائط
- ٹیسٹ
- متن
- متن کی نسل
- کہ
- ۔
- ان
- ان
- تو
- وہاں.
- یہ
- وہ
- تیسری پارٹی
- اس
- تین
- کے ذریعے
- وقت
- ٹائمسٹیمپ
- کرنے کے لئے
- ٹریک
- ٹریننگ
- سفر
- سچ
- کوشش
- دو
- اقسام
- کے تحت
- غیر ساختہ
- اپ ڈیٹ
- URL
- استعمال کی شرائط
- استعمال کیس
- استعمال کیا جاتا ہے
- رکن کا
- صارف کے جائزے
- صارفین
- کا استعمال کرتے ہوئے
- استعمال کرنا۔
- ورژن
- مجازی
- جلد
- چلنا
- چاہتے ہیں
- چاہتے تھے
- گودام
- تھا
- راستہ..
- طریقوں
- we
- ویب
- ویب خدمات
- ہفتے
- اچھا ہے
- کیا
- جب
- جبکہ
- جس
- جبکہ
- ڈبلیو
- جنگلی حیات
- گے
- ولیم
- ساتھ
- کے اندر
- بغیر
- عورت
- کام کیا
- قابل
- لکھنا
- تحریری طور پر
- پیداوار
- آپ
- اور
- زیفیرنیٹ