অ্যামাজন ইএমআর সার্ভারলেস এবং অ্যামাজন সেজমেকার ব্যবহার করে দ্রুত এবং সাশ্রয়ীভাবে এলএলএম প্রিপ্রসেস এবং সূক্ষ্ম-টিউন করুন | আমাজন ওয়েব সার্ভিসেস

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

বৃহৎ ভাষার মডেল (এলএলএম) ক্রমবর্ধমান জনপ্রিয় হয়ে উঠছে, নতুন ব্যবহারের ক্ষেত্রে ক্রমাগত অনুসন্ধান করা হচ্ছে। সাধারণভাবে, আপনি আপনার কোডে প্রম্পট ইঞ্জিনিয়ারিং অন্তর্ভুক্ত করে এলএলএম দ্বারা চালিত অ্যাপ্লিকেশন তৈরি করতে পারেন। যাইহোক, এমন কিছু ক্ষেত্রে রয়েছে যেখানে একটি বিদ্যমান এলএলএম প্রম্পট করা কম হয়। এখানেই মডেল ফাইন-টিউনিং সাহায্য করতে পারে। প্রম্পট ইঞ্জিনিয়ারিং হল ইনপুট প্রম্পট তৈরি করে মডেলের আউটপুটকে গাইড করা, যেখানে ফাইন-টিউনিং হল কাস্টম ডেটাসেটে মডেলটিকে নির্দিষ্ট কাজ বা ডোমেনের জন্য আরও উপযুক্ত করে তোলার প্রশিক্ষণ দেওয়া।

আপনি একটি মডেল ফাইন-টিউন করার আগে, আপনাকে একটি টাস্ক-নির্দিষ্ট ডেটাসেট খুঁজে বের করতে হবে। একটি ডেটাসেট যা সাধারণত ব্যবহৃত হয় সাধারণ ক্রল ডেটাসেট. কমন ক্রল কর্পাসে পেটাবাইট ডেটা রয়েছে, যা 2008 সাল থেকে নিয়মিত সংগ্রহ করা হয় এবং এতে কাঁচা ওয়েবপেজ ডেটা, মেটাডেটা এক্সট্রাক্ট এবং টেক্সট এক্সট্রাক্ট থাকে। কোন ডেটাসেট ব্যবহার করা উচিত তা নির্ধারণের পাশাপাশি, ফাইন-টিউনিংয়ের নির্দিষ্ট প্রয়োজনে ডেটা পরিষ্কার এবং প্রক্রিয়াকরণ প্রয়োজন।

আমরা সম্প্রতি এমন একজন গ্রাহকের সাথে কাজ করেছি যিনি লেটেস্ট কমন ক্রল ডেটাসেটের একটি উপসেট প্রিপ্রসেস করতে চেয়েছিলেন এবং তারপরে পরিষ্কার করা ডেটা দিয়ে তাদের LLM টিউন করতে চেয়েছিলেন। গ্রাহক খুঁজছিলেন কিভাবে তারা AWS-এ সবচেয়ে সাশ্রয়ী উপায়ে এটি অর্জন করতে পারে। প্রয়োজনীয়তা আলোচনা করার পরে, আমরা ব্যবহার করার সুপারিশ আমাজন ইএমআর সার্ভারহীন ডেটা প্রিপ্রসেসিংয়ের জন্য তাদের প্ল্যাটফর্ম হিসাবে। EMR সার্ভারলেস বড় আকারের ডেটা প্রক্রিয়াকরণের জন্য উপযুক্ত এবং অবকাঠামো রক্ষণাবেক্ষণের প্রয়োজনীয়তা দূর করে। খরচের পরিপ্রেক্ষিতে, এটি শুধুমাত্র প্রতিটি কাজের জন্য ব্যবহৃত সম্পদ এবং সময়কালের উপর ভিত্তি করে চার্জ করে। গ্রাহক ইএমআর সার্ভারলেস ব্যবহার করে এক সপ্তাহের মধ্যে শত শত টিবি ডেটা প্রিপ্রসেস করতে সক্ষম হয়েছিল। তারা ডেটা প্রিপ্রসেস করার পরে, তারা ব্যবহার করেছিল আমাজন সেজমেকার এলএলএম ঠিক করতে।

এই পোস্টে, আমরা আপনাকে গ্রাহকের ব্যবহারের কেস এবং ব্যবহৃত আর্কিটেকচারের মাধ্যমে নিয়ে চলেছি।

নিম্নলিখিত বিভাগগুলিতে, আমরা প্রথমে সাধারণ ক্রল ডেটাসেট এবং কীভাবে আমাদের প্রয়োজনীয় ডেটা অন্বেষণ এবং ফিল্টার করতে হয় তা উপস্থাপন করি৷ অ্যামাজন অ্যাথেনা এটি স্ক্যান করা ডেটার আকারের জন্য শুধুমাত্র চার্জ করে এবং খরচ-কার্যকর হওয়া সত্ত্বেও দ্রুত ডেটা অন্বেষণ এবং ফিল্টার করতে ব্যবহৃত হয়। EMR সার্ভারলেস স্পার্ক ডেটা প্রক্রিয়াকরণের জন্য একটি ব্যয়-দক্ষ এবং নো-রক্ষণাবেক্ষণ বিকল্প সরবরাহ করে এবং ফিল্টার করা ডেটা প্রক্রিয়া করতে ব্যবহৃত হয়। পরবর্তী, আমরা ব্যবহার করি আমাজন সেজমেকার জাম্পস্টার্ট ফাইন-টিউন লামা 2 মডেল প্রি-প্রসেসড ডেটাসেট সহ। সেজমেকার জাম্পস্টার্ট সবচেয়ে সাধারণ ব্যবহারের ক্ষেত্রে সমাধানের একটি সেট সরবরাহ করে যা মাত্র কয়েকটি ক্লিকে স্থাপন করা যেতে পারে। LLM যেমন Llama 2 ফাইন-টিউন করার জন্য আপনাকে কোন কোড লিখতে হবে না। অবশেষে, আমরা ব্যবহার করে ফাইন-টিউনড মডেল স্থাপন করি আমাজন সেজমেকার এবং মূল এবং ফাইন-টিউনড লামা 2 মডেলের মধ্যে একই প্রশ্নের জন্য পাঠ্য আউটপুটের পার্থক্যগুলি তুলনা করুন।

নিচের চিত্রটি এই সমাধানের স্থাপত্যকে ব্যাখ্যা করে।

সমাধানের বিশদ বিবরণের গভীরে ডুব দেওয়ার আগে, নিম্নলিখিত পূর্বশর্ত পদক্ষেপগুলি সম্পূর্ণ করুন:

কমন ক্রল হল একটি ওপেন কর্পাস ডেটাসেট যা 50 বিলিয়ন ওয়েবপেজ ক্রল করে প্রাপ্ত হয়। এটি 2008 থেকে শুরু করে পেটাবাইট স্তরে পৌঁছে একাধিক ভাষায় প্রচুর পরিমাণে অসংগঠিত ডেটা অন্তর্ভুক্ত করে। এটা ক্রমাগত আপডেট করা হয়.

GPT-3-এর প্রশিক্ষণে, সাধারণ ক্রল ডেটাসেট এর প্রশিক্ষণ ডেটার 60% জন্য দায়ী, যেমনটি নিম্নলিখিত চিত্রে দেখানো হয়েছে (উৎস: ভাষার মডেলগুলি অল্প-শট লার্নার্স).

উল্লেখ যোগ্য আরেকটি গুরুত্বপূর্ণ ডেটাসেট হল C4 ডেটাসেট. C4, Colossal Clean Crawled Corpus-এর সংক্ষিপ্ত, একটি ডেটাসেট যা সাধারণ ক্রল ডেটাসেট পোস্টপ্রসেসিং থেকে প্রাপ্ত। মেটার LLaMA পেপারে, তারা ব্যবহৃত ডেটাসেটের রূপরেখা দিয়েছে, যার মধ্যে কমন ক্রল অ্যাকাউন্টিং 67% (3.3 TB ডেটা ব্যবহার করে) এবং C4 15% (783 GB ডেটা ব্যবহার করে)। কাগজটি মডেলের কর্মক্ষমতা বাড়ানোর জন্য আলাদাভাবে প্রিপ্রসেসড ডেটা অন্তর্ভুক্ত করার তাত্পর্যকে জোর দেয়। মূল C4 ডেটা কমন ক্রলের অংশ হওয়া সত্ত্বেও, মেটা এই ডেটার পুনঃপ্রসেস করা সংস্করণ বেছে নিয়েছে।

এই বিভাগে, আমরা সাধারণ ক্রল ডেটাসেট ইন্টারঅ্যাক্ট, ফিল্টার এবং প্রক্রিয়া করার সাধারণ উপায়গুলি কভার করি৷

কমন ক্রল কাঁচা ডেটাসেটে তিন ধরনের ডেটা ফাইল রয়েছে: কাঁচা ওয়েবপেজ ডেটা (WARC), মেটাডেটা (WAT), এবং টেক্সট এক্সট্রাকশন (WET)।

2013 সালের পরে সংগৃহীত ডেটা WARC ফরম্যাটে সংরক্ষণ করা হয় এবং এতে সংশ্লিষ্ট মেটাডেটা (WAT) এবং পাঠ্য নিষ্কাশন ডেটা (WET) অন্তর্ভুক্ত থাকে। ডেটাসেটটি Amazon S3 এ অবস্থিত, মাসিক ভিত্তিতে আপডেট করা হয়েছে এবং সরাসরি এর মাধ্যমে অ্যাক্সেস করা যেতে পারে AWS মার্কেটপ্লেস.

$  aws s3 ls s3://commoncrawl/crawl-data/CC-MAIN-2023-23/
PRE segments/
2023-06-21  00:34:08       2164  cc-index-table.paths.gz
2023-06-21  00:34:08        637 cc-index.paths.gz
2023-06-21  05:52:05       2724 index.html
2023-06-21  00:34:09     161064  non200responses.paths.gz
2023-06-21  00:34:10     160888 robotstxt.paths.gz
2023-06-21  00:34:10        480 segment.paths.gz
2023-06-21  00:34:11     161082 warc.paths.gz
2023-06-21  00:34:12     160895 wat.paths.gz
2023-06-21  00:34:12     160898 wet.paths.gz

সাধারণ ক্রল ডেটাসেট ডেটা ফিল্টার করার জন্য একটি সূচক টেবিলও প্রদান করে, যাকে cc-index-table বলা হয়।

cc-index-table হল বিদ্যমান ডেটার একটি সূচক, যা WARC ফাইলগুলির একটি টেবিল-ভিত্তিক সূচী প্রদান করে। এটি তথ্যের সহজ সন্ধানের অনুমতি দেয়, যেমন কোন WARC ফাইলটি একটি নির্দিষ্ট URL এর সাথে মিলে যায়৷

উদাহরণস্বরূপ, আপনি নিম্নলিখিত কোড সহ cc-index ডেটা ম্যাপ করতে একটি এথেনা টেবিল তৈরি করতে পারেন:

CREATE  EXTERNAL TABLE IF NOT EXISTS ccindex (
  url_surtkey                   STRING,
  url                           STRING,
  url_host_name                 STRING,
  url_host_tld                  STRING,
  url_host_2nd_last_part        STRING,
  url_host_3rd_last_part        STRING,
  url_host_4th_last_part        STRING,
  url_host_5th_last_part        STRING,
  url_host_registry_suffix      STRING,
  url_host_registered_domain    STRING,
  url_host_private_suffix       STRING,
  url_host_private_domain       STRING,
  url_host_name_reversed        STRING,
  url_protocol                  STRING,
  url_port                      INT,
  url_path                      STRING,
  url_query                     STRING,
  fetch_time                    TIMESTAMP,
  fetch_status                  SMALLINT,
  fetch_redirect                STRING,
  content_digest                STRING,
  content_mime_type             STRING,
  content_mime_detected         STRING,
  content_charset               STRING,
  content_languages             STRING,
  content_truncated             STRING,
  warc_filename                 STRING,
  warc_record_offset            INT,
  warc_record_length            INT,
  warc_segment                  STRING)
PARTITIONED  BY (
  crawl                         STRING,
  subset                        STRING)
STORED  AS parquet
LOCATION  's3://commoncrawl/cc-index/table/cc-main/warc/';
 
# add partitions
MSCK  REPAIR TABLE ccindex

# query
select  * from ccindex 
where  crawl = 'CC-MAIN-2018-05' 
  and  subset = 'warc' 
  and  url_host_tld = 'no' 
limit  10

পূর্ববর্তী SQL স্টেটমেন্টগুলি দেখায় কিভাবে একটি এথেনা টেবিল তৈরি করতে হয়, পার্টিশন যোগ করতে হয় এবং একটি ক্যোয়ারী চালাতে হয়।

সাধারণ ক্রল ডেটাসেট থেকে ডেটা ফিল্টার করুন

আপনি তৈরি টেবিল এসকিউএল স্টেটমেন্ট থেকে দেখতে পাচ্ছেন, অনেকগুলি ক্ষেত্র রয়েছে যা ডেটা ফিল্টার করতে সহায়তা করতে পারে। উদাহরণস্বরূপ, যদি আপনি একটি নির্দিষ্ট সময়ের মধ্যে চীনা নথির গণনা পেতে চান, তাহলে SQL বিবৃতিটি নিম্নরূপ হতে পারে:

SELECT
  url,
  warc_filename,
  content_languages
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-14'
  OR crawl = 'CC-MAIN-2023-23')
  AND subset = 'warc'
  AND content_languages ='zho'
LIMIT  10000

আপনি যদি আরও প্রক্রিয়াকরণ করতে চান, আপনি ফলাফলগুলি অন্য S3 বালতিতে সংরক্ষণ করতে পারেন।

ফিল্টার করা তথ্য বিশ্লেষণ করুন

সার্জারির সাধারণ ক্রল GitHub সংগ্রহস্থল কাঁচা ডেটা প্রক্রিয়াকরণের জন্য বেশ কয়েকটি PySpark উদাহরণ প্রদান করে।

চলুন দৌড়ের একটি উদাহরণ দেখি server_count.py (কমন ক্রল গিটহাব রেপো দ্বারা প্রদত্ত উদাহরণ স্ক্রিপ্ট) মধ্যে অবস্থিত ডেটাতে s3://commoncrawl/crawl-data/CC-MAIN-2023-23/segments/1685224643388.45/warc/.

প্রথমত, আপনার একটি স্পার্ক পরিবেশ প্রয়োজন, যেমন EMR স্পার্ক। উদাহরণস্বরূপ, আপনি EC2 ক্লাস্টারে একটি Amazon EMR চালু করতে পারেন us-east-1 (কারণ ডেটাসেট আছে us-east-1) EC2 ক্লাস্টারে একটি EMR ব্যবহার করা আপনাকে উৎপাদন পরিবেশে চাকরি জমা দেওয়ার আগে পরীক্ষা করতে সাহায্য করতে পারে।

EC2 ক্লাস্টারে একটি EMR চালু করার পরে, আপনাকে ক্লাস্টারের প্রাথমিক নোডে একটি SSH লগইন করতে হবে। তারপর, পাইথন এনভায়রনমেন্ট প্যাকেজ করুন এবং স্ক্রিপ্ট জমা দিন (দেখুন কনডা ডকুমেন্টেশন মিনিকোন্ডা ইনস্টল করতে):

#  create conda environment
conda  create -y -n example -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio

#  package the conda env
conda  activate example
conda  pack -o environment.tar.gz

#  get script from common crawl github
git  clone https://github.com/commoncrawl/cc-pyspark.git

#  copy target file path to local
aws  s3 cp s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz .
gzip  -d warc.paths.gz

#  put warc list to hdfs
hdfs  dfs -put warc.paths

#  submit job
spark-submit  --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./environment/bin/python 
--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/  
--master yarn  
--deploy-mode cluster 
--archives environment.tar.gz#environment 
--py-files cc-pyspark/sparkcc.py  cc-pyspark/server_count.py --input_base_url  s3://commoncrawl/ ./warc.paths count_demo

warc.path-এ সমস্ত রেফারেন্স প্রক্রিয়া করতে সময় লাগতে পারে। ডেমো উদ্দেশ্যে, আপনি নিম্নলিখিত কৌশলগুলির সাথে প্রক্রিয়াকরণের সময় উন্নত করতে পারেন:

ফাইল ডাউনলোড করুন s3://commoncrawl/crawl-data/CC-MAIN-2023-23/warc.paths.gz আপনার স্থানীয় মেশিনে, এটি আনজিপ করুন এবং তারপর এটি HDFS বা Amazon S3 এ আপলোড করুন। এর কারণ .gzip ফাইলটি বিভক্ত নয়। এই ফাইলটিকে সমান্তরালভাবে প্রক্রিয়া করার জন্য আপনাকে এটি আনজিপ করতে হবে।
পরিবর্তন করুন warc.path ফাইল, এর বেশিরভাগ লাইন মুছে ফেলুন এবং কাজটি আরও দ্রুত চালানোর জন্য শুধুমাত্র দুটি লাইন রাখুন।

কাজ শেষ হওয়ার পরে, আপনি ফলাফল দেখতে পারেন s3://xxxx-common-crawl/output/, Parquet বিন্যাসে.

কাস্টমাইজড অধিকারী যুক্তি প্রয়োগ করুন

কমন ক্রল গিটহাব রেপো WARC ফাইলগুলি প্রক্রিয়া করার জন্য একটি সাধারণ পদ্ধতি প্রদান করে। সাধারণত, আপনি প্রসারিত করতে পারেন CCSparkJob একটি একক পদ্ধতি ওভাররাইড করতে (process_record), যা অনেক ক্ষেত্রেই যথেষ্ট।

সাম্প্রতিক মুভিগুলোর IMDB রিভিউ পেতে একটি উদাহরণ দেখি। প্রথমে, আপনাকে IMDB সাইটে ফাইলগুলি ফিল্টার করতে হবে:

SELECT
  url,
  warc_filename,
  url_host_name
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
LIMIT  1000

তারপরে আপনি WARC ফাইলের তালিকা পেতে পারেন যাতে IMDB পর্যালোচনা ডেটা রয়েছে এবং WARC ফাইলের নামগুলি একটি পাঠ্য ফাইলে তালিকা হিসাবে সংরক্ষণ করতে পারেন৷

বিকল্পভাবে, আপনি WARC ফাইলের তালিকা পেতে EMR স্পার্ক ব্যবহার করতে পারেন এবং এটি Amazon S3 এ সংরক্ষণ করতে পারেন। উদাহরণ স্বরূপ:

sql  = """SELECT
  warc_filename
FROM  ccindex
WHERE  (crawl = 'CC-MAIN-2023-06'
  OR crawl = 'CC-MAIN-2023-40')
  AND subset = 'warc'
  AND url like  'https://www.imdb.com/title/%/reviews'
"""

warc_list  = spark.sql(sql)

#  write result list to s3
warc_list.coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/warclist/imdb_warclist")

আউটপুট ফাইলের মতো দেখতে হবে s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt.

পরবর্তী ধাপ হল এই WARC ফাইলগুলি থেকে ব্যবহারকারীর পর্যালোচনাগুলি বের করা৷ আপনি প্রসারিত করতে পারেন CCSparkJob ওভাররাইড করতে process_record() পদ্ধতি:

from  sparkcc import CCSparkJob
from  bs4 import BeautifulSoup
from  urllib.parse import urlsplit
 
class  IMDB_Extract_Job(CCSparkJob):
    name = "IMDB_Reviews"
 
    def process_record(self, record):
        if self.is_response_record(record):
            # WARC response record
            domain =  urlsplit(record.rec_headers['WARC-Target-URI']).hostname
            if domain == 'www.imdb.com':
                # get web contents
                contents = (
                    record.content_stream()
                        .read()
                        .decode("utf-8", "replace")
                )
 
                # parse with beautiful soup
                soup =  BeautifulSoup(contents, "html.parser")
 
                # get reviews
                review_divs =  soup.find_all(class_="text show-more__control")
                for div in review_divs:
                    yield div.text,1
 
 
if  __name__ == "__main__":
    job = IMDB_Extract_Job()
    job.run()

আপনি পূর্বের স্ক্রিপ্টটিকে imdb_extractor.py হিসাবে সংরক্ষণ করতে পারেন, যা আপনি নিম্নলিখিত ধাপে ব্যবহার করবেন। আপনি ডেটা এবং স্ক্রিপ্ট প্রস্তুত করার পরে, আপনি ফিল্টার করা ডেটা প্রক্রিয়া করতে EMR সার্ভারলেস ব্যবহার করতে পারেন।

EMR সার্ভারহীন

ইএমআর সার্ভারলেস হল একটি সার্ভারহীন স্থাপনার বিকল্প যা অ্যাপাচি স্পার্ক এবং হাইভের মতো ওপেন সোর্স ফ্রেমওয়ার্ক ব্যবহার করে ক্লাস্টার বা সার্ভারগুলিকে কনফিগার, পরিচালনা এবং স্কেলিং ছাড়াই বড় ডেটা অ্যানালিটিক্স অ্যাপ্লিকেশন চালানোর জন্য।

EMR সার্ভারলেস এর সাথে, আপনি স্বয়ংক্রিয় স্কেলিং সহ যেকোনো স্কেলে অ্যানালিটিক্স ওয়ার্কলোড চালাতে পারেন যা ডেটা ভলিউম এবং প্রক্রিয়াকরণের প্রয়োজনীয়তাগুলি পরিবর্তন করতে সেকেন্ডের মধ্যে সম্পদের আকার পরিবর্তন করে। ইএমআর সার্ভারলেস স্বয়ংক্রিয়ভাবে আপনার অ্যাপ্লিকেশনের জন্য সঠিক পরিমাণে ক্ষমতা প্রদানের জন্য সংস্থানগুলি উপরে এবং নীচে স্কেল করে এবং আপনি যা ব্যবহার করেন তার জন্যই আপনি অর্থ প্রদান করেন।

সাধারণ ক্রল ডেটাসেট প্রক্রিয়াকরণ সাধারণত একটি এককালীন প্রক্রিয়াকরণ কাজ, এটি EMR সার্ভারহীন কাজের চাপের জন্য উপযুক্ত করে তোলে।

একটি EMR সার্ভারহীন অ্যাপ্লিকেশন তৈরি করুন

আপনি EMR স্টুডিও কনসোলে একটি EMR সার্ভারহীন অ্যাপ্লিকেশন তৈরি করতে পারেন। নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

EMR স্টুডিও কনসোলে, নির্বাচন করুন অ্যাপ্লিকেশন অধীনে Serverless নেভিগেশন ফলকে।
বেছে নিন অ্যাপ্লিকেশন তৈরি করুন.

অ্যাপ্লিকেশনটির জন্য একটি নাম প্রদান করুন এবং একটি Amazon EMR সংস্করণ চয়ন করুন৷

যদি VPC সংস্থানগুলিতে অ্যাক্সেসের প্রয়োজন হয়, একটি কাস্টমাইজড নেটওয়ার্ক সেটিং যোগ করুন।

বেছে নিন অ্যাপ্লিকেশন তৈরি করুন.

আপনার স্পার্ক সার্ভারহীন পরিবেশ তখন প্রস্তুত হবে।

আপনি EMR স্পার্ক সার্ভারলেস একটি চাকরি জমা দেওয়ার আগে, আপনাকে এখনও একটি কার্যকর ভূমিকা তৈরি করতে হবে। নির্দেশ করে Amazon EMR সার্ভারলেস দিয়ে শুরু করা আরো বিস্তারিত জানার জন্য.

EMR সার্ভারলেস সহ সাধারণ ক্রল ডেটা প্রক্রিয়া করুন

আপনার EMR স্পার্ক সার্ভারলেস অ্যাপ্লিকেশন প্রস্তুত হওয়ার পরে, ডেটা প্রক্রিয়া করার জন্য নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

একটি Conda পরিবেশ প্রস্তুত করুন এবং এটি Amazon S3 এ আপলোড করুন, যা EMR স্পার্ক সার্ভারলেস পরিবেশ হিসাবে ব্যবহার করা হবে।
একটি S3 বালতিতে চালানোর জন্য স্ক্রিপ্টগুলি আপলোড করুন৷ নিম্নলিখিত উদাহরণে, দুটি স্ক্রিপ্ট আছে:
1. imbd_extractor.py - ডেটাসেট থেকে বিষয়বস্তু বের করতে কাস্টমাইজড লজিক। বিষয়বস্তু এই পোস্টে আগে পাওয়া যাবে.
2. cc-pyspark/sparkcc.py – থেকে PySpark ফ্রেমওয়ার্কের উদাহরণ সাধারণ ক্রল গিটহাব রেপো, যা অন্তর্ভুক্ত করা আবশ্যক.
PySpark কাজটি EMR সার্ভারলেস স্পার্ক-এ জমা দিন। আপনার পরিবেশে এই উদাহরণটি চালানোর জন্য নিম্নলিখিত পরামিতিগুলি সংজ্ঞায়িত করুন:
1. আবেদন আইডি - আপনার EMR সার্ভারহীন অ্যাপ্লিকেশনের অ্যাপ্লিকেশন আইডি।
2. মৃত্যুদন্ড-ভূমিকা-আর্ন - আপনার EMR সার্ভারলেস এক্সিকিউশন ভূমিকা। এটি তৈরি করতে, পড়ুন একটি কাজের রানটাইম ভূমিকা তৈরি করুন.
3. WARC ফাইলের অবস্থান - আপনার WARC ফাইলের অবস্থান। s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt ফিল্টার করা WARC ফাইল তালিকা রয়েছে, যা আপনি এই পোস্টে আগে পেয়েছিলেন।
4. spark.sql.warehouse.dir - ডিফল্ট গুদাম অবস্থান (আপনার S3 ডিরেক্টরি ব্যবহার করুন)।
5. spark.archives - প্রস্তুত কন্ডা পরিবেশের S3 অবস্থান।
6. spark.submit.pyFiles - প্রস্তুতকৃত PySpark স্ক্রিপ্ট sparkcc.py।

নিম্নলিখিত কোডটি দেখুন:

# 1. create conda environment
conda  create -y -n imdb -c dmnapolitano python=3.7 botocore boto3 ujson requests  conda-pack warcio bs4
 
# 2. package the conda  env, and upload to s3
conda  activate imdb 
conda  pack -o imdbenv.tar.gz
aws  s3 cp imdbenv.tar.gz s3://xxxx-common-crawl/env/
 
# 3. upload scripts to S3
aws  s3 cp imdb_extractor.py s3://xxxx-common-crawl/scripts/
aws  s3 cp cc-pyspark/sparkcc.py s3://xxxx-common-crawl/scripts/
 
# 4. submit job to EMR Serverless
#!/bin/bash
aws  emr-serverless start-job-run 
    --application-id 00fdsobht2skro2l 
    --execution-role-arn  arn:aws:iam::xxxx:role/EMR-Serverless-JobExecutionRole 
    --name imdb-retrive 
    --job-driver '{
        "sparkSubmit": {
          "entryPoint":  "s3://xxxx-common-crawl/scripts/imdb_extractor.py",
          "entryPointArguments":  ["--input_base_url" ,"s3://commoncrawl/",  "s3://xxxx-common-crawl/warclist/imdb_warclist/part-00000-6af12797-0cdc-4ef2-a438-cf2b935f2ffd-c000.txt",  "imdb_reviews", "--num_output_partitions",  "1"],
          "sparkSubmitParameters":  "--conf spark.sql.warehouse.dir=s3://xxxx-common-crawl/output/ --conf  spark.network.timeout=10000000 —conf  spark.executor.heartbeatInterval=10000000 —conf spark.executor.instances=100  —conf spark.executor.cores=4 —conf spark.executor.memory=16g —conf  spark.driver.memory=16g   —conf  spark.archives=s3://xxxx-common-crawl/env/imdbenv.tar.gz#environment —conf  spark.emr-serverless.driverEnv.PYSPARK_DRIVER_PYTHON=./environment/bin/python  —conf spark.emr-serverless.driverEnv.PYSPARK_PYTHON=./environment/bin/python  —conf spark.executorEnv.PYSPARK_PYTHON=./environment/bin/python —conf  spark.submit.pyFiles=s3://xxxx-common-crawl/scripts/sparkcc.py“
        }
}'

কাজ শেষ হওয়ার পরে, নিষ্কাশিত পর্যালোচনাগুলি Amazon S3 এ সংরক্ষণ করা হয়। বিষয়বস্তু পরীক্ষা করতে, আপনি Amazon S3 নির্বাচন ব্যবহার করতে পারেন, যেমনটি নিম্নলিখিত স্ক্রিনশটে দেখানো হয়েছে।

বিবেচ্য বিষয়

কাস্টমাইজড কোড সহ বিপুল পরিমাণ ডেটা নিয়ে কাজ করার সময় নিম্নলিখিত বিষয়গুলি বিবেচনা করতে হবে:

কিছু তৃতীয় পক্ষের পাইথন লাইব্রেরি Conda-এ উপলব্ধ নাও হতে পারে। এই ধরনের ক্ষেত্রে, আপনি PySpark রানটাইম পরিবেশ তৈরি করতে একটি পাইথন ভার্চুয়াল পরিবেশে স্যুইচ করতে পারেন।
যদি প্রচুর পরিমাণে ডেটা প্রসেস করা হয়, তবে এটিকে সমান্তরাল করতে একাধিক EMR সার্ভারলেস স্পার্ক অ্যাপ্লিকেশন তৈরি এবং ব্যবহার করার চেষ্টা করুন। প্রতিটি অ্যাপ্লিকেশন ফাইল তালিকার একটি উপসেট নিয়ে কাজ করে।
সাধারণ ক্রল ডেটা ফিল্টার বা প্রক্রিয়া করার সময় আপনি Amazon S3 এর সাথে একটি মন্থর সমস্যার সম্মুখীন হতে পারেন। এই কারণে যে S3 বালতি ডেটা সংরক্ষণ করে সর্বজনীনভাবে অ্যাক্সেসযোগ্য, এবং অন্যান্য ব্যবহারকারীরা একই সময়ে ডেটা অ্যাক্সেস করতে পারে। এই সমস্যাটি প্রশমিত করার জন্য, আপনি একটি পুনরায় চেষ্টা করার পদ্ধতি যোগ করতে পারেন বা কমন ক্রল S3 বাকেট থেকে আপনার নিজের বালতিতে নির্দিষ্ট ডেটা সিঙ্ক করতে পারেন।

সেজমেকারের সাথে ফাইন-টিউন লামা 2

ডেটা প্রস্তুত হওয়ার পরে, আপনি এটির সাথে একটি Llama 2 মডেলকে সূক্ষ্ম-টিউন করতে পারেন। আপনি কোন কোড না লিখে SageMaker JumpStart ব্যবহার করে তা করতে পারেন। আরো তথ্যের জন্য, পড়ুন Amazon SageMaker JumpStart-এ টেক্সট জেনারেশনের জন্য ফাইন-টিউন লামা 2.

এই পরিস্থিতিতে, আপনি একটি ডোমেন অভিযোজন ফাইন-টিউনিং চালান। এই ডেটাসেটের সাথে, ইনপুট একটি CSV, JSON, বা TXT ফাইল নিয়ে গঠিত। আপনাকে একটি TXT ফাইলে সমস্ত পর্যালোচনা ডেটা রাখতে হবে। এটি করার জন্য, আপনি EMR স্পার্ক সার্ভারলেস একটি সহজবোধ্য স্পার্ক কাজ জমা দিতে পারেন। নিম্নলিখিত নমুনা কোড স্নিপেট দেখুন:

# disable generating _SUCCESS file
spark.conf.set("mapreduce.fileoutputcommitter.marksuccessfuljobs",  "false")

data  = spark.read.parquet("s3://xxxx-common-crawl/output/imdb_reviews/")

data.select('Key').coalesce(1).write.mode("overwrite").text("s3://xxxx-common-crawl/llama2/train/")

আপনি প্রশিক্ষণের ডেটা প্রস্তুত করার পরে, এর জন্য ডেটা অবস্থান লিখুন প্রশিক্ষণ তথ্য সেট, তাহলে বেছে নাও রেলগাড়ি.

আপনি প্রশিক্ষণ কাজের অবস্থা ট্র্যাক করতে পারেন.

সূক্ষ্ম সুর করা মডেলের মূল্যায়ন করুন

প্রশিক্ষণ শেষ হওয়ার পরে, নির্বাচন করুন স্থাপন করুন SageMaker JumpStart-এ আপনার সূক্ষ্ম-টিউনড মডেল স্থাপন করতে।

মডেল সফলভাবে স্থাপন করা হয় পরে, নির্বাচন করুন নোটবুক খুলুন, যা আপনাকে একটি প্রস্তুত জুপিটার নোটবুকে পুনঃনির্দেশ করে যেখানে আপনি আপনার পাইথন কোড চালাতে পারেন।

আপনি নোটবুকের জন্য চিত্র ডেটা সায়েন্স 2.0 এবং পাইথন 3 কার্নেল ব্যবহার করতে পারেন।

তারপর, আপনি এই নোটবুকে সূক্ষ্ম-টিউন করা মডেল এবং আসল মডেলটি মূল্যায়ন করতে পারেন।

endpoint_name_original = "jumpstart-dft-meta-textgeneration-llama-2-7b-origin"
endpoint_name_fine_tuned = "jumpstart-ftc-meta-textgeneration-llama-2-7b"

payload = {
    "inputs": "The review of movie 'A Woman of Paris: A Drama of Fate' is ",
    "parameters": {
        "max_new_tokens": 256,
        "top_p": 0.9,
        "temperature": 0.6,
        "return_full_text": True,
    },
        }
    
def query_endpoint(payload, endpoint_name):
    client = boto3.client("sagemaker-runtime")
    response = client.invoke_endpoint(
        EndpointName=endpoint_name,
        ContentType="application/json",
        Body=json.dumps(payload),
        CustomAttributes="accept_eula=true",
    )
    response = response["Body"].read().decode("utf8")
    response = json.loads(response)
    print(endpoint_name + ": n" + response[0]['generation'])


query_endpoint(payload, endpoint_name_original)
print("n-----#################-----n")
query_endpoint(payload, endpoint_name_fine_tuned)

নিম্নলিখিত দুটি উত্তর একই প্রশ্নের জন্য মূল মডেল এবং সূক্ষ্ম-টিউনড মডেল দ্বারা প্রত্যাবর্তন করা হয়েছে৷

আমরা উভয় মডেলকে একই বাক্য দিয়ে সরবরাহ করেছি: "'এ ওম্যান অফ প্যারিস: এ ড্রামা অফ ফেট' চলচ্চিত্রের পর্যালোচনা" এবং তাদের বাক্যটি সম্পূর্ণ করতে দিন।

মূল মডেল অর্থহীন বাক্য আউটপুট:

"The review of movie 'A woman of Paris: A Drama of Fate' is 3.0/5.

A Woman of Paris: A Drama of Fate(1923)

A Woman of Paris: A Drama of Fate movie released on 17 October, 1992. The movie is directed by. A Woman of Paris: A Drama of Fate featured Jeanne Eagles, William Haines, Burr McIntosh and Jack Rollens in lead rols.

..."

বিপরীতে, সূক্ষ্ম-টিউন করা মডেলের আউটপুটগুলি আরও একটি মুভি পর্যালোচনার মতো:

" The review of movie 'A Woman of Paris: A Drama of Fate' is 6.3/10. I liked the story, the plot, the character, the background. The performances are amazing. Rory (Judy Davis) is an Australian photographer who travels to Africa to photograph the people, wildlife, and scenery. She meets Peter (Donald Sutherland), a zoologist, and they begin a relationship..."

স্পষ্টতই, সূক্ষ্ম সুর করা মডেল এই নির্দিষ্ট পরিস্থিতিতে আরও ভাল পারফর্ম করে।

পরিষ্কার কর

আপনি এই অনুশীলনটি শেষ করার পরে, আপনার সংস্থানগুলি পরিষ্কার করতে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

S3 বালতি মুছুন যা পরিষ্কার করা ডেটাসেট সংরক্ষণ করে।
EMR সার্ভারহীন পরিবেশ বন্ধ করুন.
সেজমেকার এন্ডপয়েন্ট মুছুন যেটি এলএলএম মডেল হোস্ট করে।
SageMaker ডোমেন মুছুন যে আপনার নোটবুক চালায়.

আপনার তৈরি করা অ্যাপ্লিকেশনটি ডিফল্টরূপে নিষ্ক্রিয়তার 15 মিনিটের পরে স্বয়ংক্রিয়ভাবে বন্ধ হওয়া উচিত।

সাধারণত, আপনাকে অ্যাথেনা পরিবেশ পরিষ্কার করার দরকার নেই কারণ আপনি যখন এটি ব্যবহার করছেন না তখন কোনও চার্জ নেই৷

উপসংহার

এই পোস্টে, আমরা সাধারণ ক্রল ডেটাসেট এবং এলএলএম ফাইন-টিউনিংয়ের জন্য ডেটা প্রক্রিয়া করার জন্য কীভাবে ইএমআর সার্ভারলেস ব্যবহার করতে হয় তা উপস্থাপন করেছি। তারপরে আমরা দেখিয়েছি যে কীভাবে সেজমেকার জাম্পস্টার্ট ব্যবহার করতে হয় এলএলএমকে সূক্ষ্ম-টিউন করতে এবং কোনও কোড ছাড়াই এটি স্থাপন করতে হয়। EMR সার্ভারলেস এর আরও ব্যবহারের ক্ষেত্রে, পড়ুন আমাজন ইএমআর সার্ভারহীন। Amazon SageMaker JumpStart-এ হোস্টিং এবং ফাইন-টিউনিং মডেল সম্পর্কে আরও তথ্যের জন্য, দেখুন সেজমেকার জাম্পস্টার্ট ডকুমেন্টেশন.

লেখক সম্পর্কে

শিজিয়ান তাং অ্যামাজন ওয়েব সার্ভিসেসের একজন অ্যানালিটিক্স বিশেষজ্ঞ সলিউশন আর্কিটেক্ট।

ম্যাথু লিম অ্যামাজন ওয়েব সার্ভিসেসের একজন সিনিয়র সলিউশন আর্কিটেকচার ম্যানেজার।

ডালেই জু অ্যামাজন ওয়েব সার্ভিসেসের একজন অ্যানালিটিক্স বিশেষজ্ঞ সলিউশন আর্কিটেক্ট।

ইউয়ানজুন জিয়াও অ্যামাজন ওয়েব সার্ভিসেসের একজন সিনিয়র সলিউশন আর্কিটেক্ট।

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
প্লেটোইএসজি। কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
উত্স: https://aws.amazon.com/blogs/big-data/preprocess-and-fine-tune-llms-quickly-and-cost-effectively-using-amazon-emr-serverless-and-amazon-sagemaker/

সময় স্ট্যাম্প: ফেব্রুয়ারী 1, 2024

সময় স্ট্যাম্প: নভেম্বর 21, 2023

প্লেটো দ্বারা প্রকাশিত

Amazon Athena |-এ খরচ-ভিত্তিক অপ্টিমাইজারের সাথে প্রশ্নের গতি বাড়ান আমাজন ওয়েব সার্ভিসেস

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব