अमेज़ॅन सेजमेकर पर व्हिस्पर मॉडल होस्ट करें: अनुमान विकल्पों की खोज | अमेज़ॅन वेब सेवाएँ

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

ओपनएआई व्हिस्पर एमआईटी लाइसेंस के साथ एक उन्नत स्वचालित वाक् पहचान (एएसआर) मॉडल है। एएसआर तकनीक प्रतिलेखन सेवाओं, आवाज सहायकों और श्रवण बाधित व्यक्तियों के लिए पहुंच बढ़ाने में उपयोगिता पाती है। इस अत्याधुनिक मॉडल को वेब से एकत्र किए गए बहुभाषी और मल्टीटास्क पर्यवेक्षित डेटा के विशाल और विविध डेटासेट पर प्रशिक्षित किया गया है। इसकी उच्च सटीकता और अनुकूलनशीलता इसे आवाज से संबंधित कार्यों की एक विस्तृत श्रृंखला के लिए एक मूल्यवान संपत्ति बनाती है।

मशीन लर्निंग और कृत्रिम बुद्धिमत्ता के निरंतर विकसित होते परिदृश्य में, अमेज़न SageMaker एक व्यापक पारिस्थितिकी तंत्र प्रदान करता है। सेजमेकर डेटा वैज्ञानिकों, डेवलपर्स और संगठनों को बड़े पैमाने पर मशीन लर्निंग मॉडल विकसित करने, प्रशिक्षित करने, तैनात करने और प्रबंधित करने का अधिकार देता है। उपकरणों और क्षमताओं की एक विस्तृत श्रृंखला की पेशकश करते हुए, यह डेटा प्री-प्रोसेसिंग और मॉडल विकास से लेकर सहज तैनाती और निगरानी तक, संपूर्ण मशीन लर्निंग वर्कफ़्लो को सरल बनाता है। सेजमेकर का उपयोगकर्ता के अनुकूल इंटरफेस इसे एआई की पूरी क्षमता को अनलॉक करने के लिए एक महत्वपूर्ण मंच बनाता है, जो इसे कृत्रिम बुद्धिमत्ता के क्षेत्र में गेम-चेंजिंग समाधान के रूप में स्थापित करता है।

इस पोस्ट में, हमने सेजमेकर की क्षमताओं की खोज शुरू की है, विशेष रूप से व्हिस्पर मॉडल की मेजबानी पर ध्यान केंद्रित किया है। ऐसा करने के लिए हम दो तरीकों पर गहराई से विचार करेंगे: एक व्हिस्पर पायटोरच मॉडल का उपयोग करना और दूसरा व्हिस्पर मॉडल के हगिंग फेस कार्यान्वयन का उपयोग करना। इसके अतिरिक्त, हम सेजमेकर के अनुमान विकल्पों की गहन जांच करेंगे, उनकी तुलना गति, लागत, पेलोड आकार और स्केलेबिलिटी जैसे मापदंडों से करेंगे। यह विश्लेषण उपयोगकर्ताओं को व्हिस्पर मॉडल को उनके विशिष्ट उपयोग के मामलों और प्रणालियों में एकीकृत करते समय सूचित निर्णय लेने का अधिकार देता है।

समाधान अवलोकन

निम्नलिखित चित्र इस समाधान के मुख्य घटकों को दर्शाता है।

अमेज़ॅन सेजमेकर पर मॉडल को होस्ट करने के लिए, पहला कदम मॉडल कलाकृतियों को सहेजना है। ये कलाकृतियाँ तैनाती और पुनर्प्रशिक्षण सहित विभिन्न अनुप्रयोगों के लिए आवश्यक मशीन लर्निंग मॉडल के आवश्यक घटकों को संदर्भित करती हैं। उनमें मॉडल पैरामीटर, कॉन्फ़िगरेशन फ़ाइलें, प्री-प्रोसेसिंग घटक, साथ ही मेटाडेटा, जैसे संस्करण विवरण, लेखकत्व और इसके प्रदर्शन से संबंधित कोई भी नोट्स शामिल हो सकते हैं। यह ध्यान रखना महत्वपूर्ण है कि PyTorch और हगिंग फेस कार्यान्वयन के लिए व्हिस्पर मॉडल में विभिन्न मॉडल कलाकृतियाँ शामिल हैं।
इसके बाद, हम कस्टम अनुमान स्क्रिप्ट बनाते हैं। इन स्क्रिप्ट्स के भीतर, हम परिभाषित करते हैं कि मॉडल को कैसे लोड किया जाना चाहिए और अनुमान प्रक्रिया निर्दिष्ट करें। यह वह जगह भी है जहां हम आवश्यकतानुसार कस्टम पैरामीटर शामिल कर सकते हैं। इसके अतिरिक्त, आप आवश्यक पायथन पैकेजों को एक में सूचीबद्ध कर सकते हैं requirements.txt फ़ाइल। मॉडल की तैनाती के दौरान, ये पायथन पैकेज प्रारंभिक चरण में स्वचालित रूप से स्थापित हो जाते हैं।
फिर हम या तो PyTorch या हगिंग फेस डीप लर्निंग कंटेनर (DLC) का चयन करते हैं जो प्रदान और रखरखाव किया जाता है एडब्ल्यूएस. ये कंटेनर गहन शिक्षण ढांचे और अन्य आवश्यक पायथन पैकेजों के साथ पूर्व-निर्मित डॉकर छवियां हैं। अधिक जानकारी के लिए आप इसे चेक कर सकते हैं संपर्क.
मॉडल कलाकृतियों, कस्टम अनुमान स्क्रिप्ट और चयनित डीएलसी के साथ, हम क्रमशः PyTorch और Hugging Face के लिए Amazon SageMaker मॉडल बनाएंगे।
अंत में, मॉडल को सेजमेकर पर तैनात किया जा सकता है और निम्नलिखित विकल्पों के साथ उपयोग किया जा सकता है: वास्तविक समय अनुमान समापन बिंदु, बैच ट्रांसफॉर्म नौकरियां, और अतुल्यकालिक अनुमान समापन बिंदु। हम इस पोस्ट में बाद में इन विकल्पों पर अधिक विस्तार से विचार करेंगे।

इस समाधान के लिए उदाहरण नोटबुक और कोड इस पर उपलब्ध हैं गिटहब भंडार.

चित्र 1. प्रमुख समाधान घटकों का अवलोकन

Walkthrough

अमेज़ॅन सेजमेकर पर व्हिस्पर मॉडल की मेजबानी

इस अनुभाग में, हम क्रमशः PyTorch और Hugging Face Frameworks का उपयोग करके Amazon SageMaker पर व्हिस्पर मॉडल को होस्ट करने के चरणों की व्याख्या करेंगे। इस समाधान के साथ प्रयोग करने के लिए, आपको एक AWS खाता और Amazon SageMaker सेवा तक पहुंच की आवश्यकता होगी।

पायटोरच ढांचा

मॉडल कलाकृतियाँ सहेजें

मॉडल को होस्ट करने का पहला विकल्प इसका उपयोग करना है व्हिस्पर आधिकारिक पायथन पैकेज, जिसका उपयोग करके स्थापित किया जा सकता है pip install openai-whisper. यह पैकेज एक PyTorch मॉडल प्रदान करता है। स्थानीय रिपॉजिटरी में मॉडल कलाकृतियों को सहेजते समय, पहला कदम मॉडल के सीखने योग्य मापदंडों, जैसे कि तंत्रिका नेटवर्क में प्रत्येक परत के मॉडल वजन और पूर्वाग्रह को 'पीटी' फ़ाइल के रूप में सहेजना है। आप विभिन्न मॉडल आकारों में से चुन सकते हैं, जिनमें 'छोटा,' 'आधार,' 'छोटा,' 'मध्यम,' और 'बड़ा' शामिल हैं। बड़े मॉडल आकार उच्च सटीकता प्रदर्शन प्रदान करते हैं, लेकिन लंबी अनुमान विलंबता की कीमत पर आते हैं। इसके अतिरिक्त, आपको मॉडल स्टेट डिक्शनरी और डायमेंशन डिक्शनरी को सहेजना होगा, जिसमें एक पायथन डिक्शनरी शामिल है जो अन्य मेटाडेटा और कस्टम कॉन्फ़िगरेशन के साथ, PyTorch मॉडल की प्रत्येक परत या पैरामीटर को उसके संबंधित सीखने योग्य पैरामीटर पर मैप करती है। नीचे दिया गया कोड दिखाता है कि व्हिस्पर PyTorch कलाकृतियों को कैसे सहेजा जाए।

### PyTorch
import whisper
# Load the PyTorch model and save it in the local repo
model = whisper.load_model("base")
torch.save(
    {
        'model_state_dict': model.state_dict(),
        'dims': model.dims.__dict__,
    },
    'base.pt'
)

डीएलसी चुनें

अगला कदम इसमें से पूर्व-निर्मित डीएलसी का चयन करना है संपर्क. निम्नलिखित सेटिंग्स पर विचार करके सही छवि चुनते समय सावधान रहें: फ्रेमवर्क (PyTorch), फ्रेमवर्क संस्करण, कार्य (अनुमान), पायथन संस्करण, और हार्डवेयर (यानी, GPU)। जब भी संभव हो फ्रेमवर्क और पायथन के लिए नवीनतम संस्करणों का उपयोग करने की अनुशंसा की जाती है, क्योंकि इससे बेहतर प्रदर्शन होता है और पिछले रिलीज से ज्ञात समस्याओं और बग का समाधान होता है।

अमेज़ॅन सेजमेकर मॉडल बनाएं

अगला, हम इसका उपयोग करते हैं सेजमेकर पायथन एसडीके PyTorch मॉडल बनाने के लिए। PyTorch मॉडल बनाते समय पर्यावरण चर जोड़ना याद रखना महत्वपूर्ण है। डिफ़ॉल्ट रूप से, TorchServe केवल 6MB तक फ़ाइल आकार को संसाधित कर सकता है, उपयोग किए गए अनुमान प्रकार की परवाह किए बिना।

# Create a PyTorchModel for deployment
from sagemaker.pytorch.model import PyTorchModel

whisper_pytorch_model = PyTorchModel(
    model_data=model_uri,
    image_uri=image,
    role=role,
    entry_point="inference.py",
    source_dir='code',
    name=model_name,
    env = {
        'TS_MAX_REQUEST_SIZE': '100000000',
        'TS_MAX_RESPONSE_SIZE': '100000000',
        'TS_DEFAULT_RESPONSE_TIMEOUT': '1000'
    }
)

निम्न तालिका विभिन्न PyTorch संस्करणों के लिए सेटिंग्स दिखाती है:

ढांचा	पर्यावरण चर
PyTorch 1.8 (TorchServe पर आधारित)	'`TS_MAX_REQUEST_SIZE`': '100000000' '`TS_MAX_RESPONSE_SIZE`': '100000000' '`TS_DEFAULT_RESPONSE_TIMEOUT`': '1000'
PyTorch 1.4 (MMS पर आधारित)	'`MMS_MAX_REQUEST_SIZE`': '1000000000' '`MMS_MAX_RESPONSE_SIZE`': '1000000000' '`MMS_DEFAULT_RESPONSE_TIMEOUT`': '900'

Inference.py में मॉडल लोडिंग विधि को परिभाषित करें

रिवाज में inference.py स्क्रिप्ट, हम पहले CUDA-सक्षम GPU की उपलब्धता की जाँच करते हैं। यदि ऐसा कोई GPU उपलब्ध है, तो हम असाइन करते हैं 'cuda' डिवाइस को DEVICE चर; अन्यथा, हम असाइन करते हैं 'cpu' उपकरण। यह चरण सुनिश्चित करता है कि मॉडल को कुशल गणना के लिए उपलब्ध हार्डवेयर पर रखा गया है। हम व्हिस्पर पायथन पैकेज का उपयोग करके PyTorch मॉडल को लोड करते हैं।

### PyTorch
DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
def model_fn(model_dir):
    """
    Load and return the model
    """
    model = whisper.load_model(os.path.join(model_dir, 'base.pt'))
    model = model.to(DEVICE)
    return model

हगिंग फेस फ्रेमवर्क

मॉडल कलाकृतियाँ सहेजें

दूसरा विकल्प उपयोग करना है गले मिलते चेहरे की फुसफुसाहट कार्यान्वयन। का उपयोग करके मॉडल को लोड किया जा सकता है AutoModelForSpeechSeq2Seq ट्रांसफार्मर वर्ग. सीखने योग्य पैरामीटर को बाइनरी (बिन) फ़ाइल में सहेजा जाता है save_pretrained तरीका। हगिंग फेस मॉडल ठीक से काम करता है यह सुनिश्चित करने के लिए टोकननाइज़र और प्रीप्रोसेसर को भी अलग से सहेजने की आवश्यकता है। वैकल्पिक रूप से, आप दो पर्यावरण चर सेट करके सीधे हगिंग फेस हब से अमेज़ॅन सेजमेकर पर एक मॉडल तैनात कर सकते हैं: HF_MODEL_ID और HF_TASK. अधिक जानकारी के लिए कृपया इसे देखें वेबपेज.

### Hugging Face
from transformers import WhisperTokenizer, WhisperProcessor, AutoModelForSpeechSeq2Seq

# Load the pre-trained model
model_name = "openai/whisper-base"
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name)
tokenizer = WhisperTokenizer.from_pretrained(model_name)
processor = WhisperProcessor.from_pretrained(model_name)

# Define a directory where you want to save the model
save_directory = "./model"

# Save the model to the specified directory
model.save_pretrained(save_directory)
tokenizer.save_pretrained(save_directory)
processor.save_pretrained(save_directory)

डीएलसी चुनें

PyTorch फ्रेमवर्क के समान, आप उसी में से एक पूर्व-निर्मित हगिंग फेस DLC चुन सकते हैं संपर्क. एक डीएलसी का चयन करना सुनिश्चित करें जो नवीनतम हगिंग फेस ट्रांसफार्मर का समर्थन करता है और इसमें जीपीयू समर्थन शामिल है।

अमेज़ॅन सेजमेकर मॉडल बनाएं

इसी प्रकार, हम इसका उपयोग करते हैं सेजमेकर पायथन एसडीके हगिंग फेस मॉडल बनाने के लिए। हगिंग फेस व्हिस्पर मॉडल में एक डिफ़ॉल्ट सीमा है जहां यह केवल 30 सेकंड तक के ऑडियो सेगमेंट को संसाधित कर सकता है। इस सीमा को संबोधित करने के लिए, आप इसे शामिल कर सकते हैं chunk_length_s हगिंग फेस मॉडल बनाते समय पर्यावरण चर में पैरामीटर, और बाद में मॉडल लोड करते समय इस पैरामीटर को कस्टम अनुमान स्क्रिप्ट में पास करें। अंत में, हगिंग फेस कंटेनर के लिए पेलोड आकार और प्रतिक्रिया टाइमआउट बढ़ाने के लिए पर्यावरण चर सेट करें।

# Create a HuggingFaceModel for deployment
from sagemaker.huggingface.model import HuggingFaceModel

whisper_hf_model = HuggingFaceModel(
    model_data=model_uri,
    role=role, 
    image_uri = image,
    entry_point="inference.py",
    source_dir='code',
    name=model_name,
    env = {
        "chunk_length_s":"30",
        'MMS_MAX_REQUEST_SIZE': '2000000000',
        'MMS_MAX_RESPONSE_SIZE': '2000000000',
        'MMS_DEFAULT_RESPONSE_TIMEOUT': '900'
    }
)

ढांचा पर्यावरण चर

हगिंगफेस अनुमान कंटेनर

(एमएमएस पर आधारित)

'MMS_MAX_REQUEST_SIZE': '2000000000'
'MMS_MAX_RESPONSE_SIZE': '2000000000'
'MMS_DEFAULT_RESPONSE_TIMEOUT': '900'

Inference.py में मॉडल लोडिंग विधि को परिभाषित करें

हगिंग फेस मॉडल के लिए कस्टम अनुमान स्क्रिप्ट बनाते समय, हम एक पाइपलाइन का उपयोग करते हैं, जो हमें पास करने की अनुमति देती है chunk_length_s एक पैरामीटर के रूप में. यह पैरामीटर मॉडल को अनुमान के दौरान लंबी ऑडियो फ़ाइलों को कुशलतापूर्वक संसाधित करने में सक्षम बनाता है।

### Hugging Face
DEVICE = "cuda:0" if torch.cuda.is_available() else "cpu"
chunk_length_s = int(os.environ.get('chunk_length_s'))
def model_fn(model_dir):
    """
    Load and return the model
    """
    model = pipeline(
        "automatic-speech-recognition",
        model=model_dir,
        chunk_length_s=chunk_length_s,
        device=DEVICE,
        )
    return model

Amazon SageMaker पर विभिन्न अनुमान विकल्पों की खोज

PyTorch और Hugging Face मॉडल दोनों के लिए अनुमान विकल्प चुनने के चरण समान हैं, इसलिए हम नीचे उनके बीच अंतर नहीं करेंगे। हालाँकि, यह ध्यान देने योग्य है कि, इस पोस्ट को लिखने के समय, सर्वर रहित अनुमान सेजमेकर का विकल्प जीपीयू का समर्थन नहीं करता है, और परिणामस्वरूप, हम इस उपयोग-मामले के लिए इस विकल्प को बाहर कर देते हैं।

वास्तविक समय अनुमान

हम मॉडल को वास्तविक समय के समापन बिंदु के रूप में तैनात कर सकते हैं, जो मिलीसेकंड में प्रतिक्रियाएँ प्रदान करता है। हालाँकि, यह ध्यान रखना महत्वपूर्ण है कि यह विकल्प 6 एमबी से कम के प्रोसेसिंग इनपुट तक सीमित है। हम सीरिएलाइज़र को एक ऑडियो सीरिएलाइज़र के रूप में परिभाषित करते हैं, जो इनपुट डेटा को तैनात मॉडल के लिए उपयुक्त प्रारूप में परिवर्तित करने के लिए जिम्मेदार है। हम अनुमान के लिए एक GPU इंस्टेंस का उपयोग करते हैं, जिससे ऑडियो फ़ाइलों की त्वरित प्रोसेसिंग की अनुमति मिलती है। अनुमान इनपुट एक ऑडियो फ़ाइल है जो स्थानीय रिपॉजिटरी से है।

from sagemaker.serializers import DataSerializer
from sagemaker.deserializers import JSONDeserializer

# Define serializers and deserializer
audio_serializer = DataSerializer(content_type="audio/x-audio")
deserializer = JSONDeserializer()

# Deploy the model for real-time inference
endpoint_name = f'whisper-real-time-endpoint-{id}'

real_time_predictor = whisper_model.deploy(
    initial_instance_count=1,
    instance_type="ml.g4dn.xlarge",
    endpoint_name = endpoint_name,
    serializer=audio_serializer,
    deserializer = deserializer
    )

# Perform real-time inference
audio_path = "sample_audio.wav" 
response = real_time_predictor.predict(data=audio_path)

बैच परिवर्तन कार्य

दूसरा अनुमान विकल्प बैच ट्रांसफॉर्म जॉब है, जो 100 एमबी तक इनपुट पेलोड को संसाधित करने में सक्षम है। हालाँकि, इस विधि में कुछ मिनट का विलंब हो सकता है। प्रत्येक इंस्टेंस एक समय में केवल एक बैच अनुरोध को संभाल सकता है, और इंस्टेंस की शुरुआत और शटडाउन के लिए भी कुछ मिनटों की आवश्यकता होती है। अनुमान परिणाम अमेज़ॅन सिंपल स्टोरेज सर्विस में सहेजे जाते हैं (अमेज़न S3) बैच ट्रांसफ़ॉर्म कार्य पूरा होने पर बकेट।

बैच ट्रांसफार्मर को कॉन्फ़िगर करते समय, शामिल करना सुनिश्चित करें max_payload = 100 बड़े पेलोड को प्रभावी ढंग से संभालने के लिए। अनुमान इनपुट किसी ऑडियो फ़ाइल के लिए Amazon S3 पथ या Amazon S3 बकेट फ़ोल्डर होना चाहिए जिसमें ऑडियो फ़ाइलों की सूची हो, जिनमें से प्रत्येक का आकार 100 एमबी से छोटा हो।

बैच ट्रांसफॉर्म कुंजी द्वारा इनपुट में अमेज़ॅन एस 3 ऑब्जेक्ट्स को विभाजित करता है और अमेज़ॅन एस 3 ऑब्जेक्ट्स को उदाहरणों में मैप करता है। उदाहरण के लिए, जब आपके पास कई ऑडियो फ़ाइलें होती हैं, तो एक इंस्टेंस इनपुट1.wav को प्रोसेस कर सकता है, और दूसरा इंस्टेंस स्केलेबिलिटी बढ़ाने के लिए इनपुट2.wav नाम की फ़ाइल को प्रोसेस कर सकता है। बैच ट्रांसफ़ॉर्म आपको कॉन्फ़िगर करने की अनुमति देता है max_concurrent_transforms प्रत्येक व्यक्तिगत ट्रांसफार्मर कंटेनर में किए गए HTTP अनुरोधों की संख्या बढ़ाने के लिए। हालाँकि, यह ध्यान रखना महत्वपूर्ण है कि (max_concurrent_transforms* max_payload) 100 एमबी से अधिक नहीं होना चाहिए।

# Create a transformer
whisper_transformer = whisper_model.transformer(
    instance_count = 1,
    instance_type = "ml.g4dn.xlarge", 
    output_path="s3://{}/{}/batch-transform/".format(bucket, prefix),
    max_payload = 100
)
# Start batch transform job
whisper_transformer.transform(data = data, job_name= job_name, wait = False)

अतुल्यकालिक अनुमान

अंत में, अमेज़ॅन सेजमेकर एसिंक्रोनस इंट्रेंस एक साथ कई अनुरोधों को संसाधित करने, मध्यम विलंबता की पेशकश करने और 1 जीबी तक के इनपुट पेलोड का समर्थन करने के लिए आदर्श है। यह विकल्प उत्कृष्ट स्केलेबिलिटी प्रदान करता है, जो एंडपॉइंट के लिए ऑटोस्केलिंग समूह के कॉन्फ़िगरेशन को सक्षम करता है। जब अनुरोधों में वृद्धि होती है, तो ट्रैफ़िक को संभालने के लिए यह स्वचालित रूप से बढ़ जाता है, और एक बार सभी अनुरोध संसाधित हो जाने पर, लागत बचाने के लिए समापन बिंदु 0 तक कम हो जाता है।

एसिंक्रोनस अनुमान का उपयोग करके, परिणाम स्वचालित रूप से अमेज़ॅन S3 बकेट में सहेजे जाते हैं। में AsyncInferenceConfig, आप सफल या असफल पूर्णताओं के लिए सूचनाएं कॉन्फ़िगर कर सकते हैं। इनपुट पथ ऑडियो फ़ाइल के Amazon S3 स्थान की ओर इंगित करता है। अतिरिक्त विवरण के लिए, कृपया कोड देखें GitHub.

from sagemaker.async_inference import AsyncInferenceConfig

# Create an AsyncInferenceConfig object
async_config = AsyncInferenceConfig(
    output_path=f"s3://{bucket}/{prefix}/output", 
    max_concurrent_invocations_per_instance = 4,
    # notification_config = {
            #   "SuccessTopic": "arn:aws:sns:us-east-2:123456789012:MyTopic",
            #   "ErrorTopic": "arn:aws:sns:us-east-2:123456789012:MyTopic",
    #}, #  Notification configuration 
)

# Deploy the model for async inference
endpoint_name = f'whisper-async-endpoint-{id}'
async_predictor = whisper_model.deploy(
    async_inference_config=async_config,
    initial_instance_count=1, 
    instance_type ='ml.g4dn.xlarge',
    endpoint_name = endpoint_name
)

# Perform async inference
initial_args = {'ContentType':"audio/x-audio"}
response = async_predictor.predict_async(initial_args = initial_args, input_path=input_path)

वैकल्पिक: जैसा कि पहले उल्लेख किया गया है, हमारे पास अतुल्यकालिक अनुमान समापन बिंदु के लिए एक ऑटोस्केलिंग समूह को कॉन्फ़िगर करने का विकल्प है, जो इसे अनुमान अनुरोधों में अचानक वृद्धि को संभालने की अनुमति देता है। इसमें एक कोड उदाहरण दिया गया है गिटहब भंडार. निम्नलिखित आरेख में, आप दो मीट्रिक प्रदर्शित करने वाला एक लाइन चार्ट देख सकते हैं अमेज़ॅन क्लाउडवॉच: ApproximateBacklogSize और ApproximateBacklogSizePerInstance. प्रारंभ में, जब 1000 अनुरोध ट्रिगर किए गए थे, तो अनुमान को संभालने के लिए केवल एक उदाहरण उपलब्ध था। तीन मिनट के लिए, बैकलॉग का आकार लगातार तीन से अधिक हो गया (कृपया ध्यान दें कि इन नंबरों को कॉन्फ़िगर किया जा सकता है), और ऑटोस्केलिंग समूह ने बैकलॉग को कुशलतापूर्वक साफ़ करने के लिए अतिरिक्त उदाहरणों को स्पिन करके प्रतिक्रिया दी। इसके परिणामस्वरूप इसमें उल्लेखनीय कमी आई ApproximateBacklogSizePerInstance, प्रारंभिक चरण की तुलना में बैकलॉग अनुरोधों को बहुत तेजी से संसाधित करने की अनुमति देता है।

चित्र 2. अमेज़ॅन क्लाउडवॉच मेट्रिक्स में अस्थायी परिवर्तनों को दर्शाने वाला लाइन चार्ट

अनुमान विकल्पों के लिए तुलनात्मक विश्लेषण

विभिन्न अनुमान विकल्पों की तुलना सामान्य ऑडियो प्रोसेसिंग उपयोग मामलों पर आधारित है। वास्तविक समय अनुमान सबसे तेज़ अनुमान गति प्रदान करता है लेकिन पेलोड आकार को 6 एमबी तक सीमित रखता है। यह अनुमान प्रकार ऑडियो कमांड सिस्टम के लिए उपयुक्त है, जहां उपयोगकर्ता वॉयस कमांड या बोले गए निर्देशों का उपयोग करके डिवाइस या सॉफ़्टवेयर को नियंत्रित या इंटरैक्ट करते हैं। ध्वनि आदेश आम तौर पर आकार में छोटे होते हैं, और कम अनुमान विलंबता यह सुनिश्चित करने के लिए महत्वपूर्ण है कि लिखित आदेश तुरंत बाद की कार्रवाइयों को ट्रिगर कर सकें। बैच ट्रांसफ़ॉर्म निर्धारित ऑफ़लाइन कार्यों के लिए आदर्श है, जब प्रत्येक ऑडियो फ़ाइल का आकार 100 एमबी से कम होता है, और तेज़ अनुमान प्रतिक्रिया समय के लिए कोई विशिष्ट आवश्यकता नहीं होती है। अतुल्यकालिक अनुमान 1 जीबी तक के अपलोड की अनुमति देता है और मध्यम अनुमान विलंबता प्रदान करता है। यह अनुमान प्रकार फिल्मों, टीवी श्रृंखलाओं और रिकॉर्ड किए गए सम्मेलनों को ट्रांसक्रिप्ट करने के लिए उपयुक्त है जहां बड़ी ऑडियो फ़ाइलों को संसाधित करने की आवश्यकता होती है।

वास्तविक समय और अतुल्यकालिक अनुमान विकल्प दोनों ऑटोस्केलिंग क्षमताएं प्रदान करते हैं, जिससे अनुरोधों की मात्रा के आधार पर एंडपॉइंट इंस्टेंस को स्वचालित रूप से ऊपर या नीचे स्केल करने की अनुमति मिलती है। बिना अनुरोध वाले मामलों में, ऑटोस्केलिंग अनावश्यक उदाहरणों को हटा देती है, जिससे आपको प्रावधानित उदाहरणों से जुड़ी लागतों से बचने में मदद मिलती है जो सक्रिय रूप से उपयोग में नहीं हैं। हालाँकि, वास्तविक समय के अनुमान के लिए, कम से कम एक निरंतर उदाहरण को बरकरार रखा जाना चाहिए, जिससे समापन बिंदु लगातार संचालित होने पर उच्च लागत हो सकती है। इसके विपरीत, अतुल्यकालिक अनुमान उपयोग में न होने पर इंस्टेंस वॉल्यूम को 0 तक कम करने की अनुमति देता है। बैच ट्रांसफॉर्म जॉब को कॉन्फ़िगर करते समय, जॉब को प्रोसेस करने के लिए कई इंस्टेंस का उपयोग करना और एक इंस्टेंस को कई अनुरोधों को संभालने में सक्षम करने के लिए max_concurrent_transforms को समायोजित करना संभव है। इसलिए, सभी तीन अनुमान विकल्प बड़ी मापनीयता प्रदान करते हैं।

सफाई करना

एक बार जब आप समाधान का उपयोग पूरा कर लें, तो अतिरिक्त लागत से बचने के लिए सेजमेकर एंडपॉइंट को हटाना सुनिश्चित करें। आप क्रमशः वास्तविक समय और अतुल्यकालिक अनुमान समापन बिंदुओं को हटाने के लिए दिए गए कोड का उपयोग कर सकते हैं।

# Delete real-time inference endpoint
real_time_predictor.delete_endpoint()

# Delete asynchronous inference endpoint
async_predictor.delete_endpoint()

निष्कर्ष

इस पोस्ट में, हमने आपको दिखाया कि कैसे विभिन्न उद्योगों में ऑडियो प्रोसेसिंग के लिए मशीन लर्निंग मॉडल तैनात करना आवश्यक हो गया है। व्हिस्पर मॉडल को एक उदाहरण के रूप में लेते हुए, हमने प्रदर्शित किया कि कैसे PyTorch या हगिंग फेस दृष्टिकोण का उपयोग करके Amazon SageMaker पर ओपन-सोर्स ASR मॉडल होस्ट किया जाए। अन्वेषण में अमेज़ॅन सेजमेकर पर विभिन्न अनुमान विकल्प शामिल थे, जो ऑडियो डेटा को कुशलतापूर्वक संभालने, भविष्यवाणियां करने और लागतों को प्रभावी ढंग से प्रबंधित करने में अंतर्दृष्टि प्रदान करते थे। इस पोस्ट का उद्देश्य ऑडियो-संबंधित कार्यों के लिए व्हिस्पर मॉडल का लाभ उठाने और अनुमान रणनीतियों पर सूचित निर्णय लेने में रुचि रखने वाले शोधकर्ताओं, डेवलपर्स और डेटा वैज्ञानिकों के लिए ज्ञान प्रदान करना है।

सेजमेकर पर मॉडल तैनात करने के बारे में अधिक विस्तृत जानकारी के लिए, कृपया इसे देखें डेवलपर गाइड. इसके अतिरिक्त, व्हिस्पर मॉडल को सेजमेकर जम्पस्टार्ट का उपयोग करके तैनात किया जा सकता है। अतिरिक्त विवरण के लिए, कृपया जाँच करें स्वचालित वाक् पहचान के लिए व्हिस्पर मॉडल अब अमेज़न सेजमेकर जम्पस्टार्ट में उपलब्ध हैं पद।

बेझिझक इस प्रोजेक्ट के लिए नोटबुक और कोड देखें GitHub और अपनी टिप्पणी हमारे साथ साझा करें।

लेखक के बारे में

यिंग होउ, पीएचडी, AWS में मशीन लर्निंग प्रोटोटाइपिंग आर्किटेक्ट हैं। उनकी रुचि के प्राथमिक क्षेत्रों में जेनएआई, कंप्यूटर विजन, एनएलपी और समय श्रृंखला डेटा भविष्यवाणी पर ध्यान देने के साथ डीप लर्निंग शामिल है। अपने खाली समय में, वह अपने परिवार के साथ अच्छे पल बिताना, उपन्यासों में डूबना और यूके के राष्ट्रीय उद्यानों में घूमना पसंद करती हैं।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/host-the-whisper-model-on-amazon-sagemaker-exploring-inference-options/

समय टिकट: जनवरी ७,२०२१

समय टिकट: अगस्त 7, 2023

प्लेटो द्वारा पुनर्प्रकाशित

Amazon SageMaker JumpStart | पर बड़े भाषा मॉडल के साथ एक सर्वर रहित मीटिंग सारांश बैकएंड बनाएँ अमेज़न वेब सेवाएँ

अमेज़ॅन सेजमेकर स्टूडियो के साथ बीएमडब्ल्यू ग्रुप में एआई/एमएल विकास में तेजी लाना | अमेज़न वेब सेवाएँ

एनएफएल के नेक्स्ट जेन स्टैट्स में रक्षा कवरेज योजनाओं की पहचान करना

लूप में मानव के साथ स्वचालित खोजपूर्ण डेटा विश्लेषण और मॉडल संचालन ढांचा

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा