बड़े भाषा मॉडलों की सुरक्षा और गोपनीयता चुनौतियों से निपटना

बड़े भाषा मॉडलों की सुरक्षा और गोपनीयता चुनौतियों से निपटना

स्रोत नोड: 2969200

व्यावसायिक सुरक्षा

Organizations that intend to tap into the potential of LLMs must also be able to manage the risks that could otherwise erode the technology’s business value

बड़े भाषा मॉडलों की सुरक्षा और गोपनीयता चुनौतियों से निपटना

हर कोई चैटजीपीटी, बार्ड और जेनरेटिव एआई के बारे में बात कर रहा है। लेकिन प्रचार के बाद अनिवार्य रूप से वास्तविकता की जांच आती है। जबकि व्यापार और आईटी नेता समान रूप से ग्राहक सेवा और सॉफ्टवेयर विकास जैसे क्षेत्रों में प्रौद्योगिकी की विघटनकारी क्षमता से उत्साहित हैं, वे कुछ संभावित कमियों और जोखिमों के बारे में भी जागरूक हो रहे हैं जिन पर नजर रखनी चाहिए।

संक्षेप में, संगठनों को बड़े भाषा मॉडल (एलएलएम) की क्षमता का दोहन करने के लिए, उन्हें छिपे हुए जोखिमों का प्रबंधन करने में भी सक्षम होना चाहिए जो अन्यथा प्रौद्योगिकी के व्यावसायिक मूल्य को नष्ट कर सकते हैं।

एलएलएम के साथ क्या डील है?

चैटजीपीटी और अन्य जेनरेटिव एआई उपकरण एलएलएम द्वारा संचालित हैं। वे भारी मात्रा में टेक्स्ट डेटा को संसाधित करने के लिए कृत्रिम तंत्रिका नेटवर्क का उपयोग करके काम करते हैं। शब्दों के बीच के पैटर्न और संदर्भ में उनका उपयोग कैसे किया जाता है, यह सीखने के बाद, मॉडल उपयोगकर्ताओं के साथ प्राकृतिक भाषा में बातचीत करने में सक्षम है। वास्तव में, ChatGPT की असाधारण सफलता का एक मुख्य कारण इसकी चुटकुले सुनाने, कविताएँ लिखने और आम तौर पर इस तरह से संवाद करने की क्षमता है जिसे एक वास्तविक इंसान से अलग करना मुश्किल है।

संबंधित रिपोर्ट: चैटजीपीटी के साथ एक बॉस की तरह लिखना: फ़िशिंग घोटालों का पता लगाने में बेहतर कैसे बनें

एलएलएम-संचालित जेनेरिक एआई मॉडल, जैसा कि चैटजीपीटी जैसे चैटबॉट्स में उपयोग किया जाता है, सुपर-चार्ज सर्च इंजन की तरह काम करते हैं, जिस डेटा पर उन्हें प्रशिक्षित किया गया था उसका उपयोग करके वे सवालों के जवाब देते हैं और मानव-जैसी भाषा के साथ कार्यों को पूरा करते हैं। चाहे वे सार्वजनिक रूप से उपलब्ध मॉडल हों या किसी संगठन के भीतर आंतरिक रूप से उपयोग किए जाने वाले मालिकाना मॉडल हों, एलएलएम-आधारित जेनरेटर एआई कंपनियों को कुछ सुरक्षा और गोपनीयता जोखिमों में उजागर कर सकता है।

प्रमुख एलएलएम जोखिमों में से 5

1. संवेदनशील डेटा को ओवरशेयर करना

एलएलएम-आधारित चैटबॉट रहस्य रखने या उन्हें भूलने में अच्छे नहीं हैं। इसका मतलब है कि आपके द्वारा टाइप किया गया कोई भी डेटा मॉडल द्वारा अवशोषित किया जा सकता है और दूसरों को उपलब्ध कराया जा सकता है या कम से कम भविष्य के एलएलएम मॉडल को प्रशिक्षित करने के लिए उपयोग किया जा सकता है। सैमसंग कर्मचारी उन्हें इसकी कीमत तब पता चली जब उन्होंने काम से संबंधित कार्यों के लिए इसका उपयोग करते समय चैटजीपीटी के साथ गोपनीय जानकारी साझा की। टूल में दर्ज किया गया कोड और मीटिंग रिकॉर्डिंग सैद्धांतिक रूप से सार्वजनिक डोमेन में हो सकती है (या कम से कम भविष्य में उपयोग के लिए संग्रहीत की जा सकती है, जैसा कि यूनाइटेड किंगडम के राष्ट्रीय साइबर सुरक्षा केंद्र द्वारा बताया गया हाल ही में)। इस साल की शुरुआत में, हमने इस बात पर करीब से नज़र डाली कि संगठन कैसे कर सकते हैं एलएलएम का उपयोग करते समय अपने डेटा को जोखिम में डालने से बचें.

2. कॉपीराइट चुनौतियां  

एलएलएम को बड़ी मात्रा में डेटा पर प्रशिक्षित किया जाता है। लेकिन वह जानकारी अक्सर सामग्री स्वामी की स्पष्ट अनुमति के बिना, वेब से हटा दी जाती है। यदि आप इसका उपयोग जारी रखते हैं तो यह संभावित कॉपीराइट समस्याएं पैदा कर सकता है। हालाँकि, विशिष्ट प्रशिक्षण डेटा के मूल स्रोत को ढूंढना मुश्किल हो सकता है, जिससे इन मुद्दों को कम करना चुनौतीपूर्ण हो जाता है।

3. असुरक्षित कोड

डेवलपर्स तेजी से चैटजीपीटी और इसी तरह के टूल की ओर रुख कर रहे हैं ताकि उन्हें बाजार में तेजी लाने में मदद मिल सके। सिद्धांत रूप में यह कोड स्निपेट और यहां तक ​​कि संपूर्ण सॉफ्टवेयर प्रोग्राम को जल्दी और कुशलता से उत्पन्न करके मदद कर सकता है। हालाँकि, सुरक्षा विशेषज्ञों ने चेतावनी दी है कि यह कमजोरियाँ भी उत्पन्न कर सकता है। यह एक विशेष चिंता का विषय है यदि डेवलपर के पास यह जानने के लिए पर्याप्त डोमेन ज्ञान नहीं है कि कौन से बग को देखना है। यदि खराब कोड बाद में उत्पादन में चला जाता है, तो इसका प्रतिष्ठा पर गंभीर प्रभाव पड़ सकता है और इसे ठीक करने के लिए समय और धन की आवश्यकता हो सकती है।

4. एलएलएम को ही हैक करना

एलएलएम तक अनधिकृत पहुंच और छेड़छाड़ से हैकर्स को दुर्भावनापूर्ण गतिविधियां करने के लिए कई विकल्प मिल सकते हैं, जैसे मॉडल को शीघ्र इंजेक्शन हमलों के माध्यम से संवेदनशील जानकारी प्रकट करना या अन्य क्रियाएं करना जिन्हें अवरुद्ध किया जाना चाहिए। अन्य हमलों में एलएलएम सर्वर में सर्वर-साइड रिक्वेस्ट जालसाजी (एसएसआरएफ) कमजोरियों का शोषण शामिल हो सकता है, जिससे हमलावर आंतरिक संसाधनों को निकालने में सक्षम हो सकते हैं। ख़तरे में डालने वाले कलाकार प्राकृतिक भाषा संकेतों के माध्यम से दुर्भावनापूर्ण आदेश भेजकर गोपनीय प्रणालियों और संसाधनों के साथ बातचीत करने का एक तरीका भी खोज सकते हैं।

संबंधित रिपोर्ट: ब्लैक हैट 2023: एआई को मिली बड़ी डिफेंडर पुरस्कार राशि

उदाहरण के तौर पर, चैटजीपीटी ऑफलाइन लेना पड़ा मार्च में एक भेद्यता की खोज के बाद जिसने कुछ उपयोगकर्ताओं के वार्तालाप इतिहास के शीर्षकों को अन्य उपयोगकर्ताओं के सामने उजागर कर दिया। एलएलएम अनुप्रयोगों में कमजोरियों के बारे में जागरूकता बढ़ाने के लिए, ओडब्ल्यूएएसपी फाउंडेशन ने हाल ही में एक सूची जारी की है 10 महत्वपूर्ण सुरक्षा खामियाँ आमतौर पर इन अनुप्रयोगों में देखा जाता है।

5. एआई प्रदाता पर डेटा उल्लंघन

इस बात की हमेशा संभावना रहती है कि एआई मॉडल विकसित करने वाली कंपनी में ही सेंध लगाई जा सकती है, जिससे हैकर्स, उदाहरण के लिए, प्रशिक्षण डेटा चुरा सकते हैं जिसमें संवेदनशील मालिकाना जानकारी शामिल हो सकती है। डेटा लीक के लिए भी यही सच है - जैसे कि जब Google अनजाने में लीक हो गया था निजी बार्ड चैट लीक करना इसके खोज परिणामों में।

आगे क्या करना है

यदि आपका संगठन प्रतिस्पर्धात्मक लाभ के लिए जेनरेटिव एआई की क्षमता का दोहन शुरू करने का इच्छुक है, तो कुछ चीजें हैं जो उसे इनमें से कुछ जोखिमों को कम करने के लिए पहले करनी चाहिए:

  • डेटा एन्क्रिप्शन और गुमनामीकरण: डेटा को चुभती नज़रों से सुरक्षित रखने के लिए एलएलएम के साथ साझा करने से पहले उसे एन्क्रिप्ट करें, और/या डेटासेट में पहचाने जा सकने वाले व्यक्तियों की गोपनीयता की रक्षा के लिए अज्ञातीकरण तकनीकों पर विचार करें। मॉडल में फीड किए जाने से पहले प्रशिक्षण डेटा से संवेदनशील विवरण हटाकर डेटा सैनिटाइजेशन उसी लक्ष्य को प्राप्त कर सकता है।
  • उन्नत पहुँच नियंत्रण: मजबूत पासवर्ड, मल्टी-फैक्टर ऑथेंटिकेशन (एमएफए) और कम से कम विशेषाधिकार वाली नीतियां यह सुनिश्चित करने में मदद करेंगी कि केवल अधिकृत व्यक्तियों के पास जेनरेटर एआई मॉडल और बैक-एंड सिस्टम तक पहुंच है।
  • नियमित सुरक्षा ऑडिट: यह आपके आईटी सिस्टम में कमजोरियों को उजागर करने में मदद कर सकता है जो एलएलएम और जेनरेटिव एआई मॉडल को प्रभावित कर सकता है जिस पर इसे बनाया गया है।
  • घटना प्रतिक्रिया योजनाओं का अभ्यास करें: एक अच्छी तरह से पूर्वाभ्यास की गई और ठोस आईआर योजना आपके संगठन को किसी भी उल्लंघन को रोकने, सुधारने और उससे उबरने के लिए तेजी से प्रतिक्रिया देने में मदद करेगी।
  • एलएलएम प्रदाताओं की गहन जांच करें: किसी भी आपूर्तिकर्ता के लिए, यह सुनिश्चित करना महत्वपूर्ण है कि एलएलएम प्रदान करने वाली कंपनी डेटा सुरक्षा और गोपनीयता के संबंध में उद्योग की सर्वोत्तम प्रथाओं का पालन करती है। सुनिश्चित करें कि उपयोगकर्ता डेटा को कहां संसाधित और संग्रहीत किया जाता है, और क्या इसका उपयोग मॉडल को प्रशिक्षित करने के लिए किया जाता है, इसका स्पष्ट खुलासा हो। इसे कब तक रखा जाता है? क्या इसे तीसरे पक्ष के साथ साझा किया गया है? क्या आप प्रशिक्षण के लिए उपयोग किए जा रहे अपने डेटा को अंदर/बाहर करने का विकल्प चुन सकते हैं?
  • सुनिश्चित करें कि डेवलपर्स सख्त सुरक्षा दिशानिर्देशों का पालन करें: यदि आपके डेवलपर कोड उत्पन्न करने के लिए एलएलएम का उपयोग कर रहे हैं, तो सुनिश्चित करें कि वे उत्पादन में आने वाले बग के जोखिम को कम करने के लिए सुरक्षा परीक्षण और सहकर्मी समीक्षा जैसी नीति का पालन करते हैं।

अच्छी ख़बर यह है कि पहिये को दोबारा बनाने की कोई ज़रूरत नहीं है। उपरोक्त में से अधिकांश आजमाई हुई और परखी हुई सर्वोत्तम अभ्यास सुरक्षा युक्तियाँ हैं। उन्हें एआई दुनिया के लिए अपडेट/ट्वीकिंग की आवश्यकता हो सकती है, लेकिन अंतर्निहित तर्क से अधिकांश सुरक्षा टीमों को परिचित होना चाहिए।

अन्य कारोबार: ए बार्ड्स टेल - कैसे नकली एआई बॉट मैलवेयर इंस्टॉल करने का प्रयास करते हैं

समय टिकट:

से अधिक हम सुरक्षा जीते हैं