نقش نمودارهای دانش سازمانی در LLM

بازنشر افلاطون

دنبال: 0

معرفی

مدل های زبان بزرگ (LLMs) و هوش مصنوعی مولد نشان دهنده یک پیشرفت دگرگون کننده در هوش مصنوعی و پردازش زبان طبیعی است. آنها می توانند زبان انسانی را درک کرده و تولید کنند و محتوایی مانند متن، تصویر، صدا و داده های مصنوعی تولید کنند، که آنها را در کاربردهای مختلف بسیار متنوع می کند. هوش مصنوعی مولد از طریق خودکارسازی و افزایش تولید محتوا، شخصی‌سازی تجربیات کاربر، ساده‌سازی جریان‌های کاری و پرورش خلاقیت، اهمیت بسیار زیادی در برنامه‌های کاربردی دنیای واقعی دارد. در این مطالعه، ما بر روی چگونگی ادغام شرکت‌ها با Open LLM با استفاده از گراف‌های دانش سازمانی تمرکز خواهیم کرد.

اهداف یادگیری

در حین تعامل با سیستم‌های LLM/Gen-AI، دانش مربوط به زمین‌سازی و ساخت سریع را کسب کنید.
درک ارتباط سازمانی Grounding، ارزش تجاری خارج از ادغام با سیستم های باز Gen-AI با یک مثال.
تجزیه و تحلیل دو گراف های دانش راه حل های متضاد زمینی و ذخیره های برداری در جبهه های مختلف و درک اینکه چه زمانی مناسب است.
یک نمونه طراحی سازمانی از زمین‌سازی و ساخت سریع، بهره‌گیری از نمودارهای دانش، یادگیری مدل‌سازی داده‌ها و مدل‌سازی نمودار در JAVA برای سناریوی سفارشی مشتری سفارشی را مطالعه کنید.

این مقاله به عنوان بخشی از بلاگاتون علم داده.

جدول محتوا

مدل های زبان بزرگ چیست؟

مدل زبان بزرگ یک مدل هوش مصنوعی پیشرفته است که با استفاده از تکنیک‌های یادگیری عمیق بر روی مقادیر انبوه داده‌های متنی|بدون ساختار آموزش داده شده است. این مدل‌ها می‌توانند با زبان انسان تعامل داشته باشند، متن، تصاویر و صداهایی شبیه انسان تولید کنند و کارهای مختلفی را انجام دهند. پردازش زبان طبیعی وظایف.

در مقابل، تعریف یک مدل زبان به تخصیص احتمالات به دنباله‌ای از کلمات بر اساس تجزیه و تحلیل اجزای متن اشاره دارد. یک مدل زبان می تواند از مدل های ساده n-gram تا مدل های شبکه عصبی پیچیده تر متفاوت باشد. با این حال، اصطلاح "مدل زبان بزرگ" معمولاً به مدل هایی اطلاق می شود که از تکنیک های یادگیری عمیق استفاده می کنند و دارای تعداد زیادی پارامتر هستند که می تواند از میلیون ها تا میلیاردها متغیر باشد. این مدل‌ها می‌توانند الگوهای پیچیده زبان را به تصویر بکشند و متنی را تولید کنند که اغلب غیرقابل تشخیص از نوشته‌های انسان است.

Prompt چیست؟

یک پیام برای هر LLM یا یک سیستم هوش مصنوعی چت بات مشابه، ورودی یا پیامی مبتنی بر متن است که شما برای شروع مکالمه یا تعامل با هوش مصنوعی ارائه می‌دهید. LLM ها همه کاره هستند، با طیف گسترده ای از داده های بزرگ آموزش دیده اند و می توانند برای کارهای مختلف استفاده شوند. از این رو، زمینه، دامنه، کیفیت و وضوح درخواست شما به طور قابل توجهی بر پاسخ هایی که از سیستم های LLM دریافت می کنید تأثیر می گذارد.

Grounding/RAG چیست؟

زمینه سازی، AKA Retrieval-Augmented Generation (RAG)، در زمینه پردازش LLM زبان طبیعی، به غنی سازی اعلان با زمینه، فراداده اضافی و دامنه ای اشاره دارد که برای بهبود و بازیابی پاسخ های متناسب و دقیق تر در اختیار LLM ها قرار می دهیم. این اتصال به سیستم‌های هوش مصنوعی کمک می‌کند تا داده‌ها را به‌گونه‌ای تفسیر و تفسیر کنند که با محدوده و زمینه مورد نیاز هماهنگ باشد. تحقیقات روی LLM ها نشان می دهد که کیفیت پاسخ آنها به کیفیت اعلان بستگی دارد.

این یک مفهوم اساسی در هوش مصنوعی است، زیرا شکاف بین داده‌های خام و توانایی هوش مصنوعی برای پردازش و تفسیر آن داده‌ها را به گونه‌ای که با درک انسان و زمینه محدوده‌ای سازگار باشد، پر می‌کند. کیفیت و قابلیت اطمینان سیستم های هوش مصنوعی و توانایی آنها در ارائه اطلاعات یا پاسخ های دقیق و مفید را افزایش می دهد.

معایب LLM چیست؟

مدل‌های زبان بزرگ (LLM)، مانند GPT-3، در برنامه‌های مختلف مورد توجه و استفاده قرار گرفته‌اند، اما دارای معایب یا معایبی نیز هستند. برخی از معایب اصلی LLM عبارتند از:

1. تعصب و انصاف: LLM ها اغلب سوگیری ها را از داده های آموزشی به ارث می برند. این می تواند منجر به تولید محتوای مغرضانه یا تبعیض آمیز شود که می تواند کلیشه های مضر را تقویت کند و تعصبات موجود را تداوم بخشد.

2. هذیان ها: LLM ها واقعاً محتوایی را که تولید می کنند درک نمی کنند. آنها متن را بر اساس الگوهای موجود در داده های آموزشی تولید می کنند. این بدان معناست که آنها می توانند اطلاعات واقعی نادرست یا بی معنی را تولید کنند و آنها را برای کاربردهای مهم مانند تشخیص پزشکی یا مشاوره حقوقی نامناسب می کند.

3. منابع محاسباتی: آموزش و اجرای LLM به منابع محاسباتی عظیمی از جمله سخت افزارهای تخصصی مانند GPU و TPU نیاز دارد. این امر باعث می شود توسعه و نگهداری آنها هزینه بر باشد.

4. حریم خصوصی و امنیت داده ها: LLM ها می توانند محتوای جعلی متقاعد کننده، از جمله متن، تصاویر و صدا تولید کنند. این امر حریم خصوصی و امنیت داده ها را به خطر می اندازد، زیرا می توان از آنها برای ایجاد محتوای تقلبی یا جعل هویت افراد سوء استفاده کرد.

5. نکات اخلاقی: استفاده از LLM ها در برنامه های مختلف، مانند دیپ فیک یا تولید محتوای خودکار، سؤالات اخلاقی را در مورد پتانسیل سوء استفاده و تأثیر آنها بر جامعه ایجاد می کند.

6. چالش های نظارتی: توسعه سریع فناوری LLM از چارچوب های نظارتی پیشی گرفته است و ایجاد دستورالعمل ها و مقررات مناسب برای رسیدگی به خطرات و چالش های بالقوه مرتبط با LLM را به چالش می کشد.

توجه به این نکته مهم است که بسیاری از این معایب ذاتی LLM نیستند، بلکه نشان دهنده نحوه توسعه، استقرار و استفاده از آنها هستند. تلاش ها برای کاهش این اشکالات و مسئولیت پذیرتر و مفیدتر کردن LLM ها برای جامعه ادامه دارد. اینجا جایی است که می توان از زمین و پوشاندن استفاده کرد و مزیت بزرگی برای شرکت ها داشت.

ارتباط سازمانی با زمین

شرکت‌ها برای القای مدل‌های زبان بزرگ (LLM) به برنامه‌های کاربردی حیاتی خود پیشرفت می‌کنند. آنها ارزش بالقوه ای را که LLM ها می توانند در حوزه های مختلف سود ببرند، درک می کنند. ساخت LLM، پیش آموزش و تنظیم دقیق آنها برای آنها بسیار گران و دست و پا گیر است. در عوض، آنها می‌توانند از سیستم‌های هوش مصنوعی باز موجود در صنعت با اتصال به زمین و پوشاندن درخواست‌های مربوط به موارد استفاده سازمانی استفاده کنند.

از این رو، گراندینگ یک ملاحظات پیشرو برای شرکت ها است و برای آنها هم در بهبود کیفیت پاسخ ها و هم برای غلبه بر نگرانی توهمات، امنیت داده ها و انطباق، مرتبط تر و مفیدتر است، زیرا می تواند ارزش تجاری شگفت انگیز را از فضای باز خارج کند. LLM های موجود در بازار برای موارد استفاده متعددی که امروزه با چالش خودکارسازی مواجه هستند.

مزایا برای شرکت ها

چندین مزیت برای شرکت ها برای پیاده سازی زمین با LLM ها وجود دارد:

1. افزایش اعتبار: با حصول اطمینان از اینکه اطلاعات و محتوای تولید شده توسط LLM بر اساس منابع داده تایید شده است، شرکت ها می توانند اعتبار ارتباطات، گزارش ها و محتوای خود را افزایش دهند. این می تواند به ایجاد اعتماد با مشتریان، مشتریان و ذینفعان کمک کند.

2. بهبود تصمیم گیری: در برنامه‌های کاربردی سازمانی، به‌ویژه آن‌هایی که مربوط به تجزیه و تحلیل داده‌ها و پشتیبانی تصمیم‌گیری می‌شوند، استفاده از LLM با پایه داده‌ها می‌تواند بینش قابل اعتمادتری ارائه دهد. این می تواند منجر به تصمیم گیری آگاهانه تر شود که برای برنامه ریزی استراتژیک و رشد کسب و کار بسیار مهم است.

3. پیروی از مقررات: بسیاری از صنایع مشمول الزامات قانونی برای دقت و انطباق داده ها هستند. پایه گذاری داده ها با LLM می تواند به رعایت این استانداردهای انطباق کمک کند و خطر مسائل قانونی یا نظارتی را کاهش دهد.

4. تولید محتوای با کیفیت: LLM ها اغلب در تولید محتوا مانند بازاریابی، پشتیبانی مشتری و توضیحات محصول استفاده می شوند. زمینه سازی داده ها تضمین می کند که محتوای تولید شده از نظر واقعی درست است و خطر انتشار اطلاعات نادرست یا گمراه کننده یا توهم را کاهش می دهد.

5. کاهش اطلاعات نادرست: در عصر اخبار جعلی و اطلاعات نادرست، پایه داده‌ها می‌تواند به شرکت‌ها کمک کند با اطمینان از اینکه محتوایی که تولید می‌کنند یا به اشتراک می‌گذارند مبتنی بر منابع داده معتبر است، با انتشار اطلاعات نادرست مبارزه کنند.

6. رضایت مشتری: ارائه اطلاعات دقیق و قابل اعتماد به مشتریان می تواند رضایت و اعتماد آنها را نسبت به محصولات یا خدمات شرکت افزایش دهد.

7. کاهش خطر: پایه داده ها می تواند به کاهش خطر تصمیم گیری بر اساس اطلاعات نادرست یا ناقص کمک کند، که می تواند منجر به آسیب مالی یا اعتبار شود.

مثال: سناریوی توصیه محصول مشتری

بیایید ببینیم که چگونه زمین‌گذاری داده می‌تواند به یک مورد استفاده سازمانی با استفاده از openAI chatGPT کمک کند

دستورات اساسی

Generate a short email adding coupons on recommended products to customer

پاسخ ایجاد شده توسط ChatGPT بسیار عمومی، غیر متنی و خام است. این باید به‌صورت دستی با داده‌های مشتری سازمانی مناسب به‌روزرسانی/نقشه‌گذاری شود که گران است. بیایید ببینیم که چگونه می توان این را با تکنیک های زمینی داده ها خودکار کرد.

فرض کنید شرکت در حال حاضر اطلاعات مشتریان سازمانی و یک سیستم توصیه هوشمند را در اختیار دارد که می تواند کوپن ها و توصیه هایی را برای مشتریان ایجاد کند. ما به خوبی می‌توانیم درخواست فوق را با غنی‌سازی آن با ابرداده مناسب، پایه‌گذاری کنیم تا متن ایمیل ایجاد شده از chatGPT دقیقاً همان چیزی باشد که می‌خواهیم باشد و به خوبی می‌تواند برای ارسال ایمیل به مشتری بدون دخالت دستی خودکار شود.

بیایید فرض کنیم موتور زمینی ما ابرداده غنی‌سازی مناسب را از داده‌های مشتری به‌دست می‌آورد و اعلان زیر را به‌روزرسانی می‌کند. بیایید ببینیم که پاسخ ChatGPT برای درخواست زمینی چگونه خواهد بود.

اعلان زمینی

Generate a short email adding below coupons and products to customer Taylor and wish him a Happy holiday season from Team Aatagona, Atagona.com
Winter Jacket Mens - [https://atagona.com/men/winter/jackets/123.html] - 20% off
Rodeo Beanie Men’s - [https://atagona.com/men/winter/beanies/1234.html] - 15% off

پاسخی که با اعلان زمینی ایجاد می‌شود دقیقاً این است که چگونه شرکت می‌خواهد به مشتری اطلاع داده شود. داده های غنی شده مشتری که در پاسخ ایمیل ژنرال هوش مصنوعی گنجانده شده است، اتوماسیونی است که برای افزایش مقیاس و حفظ شرکت ها قابل توجه است.

Enterprise LLM Grounding Solutions for Software Systems

راه‌های متعددی برای زمین‌کردن داده‌ها در سیستم‌های سازمانی وجود دارد، و ترکیبی از این تکنیک‌ها می‌تواند برای زمین‌سازی موثر داده‌ها و تولید سریع خاص به‌کاررفته مورد استفاده قرار گیرد. دو رقیب اصلی به عنوان راه حل های بالقوه برای اجرای بازیابی تولید افزوده (زمین) هستند

داده های کاربردی| نمودارهای دانش
جاسازی های برداری و جستجوی معنایی

استفاده از این راه حل ها به مورد استفاده و زمینی که می خواهید اعمال کنید بستگی دارد. برای مثال، پاسخ‌های ارائه‌شده در ذخیره‌های برداری ممکن است نادرست و مبهم باشد، در حالی که نمودارهای دانش دقیق، دقیق و در قالبی قابل خواندن برای انسان ذخیره می‌شوند.

چند استراتژی دیگر که می تواند در بالای موارد فوق ترکیب شود می تواند باشد

پیوند دادن به APIهای خارجی، موتورهای جستجو
پوشش داده ها و سیستم های پایبندی به انطباق
یکپارچه سازی با سیستم های ذخیره سازی داده داخلی
بیدرنگ یکپارچه سازی داده ها از چندین منبع

در این وبلاگ، بیایید به یک نمونه طراحی نرم افزار در مورد چگونگی دستیابی به نمودارهای داده برنامه های سازمانی نگاه کنیم.

نمودارهای دانش سازمانی

یک نمودار دانش می تواند اطلاعات معنایی موجودیت ها و روابط بین آنها را نشان دهد. در دنیای Enterprise، آنها دانش در مورد مشتریان، محصولات و فراتر از آن را ذخیره می کنند. نمودارهای مشتری سازمانی ابزار قدرتمندی برای زمین‌بندی مؤثر داده‌ها و تولید پیام‌های غنی‌شده خواهد بود. نمودارهای دانش جستجوی مبتنی بر نمودار را فعال می‌کنند و به کاربران اجازه می‌دهند اطلاعات را از طریق مفاهیم و موجودیت‌های مرتبط کاوش کنند، که می‌تواند منجر به نتایج جستجوی دقیق‌تر و متنوع‌تر شود.

مقایسه با پایگاه های داده برداری

انتخاب محلول اتصال به زمین به هر موردی بستگی دارد. با این حال، مزایای متعددی با نمودارها نسبت به بردارهایی مانند وجود دارد

ضوابط	زمین گراف	زمین برداری وکتور
پرس و جوهای تحلیلی	نمودارهای داده برای داده های ساختاریافته و پرس و جوهای تحلیلی مناسب هستند و به دلیل طرح نمودار انتزاعی خود نتایج دقیقی را ارائه می دهند.	ذخیره‌سازی داده‌های برداری ممکن است با پرس و جوهای تحلیلی به خوبی عمل نکنند، زیرا آنها عمدتاً بر روی داده‌های بدون ساختار، جستجوی معنایی با جاسازی‌های برداری کار می‌کنند و به امتیازدهی شباهت متکی هستند.
دقت و اعتبار	نمودارهای دانش از گره ها و روابط برای ذخیره داده ها استفاده می کنند و فقط اطلاعات موجود را برمی گرداند. آنها از نتایج ناقص یا نامربوط اجتناب می کنند.	پایگاه داده های برداری ممکن است نتایج ناقص یا نامربوط را ارائه دهند، عمدتاً به دلیل اتکای آنها به امتیازدهی شباهت و محدودیت های از پیش تعریف شده نتایج.
اصلاح توهمات	نمودارهای دانش با نمایش داده های قابل خواندن توسط انسان شفاف هستند. آنها به شناسایی و تصحیح اطلاعات نادرست، ردیابی مسیر پرس و جو و اصلاح آن کمک می کنند و دقت LLM (مدل زبان بزرگ) را بهبود می بخشند.	پایگاه داده های برداری اغلب به عنوان جعبه های سیاه دیده می شوند که در قالب قابل خواندن ذخیره نمی شوند و ممکن است شناسایی آسان و تصحیح اطلاعات نادرست را تسهیل نکنند.
امنیت و حکومت	نمودارهای دانش کنترل بهتری بر تولید داده، حاکمیت، و رعایت مقررات، از جمله مقرراتی مانند GDPR، ارائه می‌کنند.	پایگاه های داده برداری ممکن است در اعمال محدودیت ها و حاکمیت به دلیل ماهیت غیرشفاف خود با چالش هایی مواجه شوند.

طراحی سطح بالا

اجازه دهید در سطح بسیار بالایی ببینیم که چگونه سیستم می‌تواند به دنبال شرکتی باشد که از نمودارهای دانش و LLM‌های باز برای اتصال به زمین استفاده می‌کند.

لایه پایه جایی است که داده ها و ابرداده های مشتری سازمانی در پایگاه های داده مختلف، انبارهای داده و دریاچه های داده ذخیره می شوند. می تواند سرویسی وجود داشته باشد که نمودارهای دانش داده را از این داده ها بسازد و آن را در یک نمودار db ذخیره کند. در یک دنیای بومی ابری توزیع‌شده می‌توان تعداد زیادی خدمات سازمانی | میکرو سرویس‌ها وجود داشته باشد که با این ذخیره‌گاه‌های داده تعامل داشته باشند. بالاتر از این خدمات می‌تواند برنامه‌های مختلفی باشد که از زیرساخت‌های زیرین استفاده می‌کنند.

برنامه‌ها می‌توانند موارد استفاده متعددی برای تعبیه هوش مصنوعی در سناریوهای خود یا جریان‌های خودکار هوشمند مشتری داشته باشند، که نیاز به تعامل با سیستم‌های هوش مصنوعی داخلی و خارجی دارد. در مورد سناریوهای هوش مصنوعی مولد، بیایید یک مثال ساده از یک گردش کار را در نظر بگیریم که در آن یک شرکت می‌خواهد مشتریان را از طریق ایمیلی هدف قرار دهد که در طول فصل تعطیلات، تخفیف‌هایی برای محصولات پیشنهادی شخصی‌شده ارائه می‌دهد. آنها می توانند با اتوماسیون درجه یک به این هدف برسند و از هوش مصنوعی به طور موثرتری استفاده کنند.

گردش کار

گردش کاری که می‌خواهد ایمیلی ارسال کند، می‌تواند از سیستم‌های باز Gen-AI با ارسال یک اعلان مبتنی بر داده‌های زمینه‌ای مشتری کمک بگیرد.
برنامه گردش کار درخواستی را به سرویس پشتیبان خود ارسال می کند تا متن ایمیل را با استفاده از سیستم های GenAI به دست آورد.
سرویس Backend سرویس را به یک سرویس ژنراتور سریع هدایت می کند که به موتور زمینی هدایت می شود.
موتور زمینی تمام ابرداده های مشتری را از یکی از خدمات خود می گیرد و نمودار دانش اطلاعات مشتری را بازیابی می کند.
موتور زمین گراف را در سراسر گره ها طی می کند و روابط مربوطه اطلاعات نهایی مورد نیاز را استخراج می کند و آن را به مولد سریع ارسال می کند.
مولد اعلان داده‌های زمین‌شده را با یک الگوی از قبل موجود برای مورد استفاده اضافه می‌کند و درخواست زمین‌شده را به سیستم‌های هوش مصنوعی باز که شرکت برای ادغام با آن انتخاب می‌کند می‌فرستد (مثلاً OpenAI/Cohere).
سیستم‌های باز GenAI پاسخ بسیار مرتبط‌تر و مرتبط‌تری را به شرکت باز می‌گردانند که از طریق ایمیل برای مشتری ارسال می‌شود.

بیایید این را به دو بخش تقسیم کنیم و با جزئیات درک کنیم:

1. ایجاد نمودارهای دانش مشتری

طرح زیر با مثال بالا مطابقت دارد، مدل سازی را می توان با توجه به نیاز به روش های مختلفی انجام داد.

مدل سازی داده ها: فرض کنید جداول مختلفی داریم که به عنوان گره در یک گراف مدل شده اند و بین جداول به عنوان روابط بین گره ها به یکدیگر ملحق می شویم. برای مثال بالا، ما نیاز داریم

جدولی که داده های مشتری را نگه می دارد،
جدولی که داده های محصول را نگه می دارد،
جدولی که داده های علاقه مندی مشتری (کلیک ها) را برای توصیه های شخصی نگهداری می کند
جدولی که داده های ProductDiscounts را نگه می دارد

این مسئولیت شرکت است که همه این داده ها را از منابع داده های متعدد دریافت کند و به طور منظم به روز شود تا به طور مؤثر به مشتریان برسد.

بیایید ببینیم چگونه می توان این جداول را مدل سازی کرد و چگونه می توان آنها را به نمودار مشتری تبدیل کرد.

2. مدل سازی نمودار

از تصویرگر نمودار بالا، می‌توانیم ببینیم که گره‌های مشتری چگونه با محصولات مختلف بر اساس داده‌های تعامل کلیک‌ها و بیشتر به گره‌های تخفیف مرتبط هستند. جستجوی نمودارهای مشتری، عبور از این گره ها از طریق روابط، و کسب اطلاعات مورد نیاز در مورد تخفیف های واجد شرایط برای مشتریان مربوطه برای سرویس زمینی آسان است.

یک گره نمودار نمونه و رابطه JAVA POJO برای موارد فوق می تواند شبیه به شکل زیر باشد

public class KnowledgeGraphNode implements Serializable { private final GraphNodeType graphNodeType; private final GraphNode nodeMetadata;
} public interface GraphNode {
} public class CustomerGraphNode implements GraphNode { private final String name; private final String customerId; private final String phone; private final String emailId;
}
public class ClicksGraphNode implements GraphNode { private final String customerId; private final int clicksCount;
} public class ProductGraphNode implements GraphNode { private final String productId; private final String name; private final String category; private final String description; private final int price;
} public class ProductDiscountNode implements GraphNode { private final String discountCouponId; private final int clicksCount; private final String category; private final int discountPercent; private final DateTime startDate; private final DateTime endDate;
}

public class KnowledgeGraphRelationship implements Serializable {  private final RelationshipCardinality Cardinality; } public enum RelationshipCardinality {  ONE_TO_ONE,  ONE_TO_MANY }

یک نمودار خام نمونه در این سناریو می تواند مانند زیر باشد

نمونه نمودار خام | نمودارهای دانش سازمانی

عبور از نمودار از گره مشتری «تیلور ویلیامز» مشکل را برای ما حل می‌کند و توصیه‌های مناسب محصول و تخفیف‌های واجد شرایط را دریافت می‌کند.

3. فروشگاه های محبوب گراف در صنعت

فروشگاه های نمودارهای متعددی در بازار موجود است که می توانند با معماری های سازمانی مناسب باشند. Neo4j، TigerGraph، Amazon Neptune و OrientDB به طور گسترده ای به عنوان پایگاه داده گراف پذیرفته شده اند.

ما پارادایم جدید Graph Data Lakes را معرفی می کنیم که پرس و جوهای نمودار را روی داده های جدولی (داده های ساختاریافته در دریاچه ها، انبارها و دریاچه ها) فعال می کند. این امر با راه‌حل‌های جدید فهرست‌شده در زیر، بدون نیاز به هیدراته کردن یا ماندگاری داده‌ها در انبارهای داده‌های نمودار، با استفاده از Zero-ETL به دست می‌آید.

PuppyGraph (دریاچه داده نمودار)
Timbr.ai

رعایت و ملاحظات اخلاقی

حفاظت از داده ها: شرکت‌ها باید مسئول ذخیره و استفاده از داده‌های مشتری با رعایت GDPR و سایر قوانین PII باشند. داده های ذخیره شده باید قبل از پردازش و استفاده مجدد برای بینش یا به کارگیری هوش مصنوعی کنترل و پاکسازی شوند.

توهم و آشتی: شرکت‌ها همچنین می‌توانند سرویس‌های تطبیقی را اضافه کنند که اطلاعات نادرست در داده‌ها را شناسایی کند، مسیر پرس و جو را ردیابی کند، و اصلاحاتی در آن انجام دهد، که می‌تواند به بهبود دقت LLM کمک کند. با نمودارهای دانش، از آنجایی که داده های ذخیره شده شفاف و قابل خواندن برای انسان هستند، دستیابی به این امر باید نسبتاً آسان باشد.

سیاست های نگهداری محدود: برای رعایت حفاظت از داده‌ها و جلوگیری از سوء استفاده از داده‌های مشتری در هنگام تعامل با سیستم‌های LLM باز، بسیار مهم است که سیاست‌های حفظ صفر داشته باشیم تا سیستم‌های خارجی که با آن‌ها تعامل دارند، داده‌های فوری درخواستی را برای اهداف تحلیلی یا تجاری بیشتر نگهداری نکنند.

نتیجه

در نتیجه، مدل‌های زبان بزرگ (LLM) نشان‌دهنده پیشرفت قابل‌توجهی در هوش مصنوعی و پردازش زبان طبیعی است. آنها می توانند صنایع و کاربردهای مختلف، از درک و تولید زبان طبیعی تا کمک به کارهای پیچیده را تغییر دهند. با این حال، موفقیت و استفاده مسئولانه از LLM ها مستلزم یک پایه و پایه قوی در زمینه های مختلف کلیدی است.

گیرنده های کلیدی

شرکت‌ها می‌توانند در حین استفاده از LLM برای سناریوهای مختلف، از ایجاد زمینه و تحریک مؤثر سود ببرند.
نمودارهای دانش و فروشگاه‌های برداری راه‌حل‌های زمین‌سازی محبوب هستند و انتخاب یکی به هدف راه‌حل بستگی دارد.
نمودارهای دانش می‌توانند اطلاعات دقیق‌تر و قابل اعتمادتری نسبت به فروشگاه‌های برداری داشته باشند، که بدون نیاز به افزودن لایه‌های امنیتی و انطباق اضافی، مزیتی برای موارد استفاده سازمانی می‌دهد.
مدل‌سازی سنتی داده با موجودیت‌ها و روابط را به نمودارهای دانش با گره‌ها و لبه‌ها تبدیل کنید.
نمودارهای دانش سازمانی را با منابع داده های مختلف با شرکت های ذخیره سازی کلان داده موجود ادغام کنید.
نمودارهای دانش برای پرس و جوهای تحلیلی ایده آل هستند. دریاچه‌های داده‌های نموداری، داده‌های جدولی را به عنوان نمودار در ذخیره‌سازی داده‌های سازمانی جستجو می‌کنند.

پرسش و پاسخهای متداول

Q1. مدل زبان بزرگ چیست؟

A. LLM یک الگوریتم هوش مصنوعی است که از تکنیک های DL و مجموعه داده های بسیار بزرگ برای درک، خلاصه کردن، تولید و پیش بینی محتوای جدید استفاده می کند.

Q2. نمودار داده برنامه چیست؟

الف- نمودار داده های کاربردی یک ساختار داده ای است که داده ها را به شکل گره ها و لبه ها ذخیره می کند. آنها را به عنوان روابط بین گره های داده مختلف مدل کنید.

Q3. پایگاه داده برداری چیست؟

الف. یک پایگاه داده برداری داده های بدون ساختار مانند متن، صدا و ویدئو را ذخیره و مدیریت می کند. این در نمایه سازی و بازیابی سریع برای برنامه هایی مانند موتورهای توصیه، یادگیری ماشین و Gen-AI عالی است.

Q4. تعبیه‌ها در فروشگاه وکتور چیست؟

الف. در یک فروشگاه برداری، جاسازی ها نمایش عددی اشیا، کلمات یا نقاط داده در یک فضای برداری با ابعاد بالا هستند. این تعبیه‌ها روابط معنایی و شباهت‌های بین آیتم‌ها را ثبت می‌کنند و تجزیه و تحلیل داده‌ها، جستجوهای شباهت و وظایف یادگیری ماشینی را امکان‌پذیر می‌سازند.

Q5. تفاوت بین داده های ساختاریافته و بدون ساختار چیست؟

الف. داده های ساختاریافته با جداول و طرحواره های تعریف شده به خوبی سازماندهی شده اند. تجزیه و تحلیل داده های بدون ساختار، مانند متن، تصاویر، صدا یا ویدئو به دلیل عدم فرمت آن، دشوارتر است.

رسانه نشان داده شده در این مقاله متعلق به Analytics Vidhya نیست و به صلاحدید نویسنده استفاده می شود.