مقدمه ای بر محاسبات ابری برای علم داده - KDnuggets

مقدمه ای بر رایانش ابری برای علم داده – KDnuggets

گره منبع: 2906482

مقدمه ای بر رایانش ابری برای علم داده
تصویر ستارگان
 

در دنیای امروز، دو نیروی اصلی به عنوان تغییر دهنده بازی ظاهر شده اند: 

علم داده و رایانش ابری. 

دنیایی را تصور کنید که در آن حجم عظیمی از داده ها در هر ثانیه تولید می شود. 

خب... لازم نیست تصور کنید... این دنیای ماست!

از تعاملات رسانه های اجتماعی گرفته تا تراکنش های مالی، از سوابق مراقبت های بهداشتی تا اولویت های تجارت الکترونیک، داده ها در همه جا وجود دارد. 

اما اگر نتوانیم ارزش را بدست آوریم، این داده ها چه فایده ای دارند؟ 

این دقیقاً همان کاری است که Data Science انجام می دهد. 

و این داده ها را کجا ذخیره، پردازش و تجزیه و تحلیل می کنیم؟ 

اینجاست که Cloud Computing می درخشد. 

بیایید سفری را برای درک رابطه درهم تنیده بین این دو شگفتی تکنولوژیک آغاز کنیم. 

بیایید (تلاش کنیم) همه را با هم کشف کنیم! 

علم داده؟-?هنر ترسیم بینش

علم داده هنر و علم استخراج بینش معنادار از داده های وسیع و متنوع است.

این ترکیبی از تخصص از حوزه های مختلف مانند آمار و یادگیری ماشین برای تفسیر داده ها و تصمیم گیری آگاهانه است.

با انفجار داده ها، نقش دانشمندان داده در تبدیل داده های خام به طلا بسیار مهم شده است.

رایانش ابری؟ - انقلاب ذخیره سازی دیجیتال

رایانش ابری به ارائه خدمات محاسباتی بر اساس تقاضا از طریق اینترنت اشاره دارد.

چه به ذخیره‌سازی، قدرت پردازش یا سرویس‌های پایگاه داده نیاز داشته باشیم، Cloud Computing یک محیط انعطاف‌پذیر و مقیاس‌پذیر را برای کسب‌وکارها و متخصصان ارائه می‌دهد تا بدون هزینه‌های سربار حفظ زیرساخت‌های فیزیکی کار کنند.

با این حال، بیشتر شما باید به این فکر کنید که چرا آنها با هم مرتبط هستند؟

برگردیم به اول…

دو دلیل اصلی وجود دارد که چرا رایانش ابری به عنوان یک مؤلفه محوری؟-?یا مکمل-?-?-?-?-?در علم داده پدیدار شده است.

#1. نیاز ضروری به همکاری

در ابتدای سفر علم داده، متخصصان داده های جوان معمولاً با راه اندازی پایتون و R در رایانه های شخصی خود شروع به کار می کنند. پس از آن، آنها کد را با استفاده از یک محیط توسعه یکپارچه محلی (IDE) مانند Jupyter Notebook Application یا RStudio می نویسند و اجرا می کنند.

با این حال، با گسترش تیم‌های علم داده و رایج‌تر شدن تحلیل‌های پیشرفته، تقاضا برای ابزارهای مشارکتی برای ارائه بینش، تجزیه و تحلیل پیش‌بینی‌کننده و سیستم‌های توصیه افزایش می‌یابد.

به همین دلیل است که نیاز به ابزارهای مشارکتی بسیار مهم است. این ابزارها که برای استخراج بینش، تجزیه و تحلیل پیش‌بینی‌کننده و سیستم‌های توصیه ضروری هستند، با تحقیقات قابل تکرار، ابزارهای نوت‌بوک و کنترل منبع کد تقویت می‌شوند. ادغام پلتفرم های مبتنی بر ابر این پتانسیل مشترک را بیشتر تقویت می کند.

 

مقدمه ای بر رایانش ابری برای علم داده
تصویر ماکروتور
 

توجه به این نکته ضروری است که همکاری فقط به تیم های علم داده محدود نمی شود. 

این شامل طیف گسترده‌تری از افراد، از جمله سهامدارانی مانند مدیران اجرایی، رهبران بخش‌ها و سایر نقش‌های داده‌محور است. 

#2. عصر داده های بزرگ

مدت بزرگ داده محبوبیت به ویژه در میان شرکت های بزرگ فناوری افزایش یافته است. در حالی که تعریف دقیق آن مبهم باقی مانده است، به طور کلی به مجموعه داده هایی اشاره دارد که آنقدر وسیع هستند که از قابلیت های سیستم های پایگاه داده استاندارد و روش های تحلیلی فراتر می روند. 

این مجموعه داده‌ها از محدودیت‌های ابزارهای نرم‌افزاری معمولی و سیستم‌های ذخیره‌سازی از نظر جمع‌آوری، ذخیره، مدیریت و پردازش داده‌ها در یک بازه زمانی معقول فراتر می‌روند.

هنگام در نظر گرفتن Big Data، همیشه 3 V را به خاطر بسپارید:

  • دوره: به حجم انبوه داده اشاره دارد.
  • تنوع: به فرمت‌ها، انواع و کاربردهای تحلیلی داده‌ها اشاره می‌کند.
  • سرعت: سرعت تکامل یا تولید داده ها را نشان می دهد.

با ادامه رشد داده ها، نیاز فوری به زیرساخت های قدرتمندتر و تکنیک های تحلیل کارآمدتر وجود دارد. 

بنابراین، این دو دلیل اصلی این است که چرا ما؟-؟به عنوان دانشمندان داده؟-؟نیاز داریم که از رایانه های محلی فراتر برویم.

به‌جای داشتن زیرساخت‌های محاسباتی یا مراکز داده، شرکت‌ها و متخصصان می‌توانند از یک ارائه‌دهنده خدمات ابری به هر چیزی از برنامه‌ها گرفته تا ذخیره‌سازی دسترسی داشته باشند. 

این به شرکت‌ها و متخصصان اجازه می‌دهد هنگام استفاده از آن، هزینه‌ای را که استفاده می‌کنند، پرداخت کنند. به جای پرداختن به هزینه و پیچیدگی حفظ زیرساخت IT محلی-؟ 

به عبارت ساده ، ابر رایانه ارائه خدمات محاسباتی بر اساس تقاضا؟--از برنامه های کاربردی گرفته تا قدرت ذخیره سازی و پردازش--- معمولاً از طریق اینترنت و بر اساس پرداخت هزینه انجام می شود.

در مورد رایج ترین ارائه دهندگان، من تقریباً مطمئن هستم که همه شما حداقل با یکی از آنها آشنا هستید. گوگل (Google Cloud)، آمازون (سرویس وب آمازون) و مایکروسافت (Microsoft Azure) به عنوان سه فناوری رایج ابری هستند و تقریباً تمام بازار را کنترل می کنند. 

مدت ابر ممکن است انتزاعی به نظر برسد، اما معنای ملموسی دارد. 

در هسته خود، ابر در مورد رایانه های شبکه ای است که منابع را به اشتراک می گذارند. اینترنت را به عنوان گسترده ترین شبکه کامپیوتری در نظر بگیرید، در حالی که نمونه های کوچکتر شامل شبکه های خانگی مانند LAN یا WiFi SSID است. این شبکه ها منابع مختلف از صفحات وب گرفته تا ذخیره سازی داده ها را به اشتراک می گذارند.

در این شبکه ها، کامپیوترهای فردی نامیده می شوند گره. آنها با استفاده از پروتکل هایی مانند HTTP برای اهداف مختلف، از جمله به روز رسانی وضعیت و درخواست داده، ارتباط برقرار می کنند. اغلب، این رایانه ها در محل نیستند، اما در مراکز داده مجهز به زیرساخت ضروری هستند.

با مقرون به صرفه بودن رایانه ها و فضای ذخیره سازی، امروزه استفاده از چندین رایانه به هم پیوسته به جای یک نیروگاه گران قیمت رایج شده است. این رویکرد به هم پیوسته عملکرد مداوم را حتی در صورت خرابی یک کامپیوتر تضمین می کند و به سیستم اجازه می دهد تا بارهای افزایش یافته را مدیریت کند.

پلتفرم‌های محبوبی مانند توییتر، فیس‌بوک و نتفلیکس نمونه‌ای از برنامه‌های مبتنی بر ابر هستند که می‌توانند میلیون‌ها کاربر روزانه را بدون خرابی مدیریت کنند. هنگامی که رایانه های موجود در یک شبکه برای یک هدف مشترک با یکدیگر همکاری می کنند، به آن a می گویند خوشه

خوشه ها که به عنوان یک واحد منفرد عمل می کنند، عملکرد، در دسترس بودن و مقیاس پذیری را افزایش می دهند.

محاسبات توزیع شده به نرم افزار طراحی شده برای استفاده اشاره دارد خوشه برای کارهای خاص، مانند Hadoop و Spark.

پس... دوباره... ابر چیست؟ 

فراتر از منابع مشترک، ابر شامل سرورها، خدمات، شبکه‌ها و موارد دیگر است که توسط یک نهاد واحد مدیریت می‌شوند. 

در حالی که اینترنت یک شبکه گسترده است، اما یک ابر نیست زیرا هیچ طرفی مالک آن نیست.

به طور خلاصه، علم داده و رایانش ابری دو روی یک سکه هستند. 

علم داده تمام تئوری ها و تکنیک های لازم برای استخراج ارزش از داده ها را در اختیار متخصصان قرار می دهد. 

رایانش ابری زیرساختی برای ذخیره و پردازش همین داده ها است. 

در حالی که مورد اول به ما دانش ارزیابی هر پروژه را می دهد، دومی امکان اجرای آن را به ما می دهد.

آنها با هم یک پشت سر هم قدرتمند را تشکیل می دهند که نوآوری های تکنولوژیکی را تقویت می کند. 

همانطور که به جلو می رویم، هم افزایی بین این دو قوی تر می شود و راه را برای آینده ای مبتنی بر داده ها هموار می کند.

آینده را در آغوش بگیرید، زیرا مبتنی بر داده و ابر است!
 
 
جوزپ فرر یک مهندس تجزیه و تحلیل از بارسلونا است. او در رشته مهندسی فیزیک فارغ التحصیل شد و در حال حاضر در زمینه علم داده های کاربردی برای تحرک انسان کار می کند. او یک تولید کننده محتوای پاره وقت است که بر علم و فناوری داده تمرکز دارد. می توانید با او تماس بگیرید لینک, توییتر or متوسط.
 

تمبر زمان:

بیشتر از kdnuggets