Вступ до хмарних обчислень для науки про дані - KDnuggets

Вступ до хмарних обчислень для науки про дані – KDnuggets

Вихідний вузол: 2906482

Вступ до хмарних обчислень для науки про дані
Зображення на зіркова лінія
 

У сучасному світі виникли дві основні сили, які змінили правила гри: 

Наука про дані та хмарні обчислення. 

Уявіть собі світ, де щосекунди генерується колосальна кількість даних. 

Ну... не треба уявляти... Це наш світ!

Від взаємодії в соціальних мережах до фінансових транзакцій, від медичних записів до налаштувань електронної комерції, дані всюди. 

Але яка користь від цих даних, якщо ми не можемо отримати значення? 

Це саме те, що робить Data Science. 

І де ми зберігаємо, обробляємо та аналізуємо ці дані? 

Ось де сяють хмарні обчислення. 

Давайте вирушимо в подорож, щоб зрозуміти взаємозв’язок між цими двома технологічними дивами. 

Давайте (спробуємо) відкрити це все разом! 

Наука про дані? - Мистецтво розуміння

Наука про дані – це мистецтво та наука отримання значущої інформації з величезних і різноманітних даних.

Він поєднує в собі досвід із різних областей, як-от статистика та машинне навчання, щоб інтерпретувати дані та приймати обґрунтовані рішення.

У зв’язку зі стрімким зростанням обсягу даних роль спеціалістів із обробки даних стала першорядною у перетворенні необроблених даних на золото.

Хмарні обчислення? - Революція цифрових сховищ

Хмарні обчислення – це надання обчислювальних послуг на вимогу через Інтернет.

Незалежно від того, чи потрібні нам сховище, обчислювальна потужність або послуги бази даних, Cloud Computing пропонує гнучке та масштабоване середовище для компаній і професіоналів, щоб працювати без накладних витрат на підтримку фізичної інфраструктури.

Однак більшість із вас, мабуть, замислюється, чому вони пов’язані?

Повернемося до початку…

Є дві основні причини, чому хмарні обчислення стали ключовим або додатковим компонентом Data Science.

#1. Вкрай необхідна співпраця

На початку своєї подорожі в галузі обробки даних молодші спеціалісти з обробки даних зазвичай починають із встановлення Python і R на своїх персональних комп’ютерах. Згодом вони пишуть і запускають код, використовуючи локальне інтегроване середовище розробки (IDE), як-от Jupyter Notebook Application або RStudio.

Однак у міру того, як групи з вивчення даних розширюються, а розширена аналітика стає все більш поширеною, зростає попит на інструменти для спільної роботи для надання розуміння, прогнозної аналітики та систем рекомендацій.

Ось чому потреба в інструментах для співпраці стає першорядною. Ці інструменти, необхідні для отримання інформації, прогнозної аналітики та систем рекомендацій, підкріплюються відтворюваними дослідженнями, інструментами для записних книжок і керування джерелом коду. Інтеграція хмарних платформ ще більше посилює цей потенціал співпраці.

 

Вступ до хмарних обчислень для науки про дані
Зображення на макровектор
 

Важливо відзначити, що співпраця не обмежується лише групами з обробки даних. 

Він охоплює набагато більше людей, включаючи зацікавлених сторін, таких як керівники, керівники відділів та інші посади, орієнтовані на дані. 

#2. Ера великих даних

Термін Великий даних стала популярною, особливо серед великих технологічних компаній. Хоча його точне визначення залишається невловимим, воно зазвичай відноситься до наборів даних, які настільки великі, що перевершують можливості стандартних систем баз даних і аналітичних методів. 

Ці набори даних перевищують обмеження типових програмних засобів і систем зберігання з точки зору збору, зберігання, керування та обробки даних у прийнятний період часу.

Розглядаючи Big Data, завжди пам’ятайте про 3 V:

  • Об'єм: Відноситься до величезної кількості даних.
  • Різноманітність: Вказує на різноманітні формати, типи та аналітичні застосування даних.
  • Швидкість: Вказує швидкість, з якою дані розвиваються або генеруються.

Оскільки обсяг даних продовжує зростати, існує нагальна потреба мати потужнішу інфраструктуру та ефективніші методи аналізу. 

Таким чином, ці дві основні причини пояснюють, чому нам? як науковцям з обробки даних? потрібно вийти за рамки локальних комп’ютерів.

Замість того, щоб мати власну обчислювальну інфраструктуру чи центри обробки даних, компанії та професіонали можуть орендувати доступ до будь-чого, від додатків до сховищ у постачальника хмарних послуг. 

Це дозволяє компаніям і професіоналам платити за те, що вони використовують, коли вони це використовують, замість того, щоб мати справу з вартістю та складністю підтримки локальної ІТ-інфраструктури – власної. 

Отже, простіше кажучи, Cloud Computing – це надання обчислювальних послуг на вимогу? – «від додатків до сховища й обчислювальної потужності» – «зазвичай через Інтернет і на основі оплати за використання».

Що стосується найпоширеніших постачальників, я майже впевнений, що ви всі знайомі принаймні з одним із них. Google (Google Cloud), Amazon (Amazon Web Services) і Microsoft (Microsoft Azure є трьома найпоширенішими хмарними технологіями та контролюють майже весь ринок. 

Термін хмара може здатися абстрактним, але воно має відчутне значення. 

За своєю суттю хмара — це об’єднані в мережу комп’ютери, які спільно використовують ресурси. Вважайте Інтернет найрозгалуженішою комп’ютерною мережею, тоді як менші приклади включають домашні мережі, такі як LAN або WiFi SSID. Ці мережі спільно використовують ресурси, починаючи від веб-сторінок і закінчуючи сховищем даних.

У цих мережах окремі комп’ютери називаються терміном вузли. Вони спілкуються за допомогою таких протоколів, як HTTP, для різних цілей, зокрема для оновлення статусу та запитів даних. Часто ці комп’ютери знаходяться не на місці, а в центрах обробки даних, обладнаних необхідною інфраструктурою.

Завдяки доступності комп’ютерів і сховищ стало звичним використовувати кілька взаємопов’язаних комп’ютерів, а не одну дорогу електростанцію. Такий взаємопов’язаний підхід забезпечує безперервну роботу навіть у разі збою одного комп’ютера та дозволяє системі справлятися з підвищеними навантаженнями.

Такі популярні платформи, як Twitter, Facebook і Netflix, є прикладами хмарних програм, які можуть керувати мільйонами щоденних користувачів без збоїв. Коли комп’ютери в одній мережі співпрацюють заради спільної мети, це називається a кластер

Кластери, діючи як окрема одиниця, пропонують підвищену продуктивність, доступність і масштабованість.

Розподілені обчислення відноситься до програмного забезпечення, призначеного для використання кластерів для конкретних завдань, наприклад Hadoop і Spark.

Отже… знову… що таке хмара? 

Окрім спільних ресурсів, хмара охоплює сервери, служби, мережі тощо, якими керує одна сутність. 

Хоча Інтернет — це велика мережа, це не хмара, оскільки жодна сторона не володіє нею.

Підводячи підсумок, можна сказати, що Data Science і Cloud Computing — це дві сторони однієї медалі. 

Data Science надає професіоналам усю теорію та методи, необхідні для отримання цінності з даних. 

Хмарні обчислення надають інфраструктуру для зберігання та обробки тих самих даних. 

У той час як перший дає нам знання для оцінки будь-якого проекту, другий дає нам можливість його реалізувати.

Разом вони утворюють потужний тандем, який сприяє технологічним інноваціям. 

По мірі просування вперед синергія між ними посилюватиметься, прокладаючи шлях до майбутнього, що більше керуватиметься даними.

Прийміть майбутнє, адже воно базується на даних і хмарі!
 
 
Хосеп Феррер – інженер-аналітик із Барселони. Він закінчив інженер-фізику та зараз працює в галузі Data Science, що стосується людської мобільності. Він неповний робочий день створює контент, який зосереджується на науці даних і технологіях. Ви можете зв'язатися з ним на LinkedIn, Twitter or Medium.
 

Часова мітка:

Більше від KDnuggets