Введение в облачные вычисления для науки о данных - KDnuggets

Введение в облачные вычисления для науки о данных – KDnuggets

Исходный узел: 2906482

Введение в облачные вычисления для науки о данных
Изображение на звездная линия
 

В современном мире две основные силы изменили правила игры: 

Наука о данных и облачные вычисления. 

Представьте себе мир, в котором каждую секунду генерируются колоссальные объемы данных. 

Ну… можете не представлять… Это наш мир!

От взаимодействия в социальных сетях до финансовых транзакций, от медицинских записей до предпочтений в электронной коммерции — данные повсюду. 

Но какой смысл в этих данных, если мы не можем получить их ценность? 

Именно этим и занимается Data Science. 

И где мы храним, обрабатываем и анализируем эти данные? 

Вот где блистают облачные вычисления. 

Давайте отправимся в путешествие, чтобы понять переплетенные отношения между этими двумя технологическими чудесами. 

Давайте (попробуем) открыть для себя все это вместе! 

Наука о данных?-?Искусство получения информации

Наука о данных — это искусство и наука извлечения значимой информации из огромных и разнообразных данных.

Он сочетает в себе опыт из различных областей, таких как статистика и машинное обучение, для интерпретации данных и принятия обоснованных решений.

С бурным ростом объема данных роль ученых, занимающихся данными, стала первостепенной в превращении необработанных данных в золото.

Облачные вычисления?-?Революция цифровых хранилищ

Облачные вычисления относятся к доставке вычислительных услуг через Интернет по требованию.

Независимо от того, нужны ли нам хранилища, вычислительные мощности или услуги баз данных, облачные вычисления предлагают гибкую и масштабируемую среду для предприятий и специалистов, позволяющую работать без затрат на поддержание физической инфраструктуры.

Однако большинство из вас, должно быть, задумываются, почему они связаны?

Вернемся к началу…

Есть две основные причины, по которым облачные вычисления стали ключевым или дополнительным компонентом науки о данных.

№1. Настоятельная необходимость сотрудничества

В начале своего пути в области науки о данных младшие специалисты по данным обычно начинают с установки Python и R на своих персональных компьютерах. Впоследствии они пишут и запускают код, используя локальную интегрированную среду разработки (IDE), например приложение Jupyter Notebook или RStudio.

Однако по мере того, как группы специалистов по обработке данных расширяются, а расширенная аналитика становится все более распространенной, растет спрос на инструменты для совместной работы для предоставления аналитической информации, прогнозной аналитики и систем рекомендаций.

Вот почему необходимость в инструментах для совместной работы становится первостепенной. Эти инструменты, необходимые для получения аналитической информации, прогнозного анализа и систем рекомендаций, подкрепляются воспроизводимыми исследованиями, инструментами для записных книжек и контролем исходного кода. Интеграция облачных платформ еще больше усиливает этот потенциал сотрудничества.

 

Введение в облачные вычисления для науки о данных
Изображение на макровектор
 

Крайне важно отметить, что сотрудничество не ограничивается только группами специалистов по обработке и анализу данных. 

Он охватывает гораздо более широкий круг людей, включая такие заинтересованные стороны, как руководители, руководители отделов и другие должностные лица, ориентированные на данные. 

№2. Эра больших данных

Термин Big Data популярность возросла, особенно среди крупных технологических компаний. Хотя его точное определение остается неясным, оно обычно относится к наборам данных, которые настолько обширны, что превосходят возможности стандартных систем баз данных и аналитических методов. 

Эти наборы данных превосходят возможности типичных программных инструментов и систем хранения с точки зрения сбора, хранения, управления и обработки данных в разумные сроки.

Рассматривая большие данные, всегда помните о трех «В»:

  • Объем: Относится к огромному количеству данных.
  • Разнообразие: Указывает на разнообразные форматы, типы и аналитические применения данных.
  • Скорость: Указывает скорость, с которой данные развиваются или генерируются.

Поскольку объем данных продолжает расти, существует острая необходимость в более мощной инфраструктуре и более эффективных методах анализа. 

Итак, эти две основные причины заключаются в том, почему нам, «как специалистам по обработке данных», необходимо выйти за рамки локальных компьютеров.

Вместо того, чтобы владеть собственной вычислительной инфраструктурой или центрами обработки данных, компании и специалисты могут арендовать доступ к чему угодно — от приложений до хранилища — у поставщика облачных услуг. 

Это позволяет компаниям и специалистам платить за то, что они используют, когда они это используют. вместо того, чтобы иметь дело со стоимостью и сложностью поддержания собственной локальной ИТ-инфраструктуры. 

Проще говоря, Cloud Computing — это предоставление вычислительных услуг по требованию? — от приложений до систем хранения и вычислительных мощностей? — обычно через Интернет и на основе оплаты по факту использования.

Что касается наиболее распространенных провайдеров, я уверен, что вы все знакомы хотя бы с одним из них. Google (Google Cloud), Amazon (Amazon Web Services) и Microsoft (Microsoft Azure) являются тремя наиболее распространенными облачными технологиями и контролируют почти весь рынок. 

Термин облако может показаться абстрактным, но оно имеет осязаемый смысл. 

По своей сути облако — это объединенные в сеть компьютеры, которые совместно используют ресурсы. Думайте об Интернете как о самой обширной компьютерной сети, а более мелкие примеры включают домашние сети, такие как LAN или WiFi SSID. Эти сети совместно используют ресурсы, начиная от веб-страниц и заканчивая хранилищем данных.

В этих сетях отдельные компьютеры называются узлы. Они общаются, используя такие протоколы, как HTTP, для различных целей, включая обновление статуса и запросы данных. Часто эти компьютеры находятся не на месте, а в центрах обработки данных, оснащенных необходимой инфраструктурой.

Благодаря доступности компьютеров и систем хранения данных сейчас принято использовать несколько взаимосвязанных компьютеров, а не одну дорогую электростанцию. Такой взаимосвязанный подход обеспечивает непрерывную работу даже в случае сбоя одного компьютера и позволяет системе справляться с повышенными нагрузками.

Популярные платформы, такие как Twitter, Facebook и Netflix, служат примером облачных приложений, которые могут управлять миллионами ежедневных пользователей без сбоев. Когда компьютеры в одной сети сотрудничают для достижения общей цели, это называется кластер

Кластеры, выступая как единое целое, обеспечивают повышенную производительность, доступность и масштабируемость.

Распределенных вычислений относится к программному обеспечению, предназначенному для использования кластеры для конкретных задач, таких как Hadoop и Spark.

Итак… еще раз… что это за облако? 

Помимо общих ресурсов, облако включает в себя серверы, службы, сети и многое другое, управляемое одним объектом. 

Хотя Интернет представляет собой обширную сеть, он не является облаком, поскольку ни одна сторона не владеет им.

Подводя итог, можно сказать, что наука о данных и облачные вычисления — это две стороны одной медали. 

Наука о данных предоставляет профессионалам всю теорию и методы, необходимые для извлечения ценности из данных. 

Облачные вычисления предоставляют инфраструктуру для хранения и обработки тех же данных. 

В то время как первый дает нам знания для оценки любого проекта, второй дает нам возможность его реализации.

Вместе они образуют мощный тандем, способствующий технологическим инновациям. 

По мере нашего продвижения вперед синергия между этими двумя технологиями будет усиливаться, открывая путь к будущему, более ориентированному на данные.

Откройте для себя будущее, ведь оно основано на данных и облачных технологиях!
 
 
Хосеп Феррер инженер-аналитик из Барселоны. Он получил диплом инженера-физика и в настоящее время работает в области науки о данных, применяемой к человеческой мобильности. Он по совместительству создает контент, специализирующийся на науке о данных и технологиях. Вы можете связаться с ним по LinkedIn, Twitter or Medium.
 

Отметка времени:

Больше от КДнаггетс