Wprowadzenie do przetwarzania w chmurze w nauce danych — KDnuggets

Wprowadzenie do przetwarzania w chmurze w nauce danych – KDnuggets

Węzeł źródłowy: 2906482

Wprowadzenie do przetwarzania w chmurze w nauce danych
Image by linia gwiezdna
 

W dzisiejszym świecie wyłoniły się dwie główne siły, które zmieniły zasady gry: 

Nauka o danych i przetwarzanie w chmurze. 

Wyobraź sobie świat, w którym co sekundę generowane są kolosalne ilości danych. 

Cóż… nie musisz sobie wyobrażać… To jest nasz świat!

Od interakcji w mediach społecznościowych po transakcje finansowe, od dokumentacji medycznej po preferencje dotyczące handlu elektronicznego – dane są wszędzie. 

Ale jaki jest pożytek z tych danych, jeśli nie możemy uzyskać wartości? 

Właśnie tym zajmuje się Data Science. 

Gdzie przechowujemy, przetwarzamy i analizujemy te dane? 

To właśnie tam błyszczy Cloud Computing. 

Wyruszmy w podróż, aby zrozumieć powiązania między tymi dwoma cudami technologii. 

Spróbujmy (spróbujmy) odkryć to wszystko razem! 

Nauka o danych? -? Sztuka wyciągania wniosków

Nauka o danych to sztuka i nauka wydobywania znaczących spostrzeżeń z rozległych i różnorodnych danych.

Łączy wiedzę z różnych dziedzin, takich jak statystyka i uczenie maszynowe, aby interpretować dane i podejmować świadome decyzje.

Wraz z eksplozją danych rola analityków danych stała się najważniejsza w przekształcaniu surowych danych w złoto.

Przetwarzanie w chmurze? –? Rewolucja w zakresie cyfrowego przechowywania danych

Przetwarzanie w chmurze oznacza świadczenie usług obliczeniowych na żądanie za pośrednictwem Internetu.

Niezależnie od tego, czy potrzebujemy pamięci masowej, mocy obliczeniowej czy usług baz danych, Cloud Computing oferuje elastyczne i skalowalne środowisko dla firm i profesjonalistów, umożliwiające działanie bez kosztów ogólnych związanych z utrzymaniem infrastruktury fizycznej.

Jednak większość z Was z pewnością zastanawia się, dlaczego są one ze sobą powiązane?

Wróćmy do początku…

Istnieją dwa główne powody, dla których przetwarzanie w chmurze stało się kluczowym – lub uzupełniającym – elementem nauki o danych.

#1. Niezbędna potrzeba współpracy

Na początku swojej przygody z nauką o danych młodsi specjaliści ds. danych zazwyczaj rozpoczynają pracę od skonfigurowania Pythona i R na swoich komputerach osobistych. Następnie piszą i uruchamiają kod przy użyciu lokalnego zintegrowanego środowiska programistycznego (IDE), takiego jak aplikacja Jupyter Notebook lub RStudio.

Jednak w miarę powiększania się zespołów zajmujących się analizą danych i upowszechniania się zaawansowanych analiz rośnie zapotrzebowanie na narzędzia do współpracy umożliwiające dostarczanie spostrzeżeń, analiz predykcyjnych i systemów rekomendacji.

Dlatego też konieczność posiadania narzędzi do współpracy staje się najważniejsza. Narzędzia te, niezbędne do wyciągania wniosków, analiz predykcyjnych i systemów rekomendacji, są wspierane przez powtarzalne badania, narzędzia do notatników i kontrolę źródła kodu. Integracja platform opartych na chmurze jeszcze bardziej wzmacnia ten potencjał współpracy.

 

Wprowadzenie do przetwarzania w chmurze w nauce danych
Image by makrowektor
 

Należy pamiętać, że współpraca nie ogranicza się tylko do zespołów zajmujących się analizą danych. 

Obejmuje znacznie szerszą gamę osób, w tym interesariuszy, takich jak kadra kierownicza, liderzy działów i osoby pełniące inne role skoncentrowane na danych. 

#2. Era Big Data

Termin Big Data zyskała na popularności, szczególnie wśród dużych firm technologicznych. Chociaż jego dokładna definicja pozostaje nieuchwytna, ogólnie odnosi się do zbiorów danych, które są tak ogromne, że przekraczają możliwości standardowych systemów baz danych i metod analitycznych. 

Te zbiory danych przekraczają możliwości typowych narzędzi programowych i systemów przechowywania danych w zakresie przechwytywania, przechowywania, zarządzania i przetwarzania danych w rozsądnych ramach czasowych.

Rozważając Big Data, zawsze pamiętaj o 3 V:

  • Tom: Odnosi się do ogromnej ilości danych.
  • Różnorodność: Wskazuje na różnorodne formaty, typy i zastosowania analityczne danych.
  • Prędkość: Wskazuje prędkość, z jaką dane ewoluują lub są generowane.

W miarę ciągłego zwiększania się ilości danych istnieje pilna potrzeba posiadania wydajniejszej infrastruktury i wydajniejszych technik analizy. 

Zatem z tych dwóch głównych powodów my – „jako badacze danych” – musimy wyjść poza komputery lokalne.

Zamiast posiadać własną infrastrukturę obliczeniową lub centra danych, firmy i profesjonaliści mogą wynajmować dostęp do wszystkiego, od aplikacji po pamięć masową od dostawcy usług w chmurze. 

Dzięki temu firmy i profesjonaliści mogą płacić za to, czego używają, kiedy z tego korzystają, zamiast zajmować się kosztami i złożonością utrzymania lokalnej infrastruktury IT – we własnym zakresie. 

Krótko mówiąc, Cloud Computing czy świadczenie usług obliczeniowych na żądanie – od aplikacji po pamięć masową i moc obliczeniową – jest zazwyczaj realizowane przez Internet i na zasadzie płatności zgodnie z rzeczywistym użyciem.

Jeśli chodzi o najpopularniejszych dostawców, jestem prawie pewien, że wszyscy znacie przynajmniej jednego z nich. Google (Google Cloud), Amazon (Amazon Web Services) i Microsoft (Microsoft Azure to trzy najpopularniejsze technologie chmurowe i kontrolują prawie cały rynek. 

Termin chmura może brzmieć abstrakcyjnie, ale ma namacalne znaczenie. 

W swej istocie chmura polega na tym, że komputery połączone w sieć dzielą się zasobami. Pomyśl o Internecie jako o najbardziej ekspansywnej sieci komputerowej, podczas gdy mniejsze przykłady obejmują sieci domowe, takie jak LAN lub WiFi SSID. Sieci te współdzielą zasoby, od stron internetowych po przechowywanie danych.

W tych sieciach poszczególne komputery nazywane są węzły. Komunikują się za pomocą protokołów takich jak HTTP do różnych celów, w tym do aktualizacji statusu i żądań danych. Często komputerów tych nie ma na miejscu, ale w centrach danych wyposażonych w niezbędną infrastrukturę.

Biorąc pod uwagę przystępną cenę komputerów i pamięci masowej, obecnie powszechne jest korzystanie z wielu połączonych ze sobą komputerów zamiast jednego, drogiego urządzenia wielofunkcyjnego. To wzajemnie powiązane podejście zapewnia ciągłą pracę nawet w przypadku awarii jednego komputera i umożliwia systemowi obsługę zwiększonych obciążeń.

Popularne platformy, takie jak Twitter, Facebook i Netflix, są przykładem aplikacji opartych na chmurze, które mogą zarządzać milionami użytkowników dziennie bez awarii. Kiedy komputery w tej samej sieci współpracują dla wspólnego celu, nazywa się to a grupa

Klastry działające jako pojedyncza jednostka oferują zwiększoną wydajność, dostępność i skalowalność.

Przetwarzanie rozproszone odnosi się do oprogramowania przeznaczonego do użytku klastry do określonych zadań, takich jak Hadoop i Spark.

Więc… jeszcze raz… czym jest chmura? 

Oprócz współdzielonych zasobów chmura obejmuje serwery, usługi, sieci i inne elementy zarządzane przez jeden podmiot. 

Chociaż Internet jest rozległą siecią, nie jest chmurą, ponieważ nie jest własnością żadnej pojedynczej strony.

Podsumowując, Data Science i Cloud Computing to dwie strony tego samego medalu. 

Data Science zapewnia profesjonalistom całą teorię i techniki niezbędne do wydobycia wartości z danych. 

Cloud Computing zapewnia infrastrukturę do przechowywania i przetwarzania tych samych danych. 

O ile to pierwsze daje nam wiedzę pozwalającą na ocenę dowolnego projektu, to drugie daje nam możliwość jego realizacji.

Razem tworzą potężny tandem, który wspiera innowacje technologiczne. 

W miarę postępów synergia między nimi będzie coraz silniejsza, torując drogę przyszłości w większym stopniu opartej na danych.

Otwórz się na przyszłość, ponieważ jest ona oparta na danych i chmurze!
 
 
Józefa Ferrera jest inżynierem analitykiem z Barcelony. Ukończył inżynierię fizyki i obecnie pracuje w dziedzinie Data Science stosowanej do mobilności ludzi. Jest twórcą treści w niepełnym wymiarze godzin, koncentrującym się na analizie danych i technologii. Możesz skontaktować się z nim na LinkedIn, Twitter or Średni.
 

Znak czasu:

Więcej z Knuggety