Introduktion til cloud computing til datavidenskab - KDnuggets

Genudgivet af Platon

Abonnenter: 0

Introduktion til Cloud Computing for Data Science
Billede af stjernelinje

I dagens verden er to hovedkræfter dukket op som spilskiftere:

Datavidenskab og Cloud Computing.

Forestil dig en verden, hvor kolossale mængder af data genereres hvert sekund.

Nå ... du behøver ikke at forestille dig ... Det er vores verden!

Fra interaktioner på sociale medier til økonomiske transaktioner, fra sundhedsjournaler til e-handelspræferencer, data er overalt.

Men hvad er brugen af disse data, hvis vi ikke kan få værdi?

Det er præcis, hvad Data Science gør.

Og hvor opbevarer, behandler og analyserer vi disse data?

Det er her, Cloud Computing skinner.

Lad os tage på en rejse for at forstå det sammenflettede forhold mellem disse to teknologiske vidundere.

Lad os (prøve) at opdage det hele sammen!

Datavidenskab?-?Kunsten at tegne indsigt

Data Science er kunsten og videnskaben at udvinde meningsfuld indsigt fra store og varierede data.

Den kombinerer ekspertise fra forskellige domæner som statistik og maskinlæring for at fortolke data og træffe informerede beslutninger.

Med eksplosionen af data er dataforskernes rolle blevet altafgørende for at omdanne rå data til guld.

Cloud Computing?-?Den digitale lagerrevolution

Cloud computing refererer til on-demand levering af computertjenester over internettet.

Uanset om vi har brug for lagring, processorkraft eller databasetjenester, tilbyder Cloud Computing et fleksibelt og skalerbart miljø, hvor virksomheder og professionelle kan operere uden omkostningerne ved at vedligeholde fysisk infrastruktur.

De fleste af jer må dog tænke, hvorfor er de relaterede?

Lad os gå tilbage til begyndelsen...

Der er to hovedårsager til, at Cloud Computing er opstået som en central?-?eller komplementær?-?komponent af Data Science.

#1. Det tvingende behov for at samarbejde

I begyndelsen af deres datavidenskabsrejse starter junior dataprofessionelle normalt ved at konfigurere Python og R på deres personlige computere. Efterfølgende skriver og kører de kode ved hjælp af et lokalt integreret udviklingsmiljø (IDE) som Jupyter Notebook Application eller RStudio.

Men efterhånden som datavidenskabsteams udvider, og avancerede analyser bliver mere almindelige, er der en stigende efterspørgsel efter samarbejdsværktøjer til at levere indsigt, forudsigende analyse og anbefalingssystemer.

Det er grunden til, at behovet for samarbejdsværktøjer bliver altafgørende. Disse værktøjer, der er afgørende for at opnå indsigt, forudsigelige analyser og anbefalingssystemer, understøttes af reproducerbar forskning, notebookværktøjer og kodekildekontrol. Integrationen af cloud-baserede platforme forstærker yderligere dette samarbejdspotentiale.

Introduktion til Cloud Computing for Data Science
Billede af makrovektor

Det er afgørende at bemærke, at samarbejdet ikke er begrænset til kun datavidenskabsteams.

Det omfatter en meget bredere vifte af mennesker, herunder interessenter som ledere, afdelingsledere og andre datacentrerede roller.

#2. Big Datas æra

Udtrykket Big data er steget i popularitet, især blandt store teknologivirksomheder. Selvom dens nøjagtige definition forbliver uhåndgribelig, refererer den generelt til datasæt, der er så omfattende, at de overgår mulighederne for standarddatabasesystemer og analytiske metoder.

Disse datasæt overskrider grænserne for typiske softwareværktøjer og lagersystemer med hensyn til indsamling, lagring, styring og behandling af dataene inden for en rimelig tidsramme.

Når du overvejer Big Data, skal du altid huske de 3 V'er:

Volumen: Refererer til den store mængde data.
Bred vifte: Peger på de forskellige formater, typer og analytiske anvendelser af data.
Hastighed: Angiver den hastighed, hvormed data udvikles eller genereres.

Efterhånden som data fortsætter med at vokse, er der et presserende behov for mere kraftfulde infrastrukturer og mere effektive analyseteknikker.

Så disse to hovedårsager er, hvorfor vi - som dataforskere - er nødt til at skalere op ud over lokale computere.

I stedet for at eje deres egen computerinfrastruktur eller datacentre, kan virksomheder og fagfolk leje adgang til alt fra applikationer til lagring fra en cloud-tjenesteudbyder.

Dette giver virksomheder og fagfolk mulighed for at betale for det, de bruger, når de bruger det, i stedet for at håndtere omkostningerne og kompleksiteten ved at vedligeholde en lokal it-infrastruktur – deres egen.

Så for at sige det enkelt, Cloud Computing er levering af on-demand computing-tjenester?-?fra applikationer til lager- og processorkraft?-?typisk over internettet og på en pay-as-you-go-basis.

Med hensyn til de mest almindelige udbydere, er jeg ret sikker på, at I alle kender mindst én af dem. Google (Google Cloud), Amazon (Amazon Web Services) og Microsoft (Microsoft Azure står som de tre mest almindelige cloud-teknologier og kontrollerer næsten hele markedet.

Udtrykket cloud lyder måske abstrakt, men det har en håndgribelig betydning.

I sin kerne handler skyen om netværkscomputere, der deler ressourcer. Tænk på internettet som det mest ekspansive computernetværk, mens mindre eksempler omfatter hjemmenetværk som LAN eller WiFi SSID. Disse netværk deler ressourcer lige fra websider til datalagring.

I disse netværk betegnes individuelle computere noder. De kommunikerer ved hjælp af protokoller som HTTP til forskellige formål, herunder statusopdateringer og dataanmodninger. Ofte er disse computere ikke på stedet, men i datacentre udstyret med væsentlig infrastruktur.

Med overkommelige computere og lagerplads er det nu almindeligt at bruge flere sammenkoblede computere i stedet for et dyrt kraftcenter. Denne indbyrdes forbundne tilgang sikrer kontinuerlig drift, selvom en computer svigter, og tillader systemet at håndtere øgede belastninger.

Populære platforme som Twitter, Facebook og Netflix er eksempler på cloud-baserede applikationer, der kan administrere millioner af daglige brugere uden at gå ned. Når computere i det samme netværk samarbejder om et fælles mål, kaldes det en klynge.

Klynger, der fungerer som en enkelt enhed, tilbyder forbedret ydeevne, tilgængelighed og skalerbarhed.

Distribueret computing refererer til software designet til at bruge klynger til specifikke opgaver, som Hadoop og Spark.

Så... igen... hvad er skyen?

Ud over delte ressourcer omfatter skyen servere, tjenester, netværk og mere, der administreres af en enkelt enhed.

Selvom internettet er et stort netværk, er det ikke en sky, da ingen enkelt part ejer det.

For at opsummere er Data Science og Cloud Computing to sider af samme sag.

Data Science giver fagfolk al den teori og teknik, der er nødvendig for at udvinde værdi fra data.

Cloud Computing er den, der giver infrastruktur til at gemme og behandle de samme data.

Mens den første giver os viden til at vurdere ethvert projekt, giver den anden os muligheden for at udføre det.

Sammen danner de en kraftfuld tandem, der fremmer teknologisk innovation.

Efterhånden som vi bevæger os fremad, vil synergien mellem disse to vokse sig stærkere og bane vejen for en mere datadrevet fremtid.

Omfavn fremtiden, for den er datadrevet og skydrevet!

Josep Ferrer er en analyseingeniør fra Barcelona. Han er uddannet i fysikingeniør og arbejder i øjeblikket inden for datavidenskab, der anvendes på menneskelig mobilitet. Han er en deltidsindholdsskaber med fokus på datavidenskab og teknologi. Du kan kontakte ham på LinkedIn, Twitter or Medium.