Introduksjon til Cloud Computing for Data Science - KDnuggets

Introduksjon til Cloud Computing for Data Science – KDnuggets

Kilde node: 2906482

Introduksjon til Cloud Computing for Data Science
Bilde av stjernelinje
 

I dagens verden har to hovedkrefter dukket opp som spillskiftere: 

Datavitenskap og cloud computing. 

Se for deg en verden hvor kolossale mengder data genereres hvert sekund. 

Vel ... du trenger ikke å forestille deg ... Det er vår verden!

Fra sosiale medier-interaksjoner til økonomiske transaksjoner, fra helsejournaler til e-handelspreferanser, data er overalt. 

Men hva er bruken av disse dataene hvis vi ikke kan få verdi? 

Det er akkurat det Data Science gjør. 

Og hvor lagrer, behandler og analyserer vi disse dataene? 

Det er der Cloud Computing skinner. 

La oss legge ut på en reise for å forstå det sammenvevde forholdet mellom disse to teknologiske vidunderne. 

La oss (prøve) å oppdage alt sammen! 

Datavitenskap?-?Kunsten å tegne innsikt

Data Science er kunsten og vitenskapen å trekke ut meningsfull innsikt fra store og varierte data.

Den kombinerer ekspertise fra ulike domener som statistikk og maskinlæring for å tolke data og ta informerte beslutninger.

Med eksplosjonen av data har dataforskernes rolle blitt avgjørende for å gjøre rådata om til gull.

Cloud Computing?-?Den digitale lagringsrevolusjonen

Cloud computing refererer til on-demand levering av datatjenester over Internett.

Enten vi trenger lagring, prosessorkraft eller databasetjenester, tilbyr Cloud Computing et fleksibelt og skalerbart miljø for bedrifter og profesjonelle å operere uten kostnadene ved å vedlikeholde fysisk infrastruktur.

Imidlertid må de fleste av dere tenke hvorfor er de relatert?

La oss gå tilbake til begynnelsen...

Det er to hovedgrunner til at Cloud Computing har dukket opp som en sentral?-?eller komplementær?-?komponent av datavitenskap.

#1. Det tvingende behovet for å samarbeide

I begynnelsen av sin datavitenskapsreise starter junior datafagfolk vanligvis ved å sette opp Python og R på sine personlige datamaskiner. Deretter skriver og kjører de kode ved å bruke et lokalt integrert utviklingsmiljø (IDE) som Jupyter Notebook Application eller RStudio.

Etter hvert som datavitenskapsteam utvides og avansert analyse blir mer vanlig, er det imidlertid en økende etterspørsel etter samarbeidsverktøy for å levere innsikt, prediktiv analyse og anbefalingssystemer.

Dette er grunnen til at nødvendigheten av samarbeidsverktøy blir overordnet. Disse verktøyene, som er essensielle for å utlede innsikt, prediktiv analyse og anbefalingssystemer, er støttet av reproduserbar forskning, bærbare verktøy og kodekildekontroll. Integreringen av skybaserte plattformer forsterker dette samarbeidspotensialet ytterligere.

 

Introduksjon til Cloud Computing for Data Science
Bilde av makrovektor
 

Det er viktig å merke seg at samarbeid ikke er begrenset til bare datavitenskapsteam. 

Den omfatter et mye bredere utvalg av mennesker, inkludert interessenter som ledere, avdelingsledere og andre datasentriske roller. 

#2. The Era of Big Data

Begrepet Store data har økt i popularitet, spesielt blant store teknologiselskaper. Selv om dens eksakte definisjon forblir unnvikende, refererer den generelt til datasett som er så store at de overgår egenskapene til standard databasesystemer og analytiske metoder. 

Disse datasettene overskrider grensene for typiske programvareverktøy og lagringssystemer når det gjelder å fange, lagre, administrere og behandle dataene i en rimelig tidsramme.

Når du vurderer Big Data, husk alltid de 3 V-ene:

  • Volum: Refererer til den store mengden data.
  • Variasjon: Peker på de forskjellige formatene, typene og analytiske anvendelser av data.
  • Hastighet: Indikerer hastigheten som data utvikler seg eller genereres med.

Ettersom dataene fortsetter å vokse, er det et presserende behov for kraftigere infrastrukturer og mer effektive analyseteknikker. 

Så disse to hovedgrunnene er hvorfor vi - som dataforskere - trenger å skalere opp utover lokale datamaskiner.

I stedet for å eie sin egen datainfrastruktur eller datasentre, kan bedrifter og fagfolk leie tilgang til alt fra applikasjoner til lagring fra en skytjenesteleverandør. 

Dette lar bedrifter og fagfolk betale for det de bruker når de bruker det, i stedet for å håndtere kostnadene og kompleksiteten ved å opprettholde sin egen lokal IT-infrastruktur. 

Så for å si det enkelt, Cloud Computing er levering av on-demand databehandlingstjenester?-?fra applikasjoner til lagrings- og prosessorkraft?-?vanligvis over internett og på en betal-som-du-go-basis.

Når det gjelder de vanligste leverandørene, er jeg ganske sikker på at dere alle er kjent med minst én av dem. Google (Google Cloud), Amazon (Amazon Web Services) og Microsoft (Microsoft Azure står som de tre vanligste skyteknologiene og kontrollerer nesten hele markedet. 

Begrepet sky kan høres abstrakt ut, men det har en konkret betydning. 

I kjernen handler skyen om nettverksbaserte datamaskiner som deler ressurser. Tenk på Internett som det mest ekspansive datanettverket, mens mindre eksempler inkluderer hjemmenettverk som LAN eller WiFi SSID. Disse nettverkene deler ressurser fra nettsider til datalagring.

I disse nettverkene kalles individuelle datamaskiner noder. De kommuniserer ved hjelp av protokoller som HTTP for ulike formål, inkludert statusoppdateringer og dataforespørsler. Ofte er disse datamaskinene ikke på stedet, men i datasentre utstyrt med viktig infrastruktur.

Med rimelige datamaskiner og lagring er det nå vanlig å bruke flere sammenkoblede datamaskiner i stedet for ett dyrt kraftsenter. Denne sammenkoblede tilnærmingen sikrer kontinuerlig drift selv om en datamaskin svikter og lar systemet håndtere økte belastninger.

Populære plattformer som Twitter, Facebook og Netflix er eksempler på skybaserte applikasjoner som kan administrere millioner av daglige brukere uten å krasje. Når datamaskiner i samme nettverk samarbeider for et felles mål, kalles det en klynge

Klynger, som fungerer som en enkelt enhet, tilbyr forbedret ytelse, tilgjengelighet og skalerbarhet.

Distribuert databehandling refererer til programvare utviklet for bruk klynger for spesifikke oppgaver, som Hadoop og Spark.

Så... igjen... hva er skyen? 

Utover delte ressurser, omfatter skyen servere, tjenester, nettverk og mer, administrert av én enkelt enhet. 

Mens Internett er et stort nettverk, er det ikke en sky siden ingen enkelt part eier det.

For å oppsummere er Data Science og Cloud Computing to sider av samme sak. 

Data Science gir fagfolk all teorien og teknikkene som er nødvendige for å trekke ut verdi fra data. 

Cloud Computing er den som gir infrastruktur for å lagre og behandle de samme dataene. 

Mens den første gir oss kunnskapen til å vurdere ethvert prosjekt, gir den andre oss muligheten til å gjennomføre det.

Sammen danner de en kraftig tandem som fremmer teknologisk innovasjon. 

Etter hvert som vi går fremover, vil synergien mellom disse to vokse sterkere, og baner vei for en mer datadrevet fremtid.

Omfavn fremtiden, for den er datadrevet og skydrevet!
 
 
Josep Ferrer er en analyseingeniør fra Barcelona. Han ble uteksaminert i fysikkingeniør og jobber for tiden i Data Science-feltet brukt på menneskelig mobilitet. Han er en deltidsinnholdsskaper med fokus på datavitenskap og teknologi. Du kan kontakte ham på Linkedin, Twitter or Medium.
 

Tidstempel:

Mer fra KDnuggets