Täna oleme meie teatas RStudio Amazon SageMakeris, esimene masinõppe (ML) integreeritud arenduskeskkond (IDE) pilves R-is töötavatele andmeteadlastele. Avatud lähtekoodiga keel R ja selle rikas ökosüsteem, kus on rohkem kui 18,000 paketid on olnud statistikute, kvantanalüütikute, andmeteadlaste ja ML-inseneride parim valik. SageMakeri RStudio abil on andmeteadlastel lihtne teha statistilist analüüsi, koostada ML-mudeleid ja luua andmeteaduse sisu meeskonna jaoks tsentraliseeritud keskkonnas, ilma arvutustaristu pärast muretsemata.
Koos RStudio töölauaga R-arendajatele mõeldud RStudio komplekti kuuluvad RStudio Connect ja RStudio Package Manager. RStudio Connect muudab andmeteadlaste keerulise töö kohta lihtsaks ML-i ja andmeteaduse ülevaate ja annab selle otsustajate kätesse. RStudio Connect on loodud selleks, et andmeteadlased saaksid avaldada teadmisi, armatuurlaudu ja veebirakendusi. RStudio Connect muudab ka sisu hostimise ja haldamise lihtsaks ja laialdaseks tarbimiseks skaleeritavaks.
RStudio paketihaldur aitab korraldada ja tsentraliseerida R-pakette ML-i meeskondade ja organisatsioonide vahel. Kuna andmeteadlased arendavad oma ML-mudeleid, vajavad nad RStudio ML-i kasutusjuhtumite jaoks erinevaid erinevate võimalustega pakette. Nende pakettide allikate ja versioonide ning arvukate avalike hoidlate käsitsi haldamine ettevõtete kasutajate jaoks on tõrgeteta ja ka aeganõudev. RStudio paketihaldur leevendab neid probleeme, haldades teie organisatsiooni pakettide hoidlat keskselt, et andmeteadlased saaksid pakette kiiresti ja turvaliselt installida ning tagada projekti reprodutseeritavuse ja korratavuse. Turvalisus ja reprodutseeritavus on reguleeritud tööstusharudes, nagu tervishoid ja rahandus, kõige olulisemad aspektid.
Selles postituses näitame teile esmalt, kuidas RStudio Connecti ja RStudio Package Manageri AWS-is hästi arhitektuurse lahendusega üles ehitada ja juurutada. Seejärel näitame teile, kuidas kasutada SageMakeris RStudio RStudio Connecti ja RStudio Package Manageri. Me kasutame an UCI rinnavähi andmestik luua mitut tüüpi ML-sisu R-keeles SageMakeri RStudios. Postituses demonstreeritav ML-sisu sisaldab R Markdowni ja rakendust R Shiny
Lahenduse ülevaade
Lahenduse arhitektuur põhineb RStudio Connecti ja RStudio Package Manager Dockeri konteinerite professionaalsetel versioonidel. RStudio Connect ja RStudio Package Manager on konfigureeritud kahe vahel Kättesaadavuse tsoonid kõrge kättesaadavuse jaoks. Nii RStudio Connecti kui ka RStudio Package Manageri konteinerid toetavad automaatset skaleerimist, et käsitleda sissetulevat liiklust sõltuvalt sissetulevate päringute arvust, mälust ja konteinerite protsessori kasutusest.
Konteinerpildid salvestatakse ja sealt tuuakse Amazoni elastsete konteinerite register (Amazon ECR), mille haavatavuse skannimine on lubatud. Enne piltide juurutamist tuleks käsitleda haavatavuse probleeme.
Järgnev diagramm illustreerib lahenduse arhitektuuri.
Lahenduse töövoo etapid on järgmised.
- R-kasutajad pääsevad RStudio Connectile ja RStudio Package Managerile juurde Amazoni tee 53. Route 53 on sissetulevate päringute DNS-teenus.
- Marsruut 53 lahendab sissetulevad päringud ja edastab need AWS WAF turvakontrolli jaoks.
- Kehtivad taotlused jõuavad Rakenduse koormuse tasakaalustaja (ALB), mis edastab need Amazoni elastsete konteinerite teenus (Amazon ECS) klaster. ALB kontrollib sissetulevaid taotlusi HTTPS-sertifikaadi saamiseks, mille väljastab ja kinnitab AWS-i sertifikaadihaldur.
- Amazon ECS juhib konteinereid klastris Amazon Elastic Compute Cloud (Amazon EC2) eksemplarid (EC2 käivitustüüp) an Automaatse skaleerimise rühm ja vastutab konteinerite arvu suurendamise ja vähendamise eest vastavalt vajadusele, kasutades a Amazon ECS võimsuse pakkuja.
- Sissetulevaid päringuid töötleb RStudio Connecti server mis tahes saadaolevas RStudio Connecti konteineris; kasutajad autentitakse ja rakendused renderdatakse veebibrauseris. RStudio paketihalduri päringud suunatakse paketihalduri konteinerisse.
- Amazon Aurora serverita PostgreSQL-i andmebaase kasutatakse kõrge kättesaadavuse tagamiseks, kasutades nii RStudio Connecti kui ka RStudio paketihalduri jaoks mitut konteinerit. Aurora varundab serverita klastri andmebaasid automaatselt. Andmed Aurora kohta krüpteeritakse puhkeolekus kasutades AWS-i võtmehaldusteenus (AWS KMS).
- Amazon elastne failisüsteem (Amazon EFS) pakub püsivat failisüsteemi, mida nõuavad RStudio Connect ja RStudio Package Manager. Amazon EFS-i andmed krüpteeritakse puhkeolekus AWS KMS-i abil. Amazon EFS on NFS-failisüsteem, mis salvestab andmeid mitmes saadavuse tsoonis AWS piirkond andmete vastupidavuse ja kõrge kättesaadavuse tagamiseks. RStudio Connecti ja RStudio Package Manageri konteineri Amazon EFS-i kinnitustega loodud failid varundatakse automaatselt Amazon EFS-iga.
- Kui kasutajaseanss suhtleb avaliku Internetiga, saadetakse väljaminevad päringud aadressile a NAT lüüs privaatkonteineri alamvõrgust.
- NAT-lüüs saadab väljaminevad päringud töötlemiseks an Interneti lüüsi. Interneti-marsruute saab konfigureerida ka AWS Transit Gateway.
Me kasutame AWS pilvearenduskomplekt (AWS CDK) Pythoni jaoks infrastruktuuri koodi väljatöötamiseks ja koodi salvestamiseks AWS CodeCommit hoidla, nii et AWS CodePipeline saab integreerida AWS CDK virnad automatiseeritud ehituste jaoks.
Juurutuskood kasutab Route 53 avalik hostitud tsoonid RStudio Connecti ja RStudio Package Manageri teenindamiseks avalikult juurdepääsetavatel URL-idel. Sa võid kasutada Tee 53 privaatset hostitud tsooni RStudio Connecti ja RStudio Package Manageri konteinerite jaoks, millel on sisemine ALB, mis pakub privaatseid lõpp-punkte kasutajatele, kes tulevad SageMakeri RStudiost ainult VPC-ühendusrežiimis. See tähendab, et te ei vaja oma AWS-i kontol juba olemasolevat avalikku domeeni. Siiski peate hankima avalikud Dockeri pildid (RStudio Connect, RStudio paketihaldur) ja salvestage need privaatsesse Amazon ECR-i hoidlasse ning suunake juurutuskood nendele infrastruktuuriehituse piltidele.
Kui kogu AWS-teenuste vaheline suhtlus peab jääma AWS-i piiresse, saate seda kasutada AWS PrivateLink AWS-teenuste VPC lõpp-punktide konfigureerimiseks. AWS PrivateLink tagab, et teenustevaheline liiklus ei puutuks AWS-i teenuse lõpp-punktide jaoks Internetiga kokku.
Võite viidata ka RStudio meeskonnalahendus RStudiolt õppida, kuidas juurutada RStudio tehnoloogiapakk Amazon EC2-s AWS-is alternatiivina selles postituses käsitletud lahendusele.
Eeldused
Lähtekoodist AWS CDK virnade juurutamiseks peate üle vaatama ja täitma kaasasolevas dokumendis kirjeldatud eeltingimused. GitHubi hoidla veendumaks, et teil on jätkamiseks vajalikud ressursid.
Käivitage lahendus
- Kloonige GitHubi hoidla, vaadake läbi rsc-rspm haruja liikuge kausta aws-fargate-with-rstudio-open-source.
- Loo CodeCommiti hoidla RStudio Connect/RStudio Package Manager installimise lähtekoodi hoidmiseks järgmise käsuga:
- Sisestage vajalikud parameetrid cdk.json järgides jaotises 3. sammu Paigaldus Steps osa readme faili.
- Paigaldage pakendi nõuded AWS CDK rakenduse jaoks:
- Enne koodi sisestamist CodeCommiti hoidlasse sünteesige AWS CDK virnad. See tagab, et kõik vajalikud kontekstiväärtused on sisestatud
cdk.context.json
faili ja väldib näivate väärtuste vastendamist. - Kinnitage muudatused loodud CodeCommit reposse. Järgige jaotises 5. sammu Paigaldus Steps readme, kui vajate abi Giti käskudega.
- RStudio Connecti/RStudio Package Manageri installimiseks CodePipeline'i abil juurutage AWS CDK virnad. See samm võtab aega umbes 30 minutit.
- Liikuge CodePipeline'i konsool (link viib teid lehele
us-west-2
piirkond). Jälgige torustikku ja veenduge, et teenused on edukalt üles ehitatud.
Torujuhtme nimi on RSC-RSPM-App-Pipeline-<instance>
. Sellest hetkest alates käivitatakse konveier teie loodud CodeCommiti hoidlasse tehtavate kohustuste korral. Jooksma pole vaja cdk deploy
(7. samm) enam.
- Kui torujuhtme installimine on lõpetatud, pääsete juurde RStudio Connectile ja RStudio Package Managerile, kasutades järgmisi URL-e, kus
r53_base_domain
jainstance
on parameetrid, millesse sisestasite cdk.json:https://connect.<instance>.<r53_base_domain>
https://package.<instance>.<r53_base_domain>
- Võite kasutada Amazon ECS Exec nii RStudio Connecti kui ka RStudio Package Manageri konteineritesse sisselogimiseks. Mine järgi readme juhiseid.
Hallake pakette RStudio paketihalduriga
RStudio Package Manager aitab võimaldada R-pakettide järjepidevust ja standardimist kogu organisatsioonis. RStudio paketihalduris saab IT-administraator lisada hoidlasse kinnitatud paketi. Erinevatele pakettidele või paketiversioonidele juurdepääsu saamiseks saab luua mitu rühma. RStudio paketihaldur tegeleb ka kõigi pakettide värskendamise ja versioonidega. Administraator saab lubada pakettide automaatsed värskendused või konfigureerida RStudio Package Manageri nii, et pakette saab värskendada ainult käsitsi, mis tagab suurema isolatsiooni RStudio paketihalduri ja CRAN-teenuse vahel.
Seadistage RStudio paketihaldur
Saame luua hoidla, mis tõmbab paketid RStudio CRAN-ist, kasutades järgmised käsud. Nende käskude käivitamiseks peame SSH-i sisestama RStudio paketihaldurisse, kasutades Amazon ECS Exec.
Käsud loovad hoidla ja tellivad selle nimega sisseehitatud allikaga cran
. Kui see on lõpetatud, dev-cran
hoidla on saadaval RStudio Package Manageri veebiliideses, nagu on näidatud järgmisel ekraanipildil. Sellele veebiliidesele pääsevad juurde nii administraator kui ka kasutajad, kellel on selle URL.
Lisaks CRAN-pakettide teenindamisele saab luua hoidlaid, et levitada kohalikke pakette, Git-pakette, kohalikke pakette koos CRAN-pakettidega, heakskiidetud CRAN-i ja kohalike pakettide alamhulka ning GitHubist väljuvaid servapakette. Lisateavet hoidlate loomise kohta vt CRAN-pakettide teenindamine. Lisaks toetab RStudio Package Manager Biojuht. Bioconductor on bioteadustes sageli kasutatav R-pakettide ökosüsteem. Bioconductori pakette saame kombineerida nii CRAN-iga kui ka lokaalseid pakette RStudio Package Manageris.
RStudio Package Manager paketi versioonid
RStudio Package Manageri veebiliideses Seade vahekaardil saate valida hoidla kalendrivaates kuupäeva järgi. Samuti saate valida, kas kasutada pakettide uusimat versiooni või külmutada paketid konkreetse hetktõmmise jaoks, nagu on näidatud järgmisel ekraanipildil.
Kohta Seade vahekaardilt, näeme ka, milliseid süsteemieeldusi võib hoidla pakettide jaoks vaja minna, koos käskudega nende installimiseks.
Konfigureerige SageMakeri domeenis RStudio, et kasutada RStudio Connecti ja RStudio paketihaldurit
RStudioga SageMakeri domeeni loomisel on teil võimalus määrata kõigile teie SageMakeri domeeni kasutajatele RStudio Connecti vaikeserver ja RStudio Package Manageri hoidla. SageMakeri domeeni loomise protsessi käigus, nagu on üksikasjalikult kirjeldatud Looge RStudioga SageMakeri domeen jaotis RStudioga alustamine Amazon SageMakeris, saate konfigureerida RStudio Connecti ja RStudio Package Manageri vaike-URL-id kõigi kasutajaprofiilide jaoks 3. samm: RStudio seaded. Foorum RStudio Connect, sisestage RStudio Connect serveri URL. Sest RStudio paketihaldur, sisenege CRAN-i või Bioconductori hoidlasse.
Vaike-URL-id on konfigureeritud ja salvestatud /etc/rstudio/rsession.conf
kõigile SageMakeri RStudio kasutajatele. Saate R-konsoolis vaikehoidla kinnitada rakendusega options('repos')
. Peaksite nägema hoidlat, mis osutab teie RStudio paketihaldurile. Mis puutub RStudio Connecti vaike-URL-i, siis see täidetakse automaatselt, kui avaldate R-sisu ühe klõpsuga.
Hoidla värskendamine RStudio paketihaldurist R-seansis
Kui teil on SageMakeris juba töötav RStudio ja soovite kasutada mõnda muud hoidlat, saate konfigureerida oma R-seansi SageMakeri RStudios, et kasutada RStudio paketihalduri hoidlat järgmiste sammudega.
- R-seansil, TÖÖRIISTAD menüüst valige Globaalsed valikud.
- Vali Paketid ja siis vali Muutma.
- aasta tava väljale sisestage valitud hoidla URL (leitud Seade RStudio Package Manageri veebiliidese vahekaart) ja valige OK.
- Vali OK jälle ja ongi valmis!
Nüüd pärinevad RStudiosse installitavad paketid teie RStudio paketihalduri serverist valitud hoidlast. Saate seda kinnitada options('repos')
või installides paketi ja vaadake, kust see tõmbab. Täpsemalt vt Edu kontrollimine.
Värskendage RStudio Connecti kontot R-seansis
Kui teil on SageMakeris juba töötav RStudio ja soovite kasutada vaikeseadest erinevat RStudio Connecti serverit, toimige järgmiselt.
- Kohta TÖÖRIISTAD menüüst valige Globaalsed valikud.
- Vali Kirjastamine.
- Vali Võta meiega ühendust.
- Vali RStudio Connect.
- Sisestage oma serveri avalik URL, näiteks
https://xxxx.rstudioconnect.com
ja vali järgmine.
Ilmub uus leht, mis palub teil kontoga sisse logida, kui see on esimene kord.
- Vali Võta meiega ühendust jätkama.
- Vali Ühendage konto RStudio dialoogiaknas.
Peaksite loendis nägema RStudio Connecti kasutajaprofiili ja serveri URL-i.
Täpsema info saamiseks vt Ühendage oma RStudio kontoja Ühendus: RStudio IDE.
Nüüd on RStudio Connecti server edukalt ühendatud Amazon SageMakeri RStudioga. Oleme valmis suurepärast sisu looma ja avaldama.
Looge ML-sisu rakenduses Amazon SageMaker RStudios
Saate hõlpsasti luua analüüsi RStudios Amazon SageMakeris ja avaldada see nupuvajutusega oma RStudio Connectis, et teie kaastöötajad saaksid teie analüüsi tarbida. Selle postituse jaoks kasutame a UCI rinnavähi andmestik Alates mlbench
et tutvuda mõne levinumate avaldamisjuhtumitega: R Markdown ja Shiny rakendus.
R Markdown
R Markdown on suurepärane tööriist R-is analüüside käitamiseks allahindlusfaili osana ja jagamiseks RStudio Connectis. sisse rsconnect_rmarkdown/breast_cancer_eda.Rmd
, viime läbi kaks lihtsat analüüsi ja joonistame andmestikule koos allahindluse tekstidega:
Valides saame faili eelvaate vaadata Koo ja avaldage see RStudio Connectis, valides Avalda.
Lisaks R Markdownile koostate sageli Shinyga interaktiivset rakendust või armatuurlauda. Vaatame, kuidas saame Amazon SageMakeris asuvast RStudiost läikivaid rakendusi RStudio Connecti avaldada.
Särav rakendus
läikiv on R-pakett, mis muudab interaktiivsete veebirakenduste programmilise loomise lihtsaks. Andmeteadlaste seas on populaarne jagada oma analüüse ja mudeleid Shiny rakenduse kaudu sidusrühmadega. sisse rsconnect_shiny/breast-cancer-app/
, töötame välja ML-mudeli breast_cancer_modeling.r
ja luua veebirakendus, mis võimaldab kasutajatel andmete ja ML-mudeliga suhelda.
Avaldamiseks avage app.R
Ja vali Avalda. Valige mõlemad app.R
ja breast_cancer_modeling.r
avaldama.
Rakenduses saate muuta kahte graafikul visualiseeritavat funktsiooni ja valida graafikul olevad andmepunktid, et näha tegelikke andmeid ja modelleerida ennustusi selle kohta, kas tegemist on hea- või pahaloomuliste vähijuhtumitega. Tõenäosusläve libistades saate mudeliga suhelda ja saada teistsuguseid klassifikatsioone. Armatuurpaneeli töös näete järgmisel ekraanipildil.
Järeldus
Selles postituses näitasime teile, kuidas juurutada AWS-is RStudio Connecti ja RStudio Package Manageri servereid AWS Fargate'il ja Amazon ECS-il põhineva arhitektuuriga, kasutades AWS CDK-d. Kuna RStudio Connect ja RStudio Package Manager töötavad pilves, näitasime teile, kuidas neid Amazon SageMakeris RStudio kaudu kasutada. Seejärel demonstreerisime, kuidas juurutada R-põhiseid materjale, nagu R Markdown ja Shiny rakendused, RStudio Connecti eksemplaris rinnavähi prognoosimise kasutusjuhtumi põhjal.
RStudio Connecti eksemplari olemasolu pilves ei võimalda mitte ainult teie ML-i ja andmeteaduse meeskondadel tõhusamat koostööd teha, vaid muudab ka ML-i teadmiste jagamise sidusrühmade ja äriüksuste vahel palju lihtsamaks. See omakorda soodustab ML kasutamist teie organisatsioonis parema äritulemuse saavutamiseks. RStudio paketihalduriga saate kiiresti ja turvaliselt hallata, teenindada ja installida usaldusväärsetest allikatest pärit R-pakette, et tagada projekti reprodutseeritavus.
Saate postituses andmeteadlase vaatenurgast RStudio kohta lisateavet saidil SageMaker Täielikult hallatava RStudio väljakuulutamine andmeteadlaste jaoks mõeldud Amazon SageMakeris. Postitusest leiate ka lisateavet RStudio seadistamise ja haldamise kohta SageMakeris RStudioga alustamine Amazon SageMakeris. Lisateavet Amazon SageMaker Studio, esimese pilves oleva ML-i IDE kohta, leiate siit Amazon SageMaker Studio.
Autoritest
Michael Hsieh on AI/ML-lahenduste vanemarhitekt. Ta töötab klientidega, et edendada nende ML-teed, kombineerides Amazoni masinõppe pakkumisi ja oma ML-valdkonna teadmisi. Seattle'i siirdajana armastab ta avastada piirkonna suurepärast emakest loodust, nagu matkarajad, maastikuline süstasõit SLU-s ja päikeseloojang Shilshole'i lahe ääres.
Chayan Panda on pilveinfrastruktuuri arhitekt. Ta pakub AWS-i klientidele nõustamisteenuseid ja mõttejuhtimist pilvemigratsiooni, pilveinfrastruktuuri (turve, võrk, DevOps), Greenfieldi platvormi juurutuste, suurandmete/AI/ML-i ning serverita ja andmebaasilahenduste robustse lahenduse väljatöötamisel. Kui ta ei ole klientidest kinnisideeks, naudib ta lühikest jooksu, muusikat, raamatut või perega reisimist.
Farooq Sabir on AI/ML-lahenduste vanemarhitekt. Ta aitab klientidel lahendada oma äriprobleeme, kasutades andmeteadust, masinõpet ja tehisintellekti.
- '
- 000
- 100
- 7
- 9
- juurdepääs
- konto
- tegevus
- nõuandev
- Materjal: BPA ja flataatide vaba plastik
- Amazon
- Amazon EC2
- Amazoni masinõpe
- Amazon SageMaker
- vahel
- analüüs
- app
- taotlus
- rakendused
- apps
- arhitektuur
- ümber
- tehisintellekti
- Aurora
- Automatiseeritud
- kättesaadavus
- AWS
- laht
- Must
- Verejooks
- Rinnavähk
- brauseri
- ehitama
- Ehitus
- äri
- kalender
- vähk
- Võimsus
- juhtudel
- sertifikaat
- muutma
- Kontroll
- klassifikatsioon
- Cloud
- pilve infrastruktuur
- kood
- tulevad
- ühine
- Side
- Arvutama
- Side
- tarbima
- tarbimine
- Konteiner
- Konteinerid
- sisu
- loomine
- Kliendid
- armatuurlaud
- andmed
- andmeteadus
- andmebaas
- andmebaasid
- Disain
- arendama
- Arendajad
- & Tarkvaraarendus
- DevOps
- DNS
- laevalaadija
- ökosüsteemi
- serv
- Inseneride
- ettevõte
- keskkond
- pere
- FUNKTSIOONID
- rahastama
- esimene
- Esimest korda
- järgima
- Külmutama
- gif
- Git
- GitHub
- suur
- tervishoid
- Suur
- matkamine
- hoidma
- Hosting
- Kuidas
- Kuidas
- HTTPS
- ICS
- tööstusharudes
- info
- Infrastruktuur
- teadmisi
- Intelligentsus
- interaktiivne
- Internet
- isolatsioon
- küsimustes
- IT
- Võti
- teadmised
- keel
- hiljemalt
- algatama
- Juhtimine
- Õppida
- õppimine
- Maaülikooli
- LINK
- nimekiri
- koormus
- kohalik
- masinõpe
- juhtimine
- materjalid
- ML
- mudel
- ema
- liikuma
- muusika
- võrk
- pakkuma
- Pakkumised
- avatud
- valik
- organisatsioon
- organisatsioonid
- perspektiiv
- inimesele
- populaarne
- ennustus
- Ennustused
- Eelvaade
- era-
- profiil
- profiilid
- projekt
- avalik
- avaldama
- tõmmates
- Python
- nagu
- Nõuded
- Vahendid
- REST
- läbi
- Marsruut
- jooks
- jooksmine
- salveitegija
- ketendamine
- skaneerida
- teadus
- TEADUSED
- teadlased
- Seattle
- turvalisus
- väljavalitud
- Serverita
- Teenused
- teenindavad
- komplekt
- Jaga
- Lühike
- lihtne
- Snapshot
- So
- Lahendused
- LAHENDAGE
- alustatud
- jääma
- salvestada
- kauplustes
- Päikeseloojang
- toetama
- Toetab
- Pind
- süsteem
- Tehnoloogia
- Allikas
- mõttejuhtimine
- aeg
- ülemine
- liiklus
- transiit
- reisima
- Uudised
- Kasutajad
- vaade
- haavatavus
- web
- veebirakendused
- veebibrauseri
- WHO
- jooksul
- Töö
- töövoog
- töötab