Сегодня мы анонсировала RStudio на Amazon SageMaker, первая интегрированная среда разработки (IDE) машинного обучения (ML) в облаке для специалистов по данным, работающих в R. Язык с открытым исходным кодом R и его богатая экосистема с более чем 18,000 пакеты был лучшим выбором для статистиков, количественных аналитиков, специалистов по данным и инженеров машинного обучения. RStudio на SageMaker позволяет специалистам по данным легко выполнять статистический анализ, создавать модели машинного обучения и создавать контент для анализа данных в централизованной среде для команды, не беспокоясь о вычислительной инфраструктуре.
Наряду с RStudio Workbench частью пакета RStudio для разработчиков R являются RStudio Connect и RStudio Package Manager. RStudio Connect позволяет легко получить информацию о машинном обучении и науке о данных из сложной работы специалистов по данным и передать ее в руки лиц, принимающих решения. RStudio Connect позволяет специалистам по обработке и анализу данных публиковать идеи, информационные панели и веб-приложения. RStudio Connect также упрощает размещение и управление контентом и делает его масштабируемым для широкого использования.
Диспетчер пакетов RStudio помогает организовать и централизовать пакеты R в командах и организациях машинного обучения. По мере разработки своих моделей машинного обучения специалистам по данным требуются различные пакеты с различными возможностями для вариантов использования машинного обучения в RStudio. Управление исходными кодами и версиями этих пакетов и многочисленных общедоступных репозиториев вручную для корпоративных пользователей чревато ошибками и отнимает много времени. Диспетчер пакетов RStudio устраняет эти проблемы, централизованно управляя репозиторием пакетов для вашей организации, чтобы специалисты по обработке и анализу данных могли быстро и безопасно устанавливать пакеты, а также обеспечивать воспроизводимость и повторяемость проекта. Безопасность и воспроизводимость являются наиболее важными аспектами в регулируемых отраслях, таких как здравоохранение и финансы.
В этом посте мы сначала покажем вам, как спроектировать и развернуть RStudio Connect и RStudio Package Manager с хорошо спроектированным решением в AWS. Затем мы покажем вам, как использовать RStudio Connect и диспетчер пакетов RStudio из RStudio на SageMaker. Мы используем Набор данных рака молочной железы UCI для создания нескольких типов содержимого машинного обучения на языке R в RStudio на SageMaker. Содержимое машинного обучения, которое мы демонстрируем в посте, включает в себя R Markdown и приложение R Shiny.
Обзор решения
Архитектура решения основана на профессиональных версиях контейнеров RStudio Connect и RStudio Package Manager Docker. RStudio Connect и RStudio Package Manager настроены для двух Зоны доступности для высокой доступности. Контейнеры RStudio Connect и RStudio Package Manager поддерживают автоматическое масштабирование для обработки входящего трафика в зависимости от количества входящих запросов, памяти и использования ЦП в контейнерах.
Образы контейнеров хранятся и извлекаются из Реестр Amazon Elastic Container (Amazon ECR) с включенным сканированием уязвимостей. Проблемы с уязвимостями следует решать до развертывания образов.
Следующая диаграмма иллюстрирует архитектуру решения.
Ниже приведены шаги рабочего процесса решения:
- Пользователи R получают доступ к RStudio Connect и RStudio Package Manager через Amazon Route 53. Route 53 — это служба DNS для входящих запросов.
- Маршрут 53 разрешает входящие запросы и перенаправляет их АВС ВАФ для проверки безопасности.
- Действительные запросы достигают Балансировщик нагрузки приложений (ALB), который направляет их в Amazon Elastic Контейнерный Сервис (Amazon ECS) кластер. ALB проверяет входящие запросы на сертификат HTTPS, который выдается и проверяется Диспетчер сертификатов AWS.
- Amazon ECS управляет контейнерами в кластере Эластичное вычислительное облако Amazon (Amazon EC2) (тип запуска EC2) в Группа автоматического масштабирования и отвечает за увеличение и уменьшение количества контейнеров по мере необходимости с помощью Поставщик емкости Amazon ECS.
- Входящие запросы обрабатываются сервером RStudio Connect в любом из доступных контейнеров RStudio Connect; пользователи аутентифицируются, а приложения отображаются в веб-браузере. Запросы диспетчера пакетов RStudio направляются в контейнер диспетчера пакетов.
- Amazon Aurora без сервера Базы данных PostgreSQL используются для обеспечения высокой доступности с использованием нескольких контейнеров как для RStudio Connect, так и для RStudio Package Manager. Aurora автоматически создает резервные копии баз данных бессерверного кластера. Данные на Aurora шифруются в состоянии покоя с использованием Служба управления ключами AWS (АРМ КМС).
- Эластичная файловая система Amazon (Amazon EFS) предоставляет постоянную файловую систему, необходимую для RStudio Connect и RStudio Package Manager. Данные в Amazon EFS шифруются при хранении с помощью AWS KMS. Amazon EFS — это файловая система NFS, в которой данные хранятся в нескольких зонах доступности в AWS Регион для надежности данных и высокой доступности. Файлы, созданные в контейнерах RStudio Connect и RStudio Package Manager, подключенных к Amazon EFS, автоматически резервируются Amazon EFS.
- Если сеанс пользователя взаимодействует с общедоступным Интернетом, исходящие запросы отправляются в NAT-шлюз из подсети частного контейнера.
- Шлюз NAT отправляет исходящие запросы для обработки через интернет-шлюз. Маршруты к Интернету также можно настроить с помощью Транзитный шлюз AWS.
МЫ ИСПОЛЬЗУЕМ Комплект для разработки облачных сервисов AWS (AWS CDK) для Python для разработки кода инфраструктуры и хранения кода в AWS CodeCommit репозиторий, так что Кодовый конвейер AWS может интегрировать стеки AWS CDK для автоматизированных сборок.
Код развертывания использует Общедоступные зоны Route 53 для обслуживания RStudio Connect и диспетчера пакетов RStudio по общедоступным URL-адресам. Вы можете использовать Частные зоны хостинга Route 53 для контейнеров RStudio Connect и RStudio Package Manager с внутренним ALB, который предоставляет частные конечные точки для пользователей, переходящих из RStudio в SageMaker в режиме подключения только к VPC. Это означает, что вам не нужен уже существующий общедоступный домен в вашей учетной записи AWS. Однако вам необходимо получить общедоступные образы Docker (RStudio Connect, Диспетчер пакетов RStudio), сохраните их в частном репозитории Amazon ECR и укажите код развертывания на эти образы для построения инфраструктуры.
Если все коммуникации между сервисами AWS должны оставаться внутри AWS, вы можете использовать Приватная ссылка AWS для настройки конечных точек VPC для сервисов AWS. AWS PrivateLink гарантирует, что межсервисный трафик не будет доступен в Интернете для конечных точек сервисов AWS.
Вы также можете обратиться к Решение RStudio Team от RStudio чтобы узнать, как развернуть стек технологий RStudio на Amazon EC2 в AWS в качестве альтернативы решению, обсуждаемому в этом посте.
Предпосылки
Чтобы развернуть стеки AWS CDK из исходного кода, необходимо просмотреть и выполнить предварительные условия, описанные в сопроводительном Репозиторий GitHub чтобы убедиться, что у вас есть необходимые ресурсы для продолжения.
Запустить решение
- Клонировать Репозиторий GitHub, проверьте филиал рск-рспми перейдите в папку aws-fargate-with-rstudio-open-source.
- Создайте репозиторий CodeCommit сохранить исходный код для установки RStudio Connect/RStudio Package Manager с помощью следующей команды:
- Передайте необходимые параметры в cdk.json после шага 3 в Процедура установки раздел ридми .
- Установить требования к пакету для приложения AWS CDK:
- Перед фиксацией кода в репозиторий CodeCommit синтезируйте стеки AWS CDK. Это гарантирует, что все необходимые значения контекста будут заполнены в
cdk.context.json
файл и позволяет избежать сопоставления фиктивных значений. - Зафиксируйте изменения в созданном вами репозитории CodeCommit. Выполните шаг 5 в Процедура установки файла readme, если вам нужна помощь с командами Git.
- Разверните стеки AWS CDK, чтобы установить RStudio Connect/RStudio Package Manager с помощью CodePipeline. Этот шаг занимает около 30 минут.
- Перейдите в Консоль CodePipeline (ссылка ведет на
us-west-2
Область, край). Отслеживайте конвейер и убедитесь, что службы созданы успешно.
Имя трубопровода RSC-RSPM-App-Pipeline-<instance>
. С этого момента конвейер запускается при фиксации в созданном вами репозитории CodeCommit. Нет необходимости бежать cdk deploy
(Шаг 7) больше.
- Когда установка конвейера завершена, вы можете получить доступ к RStudio Connect и RStudio Package Manager, используя следующие URL-адреса, где
r53_base_domain
иinstance
параметры, которые вы передали cdk.json:https://connect.<instance>.<r53_base_domain>
https://package.<instance>.<r53_base_domain>
- Вы можете использовать Исполнительный директор Amazon ECS для входа в контейнеры RStudio Connect и RStudio Package Manager. Следовать ридми для получения инструкций.
Управление пакетами с помощью диспетчера пакетов RStudio
Диспетчер пакетов RStudio помогает обеспечить согласованность и стандартизацию пакетов R в организации. В диспетчере пакетов RStudio ИТ-администратор может включить одобренный пакет в репозиторий. Можно создать несколько групп, чтобы иметь доступ к разным пакетам или версиям пакетов. RStudio Package Manager также выполняет все обновления и управление версиями пакетов. Администратор может включить автоматическое обновление пакетов или настроить диспетчер пакетов RStudio таким образом, чтобы пакеты можно было обновлять только вручную, что обеспечивает большую изоляцию между диспетчером пакетов RStudio и службой CRAN.
Настройка диспетчера пакетов RStudio
Мы можем создать репозиторий, который извлекает пакеты из RStudio CRAN, используя следующие команды. Для запуска этих команд нам необходимо подключиться к диспетчеру пакетов RStudio по SSH с помощью Amazon ECS Exec.
Команды создают репозиторий и подписывают его на встроенный источник с именем cran
. Когда это будет завершено, dev-cran
репозиторий доступен в веб-интерфейсе диспетчера пакетов RStudio, как показано на следующем снимке экрана. Этот веб-интерфейс доступен администратору, а также пользователям, у которых есть URL-адрес для него.
В дополнение к обслуживанию пакетов CRAN можно создавать репозитории для распространения локальных пакетов, пакетов Git, локальных пакетов вместе с пакетами CRAN, подмножества утвержденных пакетов CRAN и локальных пакетов, а также передовых пакетов из GitHub. Дополнительные сведения о создании репозиториев см. Обслуживание пакетов CRAN. Кроме того, RStudio Package Manager поддерживает Биокондуктор. Биопроводник — это широко используемая экосистема пакетов R в науках о жизни. Мы можем комбинировать пакеты Bioconductor с CRAN, а также с локальными пакетами в диспетчере пакетов RStudio.
Версии пакетов RStudio Package Manager
В веб-интерфейсе RStudio Package Manager на Установка на вкладке вы можете выбрать репозиторий по дате в представлении календаря. Вы также можете выбрать, использовать ли последнюю версию пакетов или закрепить пакеты на определенном моментальном снимке, как показано на следующем снимке экрана.
На Установка На вкладке мы также можем увидеть, какие системные требования могут потребоваться для пакетов репозитория, а также команды для их установки.
Настройте RStudio в домене SageMaker для использования RStudio Connect и диспетчера пакетов RStudio.
При создании домена SageMaker с помощью RStudio у вас есть возможность установить сервер RStudio Connect по умолчанию и репозиторий диспетчера пакетов RStudio для всех пользователей в вашем домене SageMaker. В процессе создания домена SageMaker, как описано в Создайте домен SageMaker с помощью RStudio в разделе Начало работы с RStudio на Amazon SageMaker, вы можете настроить URL-адреса RStudio Connect и RStudio Package Manager по умолчанию для всех профилей пользователей в Шаг 3: Настройки RStudio. Для RStudio Connect, введите URL-адрес сервера RStudio Connect. За Диспетчер пакетов RStudio, войдите в репозиторий CRAN или Bioconductor.
URL-адреса по умолчанию настроены и сохранены в /etc/rstudio/rsession.conf
для всех пользователей RStudio в SageMaker. Вы можете проверить репозиторий по умолчанию в консоли R с помощью options('repos')
. Вы должны увидеть репозиторий, указывающий на ваш диспетчер пакетов RStudio. Что касается URL-адреса RStudio Connect по умолчанию, он автоматически заполняется, когда вы одним щелчком мыши публикуете часть содержимого R.
Обновление репозитория из диспетчера пакетов RStudio в сеансе R
Если у вас уже есть рабочая версия RStudio в SageMaker и вы хотите использовать другой репозиторий, вы можете настроить сеанс R в RStudio в SageMaker для использования репозитория из диспетчера пакетов RStudio, выполнив следующие действия:
- В сеансе R на Инструменты Меню, выберите Глобальные параметры.
- Выберите Packages и затем выберите Изменить.
- В На заказ введите URL-адрес выбранного репозитория (находится на Установка вкладку веб-интерфейса RStudio Package Manager) и выберите OK.
- Выберите OK еще раз, и мы закончили!
Теперь пакеты, которые мы устанавливаем в RStudio, берутся из выбранного репозитория с вашего сервера диспетчера пакетов RStudio. Вы можете проверить это с помощью options('repos')
или установив пакет и посмотрев, откуда он берется. Подробнее см. Проверка на успех.
Обновление учетной записи RStudio Connect в сеансе R
Если у вас уже есть рабочая версия RStudio в SageMaker и вы хотите использовать сервер RStudio Connect, отличный от используемого по умолчанию, выполните следующие действия:
- На Инструменты Меню, выберите Глобальные параметры.
- Выберите Издательство.
- Выберите Свяжитесь.
- Выберите RStudio Connect.
- Введите общедоступный URL-адрес вашего сервера, например,
https://xxxx.rstudioconnect.com
, и выберите Следующая.
Появится новая страница с просьбой войти в систему с учетной записью, если это первый раз.
- Выберите Свяжитесь продолжать.
- Выберите Подключить аккаунт в диалоговом окне в RStudio.
Вы должны увидеть профиль пользователя RStudio Connect и URL-адрес сервера в списке.
Для получения дополнительной информации см. Подключите свою учетную запись RStudioи Подключение: RStudio IDE.
Теперь сервер RStudio Connect успешно подключен к RStudio на Amazon SageMaker. Мы готовы создать отличный контент и опубликовать его.
Создавайте контент машинного обучения в RStudio на Amazon SageMaker
Вы можете легко создать анализ в RStudio на Amazon SageMaker и опубликовать его нажатием кнопки в RStudio Connect, чтобы ваши соавторы могли использовать ваш анализ. Для этого поста мы используем Набор данных рака молочной железы UCI от mlbench
чтобы ознакомиться с некоторыми распространенными вариантами использования публикации: приложение R Markdown и Shiny.
R Уценка
R Markdown — отличный инструмент для выполнения анализа в R как части файла уценки и совместного использования в RStudio Connect. В rsconnect_rmarkdown/breast_cancer_eda.Rmd
, мы выполняем два простых анализа и рисуем набор данных вместе с текстами в уценке:
Мы можем просмотреть файл, выбрав Вязать и опубликуйте его в RStudio Connect, выбрав Опубликовать.
Помимо R Markdown, чаще всего вы создаете интерактивное приложение или информационную панель с помощью Shiny. Давайте посмотрим, как мы можем публиковать приложения Shiny из RStudio на Amazon SageMaker в RStudio Connect.
блестящее приложение
Блестящий — это пакет R, упрощающий программное создание интерактивных веб-приложений. Среди специалистов по данным популярно делиться своими анализами и моделями через приложение Shiny со своими заинтересованными сторонами. В rsconnect_shiny/breast-cancer-app/
, мы разрабатываем модель ML в breast_cancer_modeling.r
и создайте веб-приложение, позволяющее пользователям взаимодействовать с данными и моделью машинного обучения.
Для публикации откройте app.R
, а затем выбрать Опубликовать, Выберите оба app.R
и breast_cancer_modeling.r
чтобы публиковать.
В приложении вы можете изменить две функции для визуализации на графике и выбрать точки данных на графике, чтобы увидеть фактические данные и смоделировать прогнозы того, являются ли они доброкачественными или злокачественными случаями рака. Сдвинув порог вероятности, вы можете взаимодействовать с моделью и получать разные значения классификации. Вы можете увидеть панель инструментов в действии на следующем снимке экрана.
Заключение
В этом посте мы показали, как развернуть серверы RStudio Connect и RStudio Package Manager в AWS с архитектурой, основанной на AWS Fargate и Amazon ECS, с помощью AWS CDK. Когда RStudio Connect и RStudio Package Manager работают в облаке, мы показали вам, как использовать их из RStudio на Amazon SageMaker. Затем мы продемонстрировали, как развертывать материалы на основе R, такие как приложения R Markdown и Shiny, в экземпляре RStudio Connect на основе сценария использования для прогнозирования рака молочной железы.
Наличие экземпляра RStudio Connect в облаке не только позволяет вашим командам машинного обучения и обработки данных работать более эффективно, но и значительно упрощает обмен информацией об машинном обучении между заинтересованными сторонами и бизнес-подразделениями. Это, в свою очередь, способствует использованию машинного обучения в вашей организации для достижения лучших результатов в бизнесе. С помощью диспетчера пакетов RStudio вы можете быстро и безопасно управлять, обслуживать и устанавливать пакеты R из надежных источников, чтобы обеспечить воспроизводимость проекта.
Вы можете узнать больше о RStudio на SageMaker с точки зрения специалиста по данным в посте Анонс полностью управляемой RStudio на Amazon SageMaker для специалистов по данным. Вы также можете узнать больше о том, как настроить и администрировать RStudio на SageMaker в посте Начало работы с RStudio на Amazon SageMaker. Чтобы узнать больше об Amazon SageMaker Studio, первой IDE для машинного обучения в облаке, см. Студия Amazon SageMaker.
Об авторах
Майкл Хси является старшим специалистом по ИИ/МО, архитектором решений. Он работает с клиентами, чтобы продвигать их на пути к машинному обучению, сочетая предложения Amazon Machine Learning и свои знания в области машинного обучения. Будучи переселенцем из Сиэтла, он любит исследовать великую природу, которую может предложить этот регион, например, пешеходные тропы, пейзажи на байдарках в SLU и закат в заливе Шилсхол.
Чаян Панда является архитектором облачной инфраструктуры. Он предоставляет консультационные услуги и идейное лидерство клиентам AWS по разработке надежных решений для миграции в облако, облачной инфраструктуры (безопасность, сеть, DevOps), внедрения платформ Greenfield, больших данных/ИИ/МО, а также бессерверных решений и решений для баз данных. Когда он не зациклен на клиентах, ему нравится короткая пробежка, музыка, книга или путешествие с семьей.
Фарук Сабир является старшим специалистом по ИИ/МО, архитектором решений. Он помогает клиентам решать их бизнес-задачи с помощью науки о данных, машинного обучения и искусственного интеллекта.
- '
- 000
- 100
- 7
- 9
- доступ
- Учетная запись
- Действие
- консультативный
- Все
- Amazon
- Amazon EC2
- Амазонское машинное обучение
- Создатель мудреца Амазонки
- среди
- анализ
- приложение
- Применение
- Приложения
- Программы
- архитектура
- около
- искусственный интеллект
- Aurora
- Автоматизированный
- свободных мест
- AWS
- залив
- Черный
- Кровоточащий Край
- Рак молочной железы
- браузер
- строить
- Строительство
- бизнес
- Календарь
- рак
- Пропускная способность
- случаев
- сертификат
- изменение
- Проверки
- классификация
- облако
- облачная инфраструктура
- код
- приход
- Общий
- Связь
- Вычисление
- связь
- потреблять
- потребление
- Container
- Контейнеры
- содержание
- Создающий
- Клиенты
- приборная панель
- данным
- наука о данных
- База данных
- базы данных
- Проект
- развивать
- застройщиков
- Развитие
- DevOps
- DNS
- Docker
- экосистема
- Edge
- Инженеры
- Предприятие
- Окружающая среда
- семья
- Особенности
- финансы
- Во-первых,
- Впервые
- следовать
- Замораживать
- GIF
- идти
- GitHub
- большой
- здравоохранение
- High
- пеший туризм
- держать
- хостинг
- Как
- How To
- HTTPS
- ICS
- промышленности
- информация
- Инфраструктура
- размышления
- Интеллекта
- интерактивный
- Интернет
- изоляция
- вопросы
- IT
- Основные
- знания
- язык
- последний
- запуск
- Наша команда
- УЧИТЬСЯ
- изучение
- Медико-биологическая промышленность
- LINK
- Список
- загрузка
- локальным
- обучение с помощью машины
- управление
- материалы
- ML
- модель
- мать
- двигаться
- Музыка
- сеть
- предлагают
- Предложения
- открытый
- Опция
- организация
- организации
- перспектива
- Платформа
- Популярное
- прогноз
- Predictions
- предварительный просмотр
- частная
- Профиль
- Профили
- Проект
- что такое варган?
- публиковать
- тянущий
- Питон
- квант
- Требования
- Полезные ресурсы
- ОТДЫХ
- обзоре
- дорога
- Run
- Бег
- sagemaker
- масштабирование
- сканирование
- Наука
- НАУКА
- Ученые
- Сиэтл
- безопасность
- выбранный
- Serverless
- Услуги
- выступающей
- набор
- Поделиться
- Короткое
- просто
- Снимок
- So
- Решения
- РЕШАТЬ
- и политические лидеры
- оставаться
- магазин
- магазины
- Закат
- поддержка
- Поддержка
- Поверхность
- система
- Технологии
- Источник
- продуманное лидерство
- время
- топ
- трафик
- транзит
- путешествовать
- Updates
- пользователей
- Вид
- уязвимость
- Web
- веб-приложений
- веб-браузер
- КТО
- в
- Работа
- рабочий
- работает