Генерация синтетических данных: укрепление доверия путем обеспечения конфиденциальности и качества - Блог IBM

Переиздано Платоном

Читают: 0

С появлением новых достижений и приложений в моделях машинного обучения и искусственного интеллекта, включая генеративный искусственный интеллект, генеративно-состязательные сети, компьютерное зрение и преобразователи, многие компании стремятся решить свои наиболее насущные проблемы с реальными данными, используя оба типа синтетических данных: структурированные и неструктурированные. Структурированные синтетические типы данных являются количественными и включают табличные данные, такие как числа или значения, тогда как неструктурированные синтетические типы данных являются качественными и включают текст, изображения и видео. Бизнес-лидеры и ученые, работающие с данными в различных отраслях, подчеркивают необходимость нового синтеза данных для устранения пробелов в данных, защиты конфиденциальной информации и повышения скорости их вывода на рынок. Они уже определяют и изучают несколько реальных вариантов использования синтетических данных, таких как:

Генерация синтетических табличных данных для увеличения размера выборки и крайних случаев. Вы можете объединить эти данные с реальными наборами данных, чтобы улучшить обучение модели ИИ и точность прогнозирования.
Создание синтетических тестовых данных для ускорения тестирования, оптимизации и проверки новых приложений и функций.
Исследование сценариев «что, если» или новых бизнес-событий с использованием синтетических данных, синтезированных в результате агентного моделирования.
Использование синтетических данных для предотвращения раскрытия конфиденциальных данных в алгоритмах машинного обучения.
Совместное использование и монетизация высококачественной синтетической копии, защищенной конфиденциальностью, среди внутренних заинтересованных сторон или внешних деловых партнеров.

Тем не менее, синтез данных обеспечивает большую защиту от традиционных методов конфиденциальности и анонимизации данных (вспомним о маскировке), а также лучше сохраняет полезность данных. Однако среди бизнес-лидеров по-прежнему существует недостаток доверия. Чтобы завоевать это доверие и обеспечить широкое внедрение, поставщикам инструментов генерации синтетических данных необходимо будет ответить на два важнейших вопроса, которые задают многие бизнес-лидеры: Подвергнут ли синтетические данные мой бизнес дополнительным рискам конфиденциальности данных? Насколько точно синтетические данные отражают мои существующие данные?

К счастью, уже существуют передовые методы, которые помогут предприятиям оценить эти вопросы и, будем надеяться, укрепить доверие к синтетическим данным, которое им необходимо, чтобы стать более конкурентоспособными на современных постоянно меняющихся рынках. Давайте взглянем.

Обеспечение конфиденциальности синтетических данных

Хотя синтетические данные считаются искусственными или «поддельными данными», поскольку они генерируются компьютером, а не создаются реальными событиями (такими как покупка клиента, вход в Интернет или диагноз пациента), синтетические данные все же могут раскрывать личную информацию (PII) при использовании. в качестве обучающих данных для моделей ИИ. Например, если компания отдает приоритет точности при создании синтетических данных, результирующий результат может непреднамеренно включать слишком много личных идентифицируемых атрибутов, тем самым неосознанно увеличивая подверженность компании риску конфиденциальности. Кроме того, поскольку методы моделирования в науке о данных становятся все более сложными, включая глубокое обучение, а также прогнозные и генеративные модели, компании и поставщики должны усердно работать над предотвращением непреднамеренных связей, которые могут привести к утечке личности человека и подвергнуть его атакам третьих лиц.

К счастью, предприятия, заинтересованные в синтетических данных, могут предпринять шаги для снижения риска конфиденциальности:

Храните свои данные там, где они есть

В то время как многие компании переносят свои существующие программные приложения в облако для экономии средств, повышения производительности и масштабируемости, локальное развертывание продолжает играть ключевую роль в повышении конфиденциальности и защиты. Частично это справедливо для синтетических данных. При работе с полностью синтетическими данными (данными, созданными без существующих данных для обучения модели) или синтетическими данными, которые не содержат конфиденциальной информации или личных данных, существует минимальный риск, связанный с использованием метода развертывания общедоступного облака. Однако компаниям следует рассмотреть возможность локального развертывания, если их синтетические данные зависят от существующих конфиденциальных данных. Хотя сторонние поставщики облачных услуг предлагают надежные встроенные средства безопасности и защиты конфиденциальности, отправка и хранение конфиденциальных данных клиентов PII в таких облаках может подвергнуть вашу организацию потенциальным рискам и может быть заблокирована вашей командой по обеспечению конфиденциальности.

Иметь контроль и надежную защиту

Не все случаи использования синтетических данных требуют конфиденциальности, но некоторые требуют. Таким образом, руководители, занимающиеся рисками, безопасностью и соблюдением требований, должны внедрить механизм контроля желаемого уровня риска конфиденциальности в процессе создания синтетических данных. «Дифференциальная конфиденциальность» — один из таких механизмов, позволяющий специалистам по обработке данных и группам по управлению рисками управлять желаемым уровнем конфиденциальности (обычно в пределах эпсилон-диапазона от 1 до 10, где 1 соответствует наивысшей конфиденциальности). Этот метод маскирует вклад любого человека, что делает невозможным вывод о конкретной информации о человеке, в том числе о том, использовалась ли его информация вообще. Он автоматически идентифицирует уязвимые отдельные точки данных и вводит «шум», чтобы скрыть их конкретную информацию. Хотя добавление шума немного снижает точность вывода (это «цена» дифференциальной конфиденциальности), оно не ставит под угрозу полезность или качество данных по сравнению с традиционными методами маскировки данных. Другими словами, дифференциально частный синтетический набор данных по-прежнему отражает статистические свойства вашего реального набора данных. Кроме того, существуют преимущества использования методов дифференциальной конфиденциальности, включая надежную защиту данных от потенциальных атак на конфиденциальность, доказуемые гарантии конфиденциальности в отношении совокупного риска от последовательных выпусков данных и прозрачность данных, поскольку нет необходимости хранить в секрете дифференциальные частные вычисления или параметры.

Получите представление о показателях, связанных с конфиденциальностью

Когда дифференцированная конфиденциальность невозможна, бизнес-пользователи должны внимательно следить за показателями, связанными с конфиденциальностью, чтобы помочь им понять степень воздействия на их конфиденциальность. Вот два общих показателя, которые, хотя и не являются всеобъемлющими, но служат прочной основой:

Оценка утечки: этот показатель измеряет долю строк в синтетическом наборе данных, которые идентичны исходному набору данных. Хотя синтетический набор данных может обеспечить высокую точность, он может поставить под угрозу конфиденциальность, включив слишком много исходных данных. Утечка данных происходит, когда исходные данные или фактические данные содержат информацию о цели, но такие данные не будут доступны, когда модель ИИ используется для прогнозирования или анализа.
Оценка близости: Близость определяется путем расчета расстояния между исходными данными и синтетическими наборами данных. Меньшее расстояние указывает на более высокий риск конфиденциальности, поскольку облегчает изоляцию определенных строк от синтетических табличных данных.

Оценка качества синтетических данных

Внедрение в масштабах всего предприятия также требует от руководителей бизнеса и специалистов по обработке данных уверенности в качестве выходных синтетических данных. В частности, они должны быстро и легко понять, насколько точно синтетические данные поддерживают статистические свойства существующей модели данных. В то время как некоторые варианты использования требуют синтетических данных с более низкой точностью, например, иллюстративные данные для создания реалистичных демонстраций продуктов, ресурсов внутреннего обучения или определенных сценариев обучения моделей ИИ, другие варианты использования требуют высокой степени точности, например, при синтезе данных о пациентах в здравоохранении. В последнем случае, поскольку компания здравоохранения может использовать синтетические результаты для выявления новых сведений о пациентах, которые будут использоваться для принятия последующих решений, руководители бизнеса должны гарантировать, что синтетические данные точно отражают условия их фактического бизнеса.

Давайте посмотрим на верность и другие показатели, связанные с качеством, более внимательно:

Верность

Важным показателем является «верность». Он оценивает качество синтетических данных с точки зрения их сходства с реальными данными и моделью данных. Предприятия должны получить представление не только о распределении столбцов, но и о связях между другими столбцами, как «один к одному» (одномерные), так и «один ко многим» (многомерные). Понимание последнего имеет решающее значение из-за сложности и размера большинства существующих таблиц данных. К счастью, новейшие нейронные сети и генеративные модели искусственного интеллекта превосходно фиксируют эти сложные взаимосвязи в таблицах базы данных и данных временных рядов. Показатели точности отображаются с помощью гистограмм и корреляционных таблиц, которые, хотя и потенциально объемны, но дают ценную информацию. Если у вас еще нет доступа к аналитике точности, вы можете начать с использования пакетов Python с открытым исходным кодом, таких как метрики SD.

утилита

Модели ИИ требуют достаточного количества данных для эффективного обучения, а получение реальных наборов данных может занять много времени. Синтетические данные обеспечивают более быструю альтернативу обучению моделей машинного обучения. Поэтому важно понять полезность синтетических данных при обучении моделей ИИ, прежде чем делиться ими с соответствующими командами. По сути, этот показатель измеряет относительную точность прогнозирования модели машинного обучения при обучении на реальных данных по сравнению с синтетическими данными.

Справедливость

Еще одним важным показателем является «справедливость», тема, приобретающая все большее значение из-за потенциальных предвзятостей, присутствующих в наборах данных, собираемых предприятиями. Если существующий набор данных демонстрирует предвзятость, синтетические данные также будут предвзятыми. Понимание масштабов этой предвзятости может помочь предприятиям распознать и потенциально исправить ее. Хотя это не так распространено в современных решениях на основе синтетических данных и не так важно, как конфиденциальность, точность или полезность, понимание предвзятости ваших синтетических данных поможет предприятиям принимать обоснованные решения.

Как начать работу с синтетическими данными в watsonx.ai

Разработчики искусственного интеллекта и специалисты по обработке данных могут генерировать синтетические табличные данные, импортируя данные из базы данных, загружая файл или создавая собственную схему данных в IBM® watsonx.ai™. Эту основанную на статистике модель можно использовать для генерации данных, которые помогут повысить точность прогнозирования моделей обучения ИИ за счет крайних случаев и больших размеров выборки. Эти данные также можно использовать для повышения реалистичности демонстраций для клиентов и учебных материалов для сотрудников.

Watsonx.ai — это готовая к использованию на предприятии студия искусственного интеллекта нового поколения для машинного обучения и генеративного искусственного интеллекта, основанная на базовых моделях. С помощью студии watsonx.ai разработчики ИИ, в том числе специалисты по данным, разработчики приложений и бизнес-аналитики, могут обучать, проверять, настраивать и развертывать как традиционное машинное обучение, так и новые возможности генеративного ИИ. Watsonx.ai предназначен для облегчения совместной работы и масштабируемости при разработке приложений искусственного интеллекта и может быть развернут в гибридных облачных средах.

Ознакомьтесь с нашей службой генератора синтетических данных на watsonx.ai либо доступ к нашей бесплатной пробной версии or запланировать 30-минутный звонок с одним из наших watsonx.ai специалисты по продукту для пошагового руководства.

Узнайте о преимуществах watsonx.ai

Разблокируйте бесплатную пробную версию сегодня

Синтетические данные на IBM watsonx.ai, менеджер по продукту

Больше из данных и аналитики

28 ноября 2023

IBM Db2 теперь доступна на Amazon RDS

4 мин чтения – IBM® Db2® переживает период возрождения. Мы чувствуем оптимизм и волнение, когда разговариваем с нашими клиентами и деловыми партнерами. И мы видим это в наших цифрах: квартал за кварталом Db2 продолжает увеличивать выручку и завоевывать долю рынка. Клиенты доверяют Db2 больше, чем когда-либо прежде, при выполнении своих критически важных приложений и рабочих нагрузок. Эти приложения управляют мировой экономикой. Db2 глубоко внедряется и напрямую обеспечивает быструю, безопасную и точную обработку триллионов ежедневных транзакций в финансовых…

28 ноября 2023

Использование популярных платформ искусственного интеллекта с открытым исходным кодом для внедрения искусственного интеллекта в приложения IBM Z и IBM LinuxONE.

2 мин чтения – Программное обеспечение с открытым исходным кодом и искусственный интеллект Программное обеспечение с открытым исходным кодом оказало значительное влияние на мир искусственного интеллекта (ИИ) и сыграло ключевую роль в его развитии. Доступность для более широкой аудитории, быстрая итерация и расширение сотрудничества между разработчиками, специалистами по данным, исследователями и всем сообществом ИИ преобразовали ИИ и ускорили его эволюцию и зрелость. Открытый исходный код и предприятия Открытый исходный код стал мейнстримом и приобрел огромную популярность в последние годы. Опрос О'Рейли 2020 года об открытых…

7 ноября 2023

IBM и VMware помогают предприятиям внедрять генеративный искусственный интеллект с помощью watsonx локально

4 мин чтения – IBM и VMware совместно работают над внедрением IBM watsonx в локальные среды на базе VMware® Private AI и Red Hat® OpenShift®, чтобы обеспечить быстрые и прозрачные возможности генеративного искусственного интеллекта. В 2023 году мы стали свидетелями того, как внедрение ИИ стало массовым явлением, поскольку предприятия стремятся внедрять преобразующие инновации. Генеративный ИИ, в частности, захватил воображение организаций как средство создания нового контента на основе различных входных данных. Варианты использования и задачи генеративного ИИ весьма разнообразны — от генерации кода до контакт-центров…

2 августа 2023

Узнайте, что нового в SingleStoreDB с IBM 8.0

3 мин чтения – Несмотря на десятилетия прогресса в системах баз данных, разработчики пошли на компромисс, по крайней мере, с одним из следующих факторов: скоростью, надежностью или простотой. У них есть два варианта: во-первых, они могут получить базу данных документов, которая будет быстрой и простой, но на которую нельзя положиться для критически важных транзакционных приложений. Во-вторых, они могли бы положиться на облачное хранилище данных, которое легко настроить, но позволяет получать только отстающую аналитику. Даже в этом случае в каждом решении чего-то не хватает, что вынуждает разработчиков развертывать другие базы данных для…

Информационные бюллетени IBM

Получайте наши информационные бюллетени и обновления тем, в которых представлены последние передовые идеи и понимание новых тенденций.

Больше информационных бюллетеней

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://www.ibm.com/blog/synthetic-data-generation-building-trust-by-ensuring-privacy-and-quality/

Отметка времени: 29 ноября 2023

Отметка времени: 3 января, 2024