С появлением новых достижений и приложений в моделях машинного обучения и искусственного интеллекта, включая генеративный искусственный интеллект, генеративно-состязательные сети, компьютерное зрение и преобразователи, многие компании стремятся решить свои наиболее насущные проблемы с реальными данными, используя оба типа синтетических данных: структурированные и неструктурированные. Структурированные синтетические типы данных являются количественными и включают табличные данные, такие как числа или значения, тогда как неструктурированные синтетические типы данных являются качественными и включают текст, изображения и видео. Бизнес-лидеры и ученые, работающие с данными в различных отраслях, подчеркивают необходимость нового синтеза данных для устранения пробелов в данных, защиты конфиденциальной информации и повышения скорости их вывода на рынок. Они уже определяют и изучают несколько реальных вариантов использования синтетических данных, таких как:
- Генерация синтетических табличных данных для увеличения размера выборки и крайних случаев. Вы можете объединить эти данные с реальными наборами данных, чтобы улучшить обучение модели ИИ и точность прогнозирования.
- Создание синтетических тестовых данных для ускорения тестирования, оптимизации и проверки новых приложений и функций.
- Исследование сценариев «что, если» или новых бизнес-событий с использованием синтетических данных, синтезированных в результате агентного моделирования.
- Использование синтетических данных для предотвращения раскрытия конфиденциальных данных в алгоритмах машинного обучения.
- Совместное использование и монетизация высококачественной синтетической копии, защищенной конфиденциальностью, среди внутренних заинтересованных сторон или внешних деловых партнеров.
Тем не менее, синтез данных обеспечивает большую защиту от традиционных методов конфиденциальности и анонимизации данных (вспомним о маскировке), а также лучше сохраняет полезность данных. Однако среди бизнес-лидеров по-прежнему существует недостаток доверия. Чтобы завоевать это доверие и обеспечить широкое внедрение, поставщикам инструментов генерации синтетических данных необходимо будет ответить на два важнейших вопроса, которые задают многие бизнес-лидеры: Подвергнут ли синтетические данные мой бизнес дополнительным рискам конфиденциальности данных? Насколько точно синтетические данные отражают мои существующие данные?
К счастью, уже существуют передовые методы, которые помогут предприятиям оценить эти вопросы и, будем надеяться, укрепить доверие к синтетическим данным, которое им необходимо, чтобы стать более конкурентоспособными на современных постоянно меняющихся рынках. Давайте взглянем.
Обеспечение конфиденциальности синтетических данных
Хотя синтетические данные считаются искусственными или «поддельными данными», поскольку они генерируются компьютером, а не создаются реальными событиями (такими как покупка клиента, вход в Интернет или диагноз пациента), синтетические данные все же могут раскрывать личную информацию (PII) при использовании. в качестве обучающих данных для моделей ИИ. Например, если компания отдает приоритет точности при создании синтетических данных, результирующий результат может непреднамеренно включать слишком много личных идентифицируемых атрибутов, тем самым неосознанно увеличивая подверженность компании риску конфиденциальности. Кроме того, поскольку методы моделирования в науке о данных становятся все более сложными, включая глубокое обучение, а также прогнозные и генеративные модели, компании и поставщики должны усердно работать над предотвращением непреднамеренных связей, которые могут привести к утечке личности человека и подвергнуть его атакам третьих лиц.
К счастью, предприятия, заинтересованные в синтетических данных, могут предпринять шаги для снижения риска конфиденциальности:
Храните свои данные там, где они есть
В то время как многие компании переносят свои существующие программные приложения в облако для экономии средств, повышения производительности и масштабируемости, локальное развертывание продолжает играть ключевую роль в повышении конфиденциальности и защиты. Частично это справедливо для синтетических данных. При работе с полностью синтетическими данными (данными, созданными без существующих данных для обучения модели) или синтетическими данными, которые не содержат конфиденциальной информации или личных данных, существует минимальный риск, связанный с использованием метода развертывания общедоступного облака. Однако компаниям следует рассмотреть возможность локального развертывания, если их синтетические данные зависят от существующих конфиденциальных данных. Хотя сторонние поставщики облачных услуг предлагают надежные встроенные средства безопасности и защиты конфиденциальности, отправка и хранение конфиденциальных данных клиентов PII в таких облаках может подвергнуть вашу организацию потенциальным рискам и может быть заблокирована вашей командой по обеспечению конфиденциальности.
Иметь контроль и надежную защиту
Не все случаи использования синтетических данных требуют конфиденциальности, но некоторые требуют. Таким образом, руководители, занимающиеся рисками, безопасностью и соблюдением требований, должны внедрить механизм контроля желаемого уровня риска конфиденциальности в процессе создания синтетических данных. «Дифференциальная конфиденциальность» — один из таких механизмов, позволяющий специалистам по обработке данных и группам по управлению рисками управлять желаемым уровнем конфиденциальности (обычно в пределах эпсилон-диапазона от 1 до 10, где 1 соответствует наивысшей конфиденциальности). Этот метод маскирует вклад любого человека, что делает невозможным вывод о конкретной информации о человеке, в том числе о том, использовалась ли его информация вообще. Он автоматически идентифицирует уязвимые отдельные точки данных и вводит «шум», чтобы скрыть их конкретную информацию. Хотя добавление шума немного снижает точность вывода (это «цена» дифференциальной конфиденциальности), оно не ставит под угрозу полезность или качество данных по сравнению с традиционными методами маскировки данных. Другими словами, дифференциально частный синтетический набор данных по-прежнему отражает статистические свойства вашего реального набора данных. Кроме того, существуют преимущества использования методов дифференциальной конфиденциальности, включая надежную защиту данных от потенциальных атак на конфиденциальность, доказуемые гарантии конфиденциальности в отношении совокупного риска от последовательных выпусков данных и прозрачность данных, поскольку нет необходимости хранить в секрете дифференциальные частные вычисления или параметры.
Получите представление о показателях, связанных с конфиденциальностью
Когда дифференцированная конфиденциальность невозможна, бизнес-пользователи должны внимательно следить за показателями, связанными с конфиденциальностью, чтобы помочь им понять степень воздействия на их конфиденциальность. Вот два общих показателя, которые, хотя и не являются всеобъемлющими, но служат прочной основой:
- Оценка утечки: этот показатель измеряет долю строк в синтетическом наборе данных, которые идентичны исходному набору данных. Хотя синтетический набор данных может обеспечить высокую точность, он может поставить под угрозу конфиденциальность, включив слишком много исходных данных. Утечка данных происходит, когда исходные данные или фактические данные содержат информацию о цели, но такие данные не будут доступны, когда модель ИИ используется для прогнозирования или анализа.
- Оценка близости: Близость определяется путем расчета расстояния между исходными данными и синтетическими наборами данных. Меньшее расстояние указывает на более высокий риск конфиденциальности, поскольку облегчает изоляцию определенных строк от синтетических табличных данных.
Оценка качества синтетических данных
Внедрение в масштабах всего предприятия также требует от руководителей бизнеса и специалистов по обработке данных уверенности в качестве выходных синтетических данных. В частности, они должны быстро и легко понять, насколько точно синтетические данные поддерживают статистические свойства существующей модели данных. В то время как некоторые варианты использования требуют синтетических данных с более низкой точностью, например, иллюстративные данные для создания реалистичных демонстраций продуктов, ресурсов внутреннего обучения или определенных сценариев обучения моделей ИИ, другие варианты использования требуют высокой степени точности, например, при синтезе данных о пациентах в здравоохранении. В последнем случае, поскольку компания здравоохранения может использовать синтетические результаты для выявления новых сведений о пациентах, которые будут использоваться для принятия последующих решений, руководители бизнеса должны гарантировать, что синтетические данные точно отражают условия их фактического бизнеса.
Давайте посмотрим на верность и другие показатели, связанные с качеством, более внимательно:
Верность
Важным показателем является «верность». Он оценивает качество синтетических данных с точки зрения их сходства с реальными данными и моделью данных. Предприятия должны получить представление не только о распределении столбцов, но и о связях между другими столбцами, как «один к одному» (одномерные), так и «один ко многим» (многомерные). Понимание последнего имеет решающее значение из-за сложности и размера большинства существующих таблиц данных. К счастью, новейшие нейронные сети и генеративные модели искусственного интеллекта превосходно фиксируют эти сложные взаимосвязи в таблицах базы данных и данных временных рядов. Показатели точности отображаются с помощью гистограмм и корреляционных таблиц, которые, хотя и потенциально объемны, но дают ценную информацию. Если у вас еще нет доступа к аналитике точности, вы можете начать с использования пакетов Python с открытым исходным кодом, таких как метрики SD.
утилита
Модели ИИ требуют достаточного количества данных для эффективного обучения, а получение реальных наборов данных может занять много времени. Синтетические данные обеспечивают более быструю альтернативу обучению моделей машинного обучения. Поэтому важно понять полезность синтетических данных при обучении моделей ИИ, прежде чем делиться ими с соответствующими командами. По сути, этот показатель измеряет относительную точность прогнозирования модели машинного обучения при обучении на реальных данных по сравнению с синтетическими данными.
Справедливость
Еще одним важным показателем является «справедливость», тема, приобретающая все большее значение из-за потенциальных предвзятостей, присутствующих в наборах данных, собираемых предприятиями. Если существующий набор данных демонстрирует предвзятость, синтетические данные также будут предвзятыми. Понимание масштабов этой предвзятости может помочь предприятиям распознать и потенциально исправить ее. Хотя это не так распространено в современных решениях на основе синтетических данных и не так важно, как конфиденциальность, точность или полезность, понимание предвзятости ваших синтетических данных поможет предприятиям принимать обоснованные решения.
Как начать работу с синтетическими данными в watsonx.ai
Разработчики искусственного интеллекта и специалисты по обработке данных могут генерировать синтетические табличные данные, импортируя данные из базы данных, загружая файл или создавая собственную схему данных в IBM® watsonx.ai™. Эту основанную на статистике модель можно использовать для генерации данных, которые помогут повысить точность прогнозирования моделей обучения ИИ за счет крайних случаев и больших размеров выборки. Эти данные также можно использовать для повышения реалистичности демонстраций для клиентов и учебных материалов для сотрудников.
Watsonx.ai — это готовая к использованию на предприятии студия искусственного интеллекта нового поколения для машинного обучения и генеративного искусственного интеллекта, основанная на базовых моделях. С помощью студии watsonx.ai разработчики ИИ, в том числе специалисты по данным, разработчики приложений и бизнес-аналитики, могут обучать, проверять, настраивать и развертывать как традиционное машинное обучение, так и новые возможности генеративного ИИ. Watsonx.ai предназначен для облегчения совместной работы и масштабируемости при разработке приложений искусственного интеллекта и может быть развернут в гибридных облачных средах.
Ознакомьтесь с нашей службой генератора синтетических данных на watsonx.ai либо доступ к нашей бесплатной пробной версии or запланировать 30-минутный звонок с одним из наших watsonx.ai специалисты по продукту для пошагового руководства.
Узнайте о преимуществах watsonx.ai
Разблокируйте бесплатную пробную версию сегодня
Больше из данных и аналитики
Информационные бюллетени IBM
Получайте наши информационные бюллетени и обновления тем, в которых представлены последние передовые идеи и понимание новых тенденций.
Подписаться
Больше информационных бюллетеней
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://www.ibm.com/blog/synthetic-data-generation-building-trust-by-ensuring-privacy-and-quality/
- :имеет
- :является
- :нет
- :куда
- $UP
- 1
- 10
- 17
- 2020
- 2023
- 25
- 28
- 29
- 30
- 300
- 31
- 32
- 40
- 400
- 7
- 72
- 8
- 9
- a
- О нас
- ускоренный
- доступ
- доступность
- доступной
- точность
- точный
- точно
- Достигать
- через
- фактического соединения
- добавить
- дополнительный
- Дополнительно
- адрес
- принять
- Принятие
- авансы
- состязательный
- Реклама
- После
- против
- AI
- Принятие AI
- AI модели
- AI обучение
- варианты использования ИИ
- алгоритмы
- Все
- позволяет
- уже
- причислены
- альтернатива
- Несмотря на то, что
- Amazon
- Амазон РДС
- среди
- amp
- an
- анализ
- Аналитики
- аналитика
- и
- любой
- Применение
- Разработка приложения
- Приложения
- соответствующий
- МЫ
- гайд
- искусственный
- искусственный интеллект
- Искусственный интеллект (AI)
- AS
- спросить
- оценивает
- Активы
- связанный
- At
- нападки
- Атрибуты
- аудитория
- Август
- августа 2
- автор
- автоматически
- доступен
- назад
- бар
- основанный
- BE
- , так как:
- становиться
- до
- Преимущества
- ЛУЧШЕЕ
- лучшие практики
- Лучшая
- между
- смещение
- пристрастный
- предубеждения
- заблокировал
- Блог
- Синии
- изоферменты печени
- приносить
- широкий
- строить
- строить доверие
- Строители
- Строительство
- встроенный
- бизнес
- Бизнес лидеры
- бизнес
- но
- кнопка
- by
- расчет
- CAN
- возможности
- захваченный
- Захват
- углерод
- карта
- Карты
- случаев
- случаев
- КПП
- Категории
- определенный
- проблемы
- проверка
- круги
- класс
- клиент
- тесно
- облако
- код
- сотрудничество
- цвет
- Column
- Колонки
- объединять
- Общий
- сообщество
- Компании
- Компания
- Компании
- сравненный
- конкурентоспособный
- сложность
- Соответствие закону
- постигать
- комплексный
- скомпрометированы
- Ослабленный
- вычисление
- компьютер
- Компьютерное зрение
- генерируемые компьютером
- Условия
- доверие
- Коммутация
- Рассматривать
- считается
- обращайтесь
- Container
- содержит
- содержание
- продолжать
- продолжается
- вклад
- контроль
- исправить
- Корреляция
- Цена
- экономия на издержках
- может
- создали
- Создающий
- критической
- решающее значение
- CSS
- изготовленный на заказ
- клиент
- данные клиентов
- Клиенты
- ежедневно
- ежедневные транзакции
- данным
- утечка данных
- точки данных
- конфиденциальность данных
- защита данных
- Качество данных
- наука о данных
- информационное хранилище
- База данных
- базы данных
- Наборы данных
- Время
- занимавшийся
- десятилетия
- Принятие решений
- решения
- глубоко
- глубокое обучение
- По умолчанию
- Определения
- Степень
- доставить
- Демос
- Зависимости
- развертывание
- развернуть
- развертывание
- развертывания
- описание
- предназначенный
- желанный
- определены
- застройщиков
- Развитие
- диагностика
- старательно
- непосредственно
- расстояние
- распределения
- do
- документ
- приносит
- дело
- управлять
- два
- в течение
- каждый
- простота
- легче
- легко
- легко
- экономику
- Edge
- Эффективный
- или
- появление
- появление
- подчеркивать
- Сотрудник
- включить
- позволяет
- повышать
- повышение
- обеспечивать
- обеспечивает
- обеспечение
- Enter
- предприятий
- Весь
- средах
- по существу
- Эфир (ETH)
- оценивать
- Даже
- События
- НИКОГДА
- постоянно меняющихся
- эволюция
- Excel
- Возбуждение
- Экспонаты
- существующий
- существует
- Выход
- ускорять
- Исследование
- Экспозиция
- степень
- и, что лучший способ
- содействовал
- ложный
- БЫСТРО
- быстрее
- Особенности
- чувствовать
- верность
- Файл
- следовать
- после
- шрифты
- Что касается
- принуждение
- К счастью
- Год основания
- доля
- каркасы
- Бесплатно
- бесплатная пробная версия
- от
- полностью
- Более того
- Gain
- получила
- получение
- пробелы
- порождать
- генерируется
- порождающий
- поколение
- генеративный
- генеративные состязательные сети
- Генеративный ИИ
- генератор
- получить
- Графики
- схватывание
- сетка
- Расти
- гарантии
- управляемый
- было
- Есть
- Заголовок
- здравоохранение
- высота
- помощь
- здесь
- High
- высококачественный
- высший
- наивысший
- С надеждой
- Как
- Однако
- HTTP
- HTTPS
- Гибридный
- Гибридное облако
- IBM
- ICO
- ICON
- идентичный
- идентифицирует
- определения
- идентифицирующий
- Личность
- if
- изображение
- изображений
- воображение
- огромный
- Влияние
- осуществлять
- важную
- импортирующий
- что она
- улучшать
- улучшенный
- in
- В других
- ненароком
- включают
- включает в себя
- В том числе
- Увеличение
- расширились
- повышение
- все больше и больше
- индекс
- указывает
- individual
- промышленности
- наделяют информацией
- информация
- сообщил
- инновации
- затраты
- понимание
- размышления
- пример
- Интеллекта
- заинтересованный
- в нашей внутренней среде,
- Интернет
- в
- запутанный
- Представляет
- IT
- итерация
- ЕГО
- саму трезвость
- работа
- JPG
- Сохранить
- Основные
- Отсутствие
- запаздывание
- большой
- больше
- последний
- Лидеры
- Наша команда
- утечка
- изучение
- наименее
- уровень
- Используя
- такое как
- линия
- локальным
- местный
- Войти
- посмотреть
- ниже
- машина
- обучение с помощью машины
- Mainstream
- поддерживать
- поддерживает
- сделать
- ДЕЛАЕТ
- Создание
- управлять
- многих
- рынок
- доля рынка
- Области применения:
- Маски
- материалы
- зрелость
- макс-ширина
- Май..
- означает
- меры
- механизм
- метод
- метрический
- Метрика
- мигрирующий
- мин
- минимальный
- минут
- Мобильный телефон
- модель
- моделирование
- Модели
- БОЛЕЕ
- самых
- много
- должен
- my
- Навигация
- Необходимость
- сетей
- нервный
- нейронные сети
- Новые
- Рассылки
- следующее поколение
- нет
- Шум
- ничего
- Ноябрь
- сейчас
- номера
- получение
- of
- от
- предлагают
- Предложения
- on
- ONE
- только
- открытый
- с открытым исходным кодом
- оптимизм
- оптимизация
- оптимизированный
- Опция
- Опции
- or
- организация
- организации
- оригинал
- Другое
- наши
- внешний
- выходной
- пакеты
- страница
- параметры
- особый
- партнеры
- пациент
- данные пациента
- производительность
- человек
- Лично
- PHP
- PII
- основной
- Часть
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Играть
- играл
- плагин
- пунктов
- политика
- Популярное
- популярность
- должность
- После
- потенциал
- потенциально
- Питание
- практиками
- прогноз
- интеллектуального
- представить
- консервирование
- прессование
- превалирующий
- предотвращать
- первичный
- приоритизирует
- политикой конфиденциальности.
- Методы конфиденциальности
- частная
- процесс
- обработка
- Продукт
- Прогресс
- протуберанец
- свойства
- для защиты
- защиту
- доказуемый
- поставщики
- приводит
- что такое варган?
- Открытое облако
- покупки
- Питон
- качественный
- количественный
- Четверть
- Вопросы
- САЙТ
- быстро
- ассортимент
- быстро
- скорее
- Reading
- реальные
- реальный мир
- реалистичный
- последний
- признавать
- Red
- уменьшить
- снижает
- отражать
- отражает
- по
- Отношения
- относительный
- публикации
- надежность
- полагаться
- Ренессанс
- ответ
- представляющий
- требовать
- требуется
- исследователи
- отзывчивый
- в результате
- показывать
- доходы
- Снижение
- рисках,
- Роботы
- надежный
- Роли
- Run
- защитные меры
- Сказал
- экономия
- Масштабируемость
- Сценарии
- Наука
- Ученые
- Гол
- экран
- скрипты
- Secret
- безопасный
- безопасность
- посмотреть
- Искать
- поиск
- видел
- отправка
- чувствительный
- поисковая оптимизация
- служить
- обслуживание
- набор
- несколько
- Поделиться
- разделение
- должен
- показанный
- достопримечательность
- значительный
- сайте
- Размер
- Размеры
- небольшой
- меньше
- Software
- твердый
- Решение
- Решения
- некоторые
- удалось
- сложный
- Источник
- специалисты
- конкретный
- конкретно
- скорость
- Спонсоров
- квадраты
- заинтересованных сторон
- Начало
- и политические лидеры
- статистический
- Шаги
- По-прежнему
- структурированный
- студия
- подписаться
- такие
- достаточный
- Опрос
- SVG
- синтез
- синтетический
- синтетические данные
- системы
- взять
- Говорить
- цель
- задачи
- команда
- команды
- снижения вреда
- terms
- третичный
- тестXNUMX
- Тестирование
- текст
- чем
- который
- Ассоциация
- мир
- их
- Их
- тема
- тогда
- Там.
- тем самым
- следовательно
- Эти
- они
- think
- сторонние
- этой
- мысль
- продуманное лидерство
- Через
- время
- кропотливый
- Название
- в
- Сегодняшних
- вместе
- слишком
- инструменты
- топ
- тема
- традиционный
- Train
- специалистов
- Обучение
- транзакционный
- Сделки
- преобразующей
- преобразован
- трансформеры
- Прозрачность
- прозрачный
- Тенденции
- суд
- триллионы
- правда
- Доверие
- два
- напишите
- Типы
- типично
- Проходят
- понимать
- понимание
- Updates
- Загрузка
- URL
- использование
- прецедент
- используемый
- пользователей
- через
- утилита
- VALIDATE
- Проверка
- ценный
- Наши ценности
- разнообразие
- различный
- поставщики
- Видео
- видение
- VMware
- Уязвимый
- W
- Склады
- варрант
- законопроект
- we
- когда
- будь то
- который
- в то время как
- Шире
- будете
- в
- без
- WordPress
- слова
- Работа
- работает
- Мир
- мире
- письменный
- лет
- являетесь
- ВАШЕ
- зефирнет