Синтетические данные - Synthetic data

Синтетические данные «любые производственные данные, применимые к данной ситуации, которые не получены прямым измерением» согласно Словарю научных и технических терминов McGraw-Hill;^[1] где Крейг С. Маллинс, эксперт по управлению данными, определяет производственные данные как «информацию, которая постоянно хранится и используется профессионалами для ведения бизнес-процессов».^[2]

В большинстве случаев данные, полученные с помощью компьютерного моделирования, можно рассматривать как синтетические данные. Сюда входит большинство приложений физического моделирования, таких как музыкальные синтезаторы или имитаторы полета. Выход таких систем приближается к реальным, но генерируется полностью алгоритмически.

В контексте защиты конфиденциальности создание синтетических данных представляет собой сложный процесс обработки данных. анонимизация; то есть синтетические данные - это подмножество анонимных данных.^[3] Синтетические данные используются во множестве полей в качестве фильтра информации, которая в противном случае может поставить под угрозу конфиденциальность конкретных аспектов данных. Часто конкретные аспекты проявляются в форме человеческой информации (например, имя, домашний адрес, айпи адрес, номер телефона, номер социального страхования, Номер кредитной карты, так далее.).

Полезность

Синтетические данные создаются для удовлетворения конкретных потребностей или определенных условий, которые могут отсутствовать в исходных реальных данных. Это может быть полезно при разработке системы любого типа, потому что синтетические данные используются в качестве моделирования или как теоретическое значение, ситуация и т. Д. Это позволяет нам учитывать неожиданные результаты и иметь базовое решение или средство правовой защиты, если результаты окажутся быть неудовлетворительным. Синтетические данные часто генерируются для представления подлинных данных и позволяют установить базовый уровень.^[4] Еще одно использование синтетических данных - защита конфиденциальности и конфиденциальности аутентичных данных. Как указывалось ранее, синтетические данные используются при тестировании и создании различных типов систем; ниже приводится цитата из аннотации статьи, в которой описывается программное обеспечение, которое генерирует синтетические данные для тестирования систем обнаружения мошенничества, что дополнительно объясняет его использование и важность. «Это позволяет нам создавать реалистичные профили поведения для пользователей и злоумышленников. обучить мошенничество сама система обнаружения, тем самым создавая необходимую адаптацию системы к конкретной среде ».^[4]

История

Научное моделирование физических систем, который позволяет запускать моделирование, в котором можно оценивать / вычислять / генерировать точки данных, которые не наблюдались в реальной действительности, имеет долгую историю, которая выполняется одновременно с история физики сам. Например, исследования синтеза аудио и голос можно проследить до 1930-х годов и раньше, движимые развитием, например, телефонная и аудиозапись. Оцифровка породила программные синтезаторы с 1970-х годов.

В контексте статистического анализа, сохраняющего конфиденциальность, в 1993 году идея оригинальных полностью синтетических данных была создана Вбивать в голову.^[5] Первоначально Рубин разработал это, чтобы синтезировать полные ответы Десятилетней переписи для кратких домохозяйств. Затем он выпустил образцы, которые не включали никаких реальных полных записей - при этом он сохранил анонимность семьи.^[6] Позже в том же году Литтл придумал идею оригинальных частично синтетических данных. Литтл использовал эту идею для синтеза конфиденциальных значений в файле общего пользования.^[7]

В 1994 г. Fienberg придумал идею критического уточнения, в которой он использовал параметрическое апостериорное прогнозное распределение (вместо байесовского бутстрапа) для выполнения выборки.^[6] Позже были внесены другие важные вклады в развитие генерации синтетических данных. Trivellore Raghunathan, Джерри Рейтер, Дональд Рубин, Джон М. Абоуд, и Джим Вудкок. Вместе они придумали решение, как обрабатывать частично синтетические данные с отсутствующими данными. Точно так же они придумали технику многомерной последовательной регрессии. Вменение.^[6]

Приложения

Синтетические данные используются в процессе сбор данных. Тестирование и обучение мошенничество системы обнаружения, системы конфиденциальности и системы любого типа создаются с использованием синтетических данных. Как описано ранее, синтетические данные могут показаться просто компиляцией «выдуманных» данных, но существуют определенные алгоритмы и генераторы, предназначенные для создания реалистичных данных.^[8] Эти синтетические данные помогают обучить систему тому, как реагировать на определенные ситуации или критерии. Исследователь делает клинические испытания или любое другое исследование может генерировать синтетические данные, чтобы помочь в создании основы для будущих исследований и испытаний. Например, программное обеспечение для обнаружения вторжений тестируется с использованием синтетических данных. Эти данные являются представлением подлинных данных и могут включать в себя случаи вторжений, которых нет в подлинных данных. Синтетические данные позволяют программному обеспечению распознавать эти ситуации и соответствующим образом реагировать. Если бы синтетические данные не использовались, программное обеспечение было бы обучено реагировать только на ситуации, предоставляемые подлинными данными, и оно может не распознавать другой тип вторжения.^[4]

Синтетические данные также используются для защиты Конфиденциальность и конфиденциальность набора данных. Настоящие данные содержат личную / частную / конфиденциальную информацию, которую программист, создатель программного обеспечения или исследовательский проект могут не захотеть раскрывать.^[9] Синтетические данные не содержат личной информации и не могут быть прослежены до какого-либо лица; следовательно, использование синтетических данных снижает конфиденциальность и конфиденциальность.

Расчеты

Исследователи тестируют эту структуру на синтетических данных, которые являются «единственным источником достоверной информации, на основе которого они могут объективно оценить эффективность своих алгоритмы ".^[10]

Синтетические данные могут быть сгенерированы с помощью случайных линий, имеющих разную ориентацию и начальные позиции.^[11] Наборы данных могут быть довольно сложными. Более сложный набор данных можно сгенерировать с помощью сборки синтезатора. Чтобы создать сборку синтезатора, сначала используйте исходные данные, чтобы создать модель или уравнение, которое наилучшим образом соответствует данным. Эта модель или уравнение будет называться сборкой синтезатора. Эту сборку можно использовать для создания дополнительных данных.^[12]

Построение сборки синтезатора включает построение статистическая модель. В линейная регрессия пример строки, исходные данные могут быть нанесены на график, и линейная линия могут быть созданы из данных. Этот линия синтезатор, созданный из исходных данных. Следующим шагом будет создание дополнительных синтетических данных из сборки синтезатора или из этого линейного линейного уравнения. Таким образом, новые данные могут использоваться для исследований и исследований, и это защищает конфиденциальность исходных данных.^[12]

Дэвид Дженсен из Лаборатории открытия знаний объясняет, как генерировать синтетические данные: «Исследователям часто необходимо исследовать влияние определенных характеристик данных на их модель данных."^[12] Чтобы помочь построить наборы данных проявляющие специфические свойства, такие как автокорреляция или степень несоответствия, близость может генерировать синтетические данные, имеющие один из нескольких типов структуры графа: случайные графы которые порождаются некоторыми случайный процесс; решетчатые графы имеющий кольцевую структуру; решетчатые графы имеющий сеточную структуру и т. д.^[12]Во всех случаях процесс создания данных повторяется одинаково:

Создать пустой структура графа.
Генерировать значения атрибутов на основе предоставленных пользователем априорных вероятностей.

Поскольку значения атрибутов одного объекта может зависеть от значения атрибутов связанных объектов, процесс генерации атрибутов присваивает значения коллективно.^[12]

Синтетические данные в машинном обучении

Синтетические данные все чаще используются для машинное обучение приложения: модель обучается на синтетически сгенерированном наборе данных с целью передача обучения к реальным данным. Были предприняты усилия по созданию генераторов синтетических данных общего назначения, позволяющих наука о данных эксперименты.^[13] В целом синтетические данные имеют несколько естественных преимуществ:

как только синтетическая среда будет готова, можно быстро и дешево произвести столько данных, сколько необходимо;
синтетические данные могут иметь совершенно точные метки, включая маркировку, которую может быть очень дорого или невозможно получить вручную;
синтетическая среда может быть изменена для улучшения модели и обучения;
синтетические данные могут использоваться в качестве замены определенных сегментов реальных данных, которые содержат, например, конфиденциальную информацию.

Такое использование синтетических данных было предложено для приложений компьютерного зрения, в частности обнаружение объекта, где синтетическая среда - это трехмерная модель объекта,^[14] и научиться ориентироваться в окружающей среде с помощью визуальной информации.

В то же время трансферное обучение остается нетривиальной проблемой, а синтетические данные еще не получили повсеместного распространения. Результаты исследований показывают, что добавление небольшого количества реальных данных значительно улучшает трансферное обучение с синтетическими данными. Достижения в генеративные модели, особенно генеративные состязательные сети (GAN), приводят к естественной идее, что можно производить данные, а затем использовать их для обучения. Этот полностью синтетический подход еще не реализован,^[15] хотя GAN и состязательное обучение в целом уже успешно используются для улучшения генерации синтетических данных.^[16]

В настоящее время синтетические данные используются на практике в эмулируемых средах для обучения беспилотных автомобилей (в частности, с использованием реалистичных компьютерных игр для синтетических сред.^[17]), отслеживание точек,^[18] и розничные приложения,^[19] с такими методами, как рандомизация предметной области для трансферного обучения.^[20]

Другое применение - это популяционный синтез.^[21] задач, что является важной областью агентного моделирования.

Смотрите также

Суррогатные данные

дальнейшее чтение

Финберг, Стивен Э. (1994). «Конфликты между потребностями в доступе к статистической информации и требованиями конфиденциальности». Журнал официальной статистики. 10 (2): 115–132.
Литтл, Родерик Дж. (1993). «Статистический анализ маскированных данных». Журнал официальной статистики. 9 (2): 407–426.
Raghunathan, T.E .; Reiter, J.P .; Рубин, Д. (2003). «Множественное вменение для ограничения статистического раскрытия информации» (PDF). Журнал официальной статистики. 19 (1): 1–16.
Райтер, Джером П. (2004). «Одновременное использование множественного вменения за отсутствующие данные и ограничение раскрытия информации» (PDF). Методология исследования. 30: 235–242.

внешняя ссылка

Генератор данных, основанный на модели генератор синтетических данных для больших наборов данных
В датген генератор синтетических данных
YData Программное обеспечение для генерации синтетических данных
synthesized.io Программное обеспечение для генерации синтетических данных

Статья основана на материалах, взятых из Бесплатный онлайн-словарь по вычислительной технике до 1 ноября 2008 г. и зарегистрированы в соответствии с условиями «перелицензирования» GFDL, версия 1.3 или новее.

[McGraw-1] «Синтетические данные». Словарь научных и технических терминов Макгроу-Хилла. Получено 29 ноября, 2009.

[Mullins-2] Маллинз, Крейг С. (5 февраля 2009 г.). "Что такое производственные данные?". NEON Enterprise Software, Inc. Архивировано с оригинал 21 июля 2009 г.

[MachanavajjhalaEtAl-3] MacHanavajjhala, Ashwin; Кифер, Дэниел; Абоуд, Джон; Герке, Йоханнес; Вилхубер, Ларс (2008). Конфиденциальность: теория встречается с практикой на карте. 2008 24-я Международная конференция по инженерии данных IEEE. С. 277–286. CiteSeerX 10.1.1.119.9568. Дои:10.1109 / ICDE.2008.4497436. ISBN 978-1-4244-1836-7. S2CID 5812674.

[Barse-4] а ^б ^c Barse, E.L .; Kvarnström, H .; Йонссон, Э. (2003). Синтез тестовых данных для систем обнаружения мошенничества. Труды 19-й ежегодной конференции по приложениям компьютерной безопасности. IEEE. Дои:10.1109 / CSAC.2003.1254343.

[Rubin1993-5] «Обсуждение: ограничение статистического раскрытия информации». Журнал официальной статистики. 9: 461–468. 1993.

[Abowd-6] а ^б ^c Абоуд, Джон М. «Защита конфиденциальности микроданных социальных наук: синтетические данные и связанные методы. [Слайды в PowerPoint]». Получено 17 февраля 2011.

[Little-7] «Статистический анализ маскированных данных». Журнал официальной статистики. 9: 407–426. 1993.

[Deng-8] Дэн, Роберт Х .; Бао, Фэн; Чжоу, Цзяньин (декабрь 2002 г.). Информационная и коммуникационная безопасность. Материалы 4-й Международной конференции ICICS 2002, Сингапур. ISBN 9783540361596.

[Abowd2-9] Abowd, John M .; Лейн, Юлия (9–11 июня 2004 г.). Новые подходы к защите конфиденциальности: синтетические данные, удаленный доступ и исследовательские центры обработки данных. Конфиденциальность в статистических базах данных: Заключительная конференция проекта CASC, Труды. Барселона, Испания. Дои:10.1007/978-3-540-25955-8_22.

[10] Джексон, Чарльз; Мерфи, Роберт Ф .; Ковачевич, Елена (сентябрь 2009 г.). «Интеллектуальное получение и изучение моделей данных флуоресцентных микроскопов» (PDF). IEEE Transactions по обработке изображений. 18 (9): 2071–84. Bibcode:2009ITIP ... 18.2071J. Дои:10.1109 / TIP.2009.2024580. PMID 19502128. S2CID 3718670.

[11] Ван, Айки; Цю, Тяньшуан; Шао, Лонгтан (июль 2009 г.). «Простой метод коррекции радиальных искажений с оценкой центра искажений». Журнал математической визуализации и зрения. 35 (3): 165–172. Дои:10.1007 / s10851-009-0162-1. S2CID 207175690.

[Jensen-12] а ^б ^c ^d ^е Дэвид Дженсен (2004). «6. Использование скриптов». Proximity 4.3 Учебное пособие.

[13] Патки, Неха; Клин, Рой; Veeramachaneni, Kalyan. Хранилище синтетических данных. Наука о данных и расширенная аналитика (DSAA) 2016. IEEE. Дои:10.1109 / DSAA.2016.49.

[14] Пэн, Синчао; Солнце, Баочэнь; Али, Карим; Саенко, Катя (2015). «Изучение детекторов глубоких объектов по 3D-моделям». arXiv:1412.7122 [cs.CV ].

[15] Санчес, Кэсси. «Краткий обзор: генеративные модели и синтетические данные». Получено 5 сентября 2017.

[16] Шривастава, Ашиш; Пфистер, Томас; Тузель, Oncel; Сасскинд, Джош; Ван, Венда; Уэбб, Расс (2016). «Обучение на смоделированных и неконтролируемых изображениях посредством состязательного обучения». arXiv:1612.07828 [cs.CV ].

[17] Рыцарь, Уилл. «Самостоятельные автомобили могут многому научиться, играя в Grand Theft Auto». Получено 5 сентября 2017.

[18] Де Тон, Даниэль; Малисевич, Томаш; Рабинович, Андрей (2017). «К геометрическому глубокому SLAM». arXiv:1707.07410 [cs.CV ].

[19] «Neuromation подписала письмо о намерениях с гибридной платформой OSA по внедрению услуги визуального распознавания в крупнейших розничных сетях Восточной Европы».

[20] Тобин, Джош; Фонг, Рэйчел; Рэй, Алекс; Шнайдер, Йонас; Заремба, Войцех; Аббель, Питер (2017). «Рандомизация домена для переноса глубоких нейронных сетей из моделирования в реальный мир». arXiv:1703.06907 [cs.RO ].

[21] Борисов, Станислав С .; Рич, Джепп; Перейра, Франсиско К. (2019). «Как сгенерировать микроагенты? Подход глубокого генеративного моделирования к популяционному синтезу». Транспортные исследования, часть C: Новые технологии. 106: 73–97. arXiv:1808.06910. Дои:10.1016 / j.trc.2019.07.006.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]