2022/06/06 13:15:59

Данные

Данные — поддающееся многократной интерпретации представление информации в формализованном виде, пригодном для передачи, связи, или обработки (определение по ISO/IEC 2382-1:1993).

Содержание

Объём генерируемых цифровых данных в мире

Данные на 2018 г с прогнозом на последующие годы

Как данные стали сырьем XXI века

В этой статье трижды встречается порядковое числительное «четвертая» - четвертая трансформация в представлении данных, четвертая парадигма в науке и «Четвертая промышленная революция». Откуда взялось именно оно – непонятно, однако закономерно то, что все три объединены данными, ставшими критически важным сырьем XXI века. Не случайно данные назвали нефтью «Четвертой промышленной революции». Журналист Леонид Черняк в материале, подготовленном для TAdviser, рассказывает о фундаментальных изменениях в отношении человечества к данным.

Отличие данных от информации

Еще в середине нулевых годов XXI века трудно было представить подобное. О данных, как о составляющей компьютинга, и речи не могло быть. С момента появления компьютеров, то есть с середины сороковых годов XX века, внимание было сосредоточено сначала на аппаратном, а позже и программном обеспечении. Что касается данных, то они рассматривались как нечто очевидное, само собой разумеющееся. В результате сложилась странная односторонность ИТ, отличающая их от других производств. Производство можно представить состоящим из двух вещей: комплекса технологий и сырья, которое, проходя по технологической цепочке, превращается в конечный продукт. В ИТ же технологический процесс преобразования исходных данных в результирующие остается как-бы «за кадром».

На переоценку ценностей, на признание значимости данных и процессов переработки данных, начавшееся примерно в 2010 году, потребовалось всего несколько лет. По иронии судьбы теперь к данным нередко проявляют избыточное внимание. Часть компьютерного и около компьютерного сообщества явно страдает болезненным состоянием, именуемым датаманией (data-mania). Одно из его проявлений - злоупотребление термином «Большие данные».

Еще одно недоразумение, связанное с ИТ, заключается в том, что понятия «данные» и «информация» долгое время рассматривались как синонимы, чему конечно же поспособствовала статистическая теория информации, которую точнее было бы называть теорией передачи данных. Название «теория информации» было предложено Джоном фон Нейманом чрезвычайно скромному в своих притязаниях Клоду Шеннону. В этой теории мерой передаваемой информации служат биты и байты, хотя по определению они относятся к данным, представленным в двоичной системе. Известный писатель-фантаст Сергей Лукьяненко выступит на TAdviser SummIT 28 ноября. Регистрация 5.5 т

Показательно, что автор на протяжении многих лет, пользуясь возможностями журналиста, при первом удобном случае задавал собеседникам один и тот же вопрос: «В чем вы видите различие между данными и информацией?». Однако, ни разу (!) не получил содержательного ответа. О том, что так называемые информационные технологии имеют дело с данными, а вовсе не с информацией, почти никто не задумывался. Пренебрежение к природе данных привело к тому, что на протяжении десятилетий вплоть до 2010-х годов развивались исключительно инженерные методы, обеспечивающие передачу, хранение и обработку данных. Все, что необходимо было знать о них, сводилось к двоичным или десятичным единицам измерения количества данных, форматам и формам организации (массивы, байты, блоки и файлы).

Но ситуация, скалывающаяся вокруг данных, резко изменилась. Ее отражением стал популярный лозунг «It's the data, stupid», отражающий возрастающую роль данных в современной науке, бизнесе и других отраслях человеческой деятельности. Смещение акцента на данные является следствием величайшей культурной трансформации.

Можно выделить четыре фундаментальных перехода, каждый из которых характеризуется увеличением доступности контента:

  • Изобретение бумаги и переход от глиняных и восковых табличек, пергамента и бересты на практичный и недорогой носитель.
  • Изобретение печатного станка и переход от ручного копирования рукописей к изданиям, тиражируемым машинами.
  • Переход от материальных, чаще всего бумажных носителей, к цифровым; отделение контента от физики.
  • Трансформация контента в данные, которые можно обрабатывать и анализировать автоматически.

Главная особенность последнего в том, что в XXI веке данные абстрагировались от носителя. Были созданы необходимые средства для работы с ними, что открыло неограниченные возможности для извлечения информации из данных.

От данных к знанию, модель DIKW

Справедливости ради надо заметить, что в академической среде о значении данных как источника знаний и их места в системе накопления знаний начали задумываться раньше, чем в бизнесе - примерно с конца восьмидесятых годов XX века. Тогда сложилась ставшая классической четырехзвенная модель DIKW, включающая данные, информацию, знания и глубокое познание (data, information, knowledge, wisdom).

  • Данные получаются из внешнего мира в результате человеческой деятельности или от различных датчиков и других устройств.
  • Информация создается посредством анализа отношений и взаимосвязей между фрагментами данных в результате ответа на вопросы: Кто? Что? Где? Сколько? Когда? Почему?
  • Знания наиболее трудно определяемое понятие, они получаются в результате синтеза полученной информации и человеческого разума.
  • Глубокое понимание (мудрость?) служит основой для принятия решений

Модель DIKW на протяжении нескольких десятилетий оставалась основой для исследований в области, которую называют «Управлением знаниями» (Knowledge Management, KM). Принято считать, что KM изучает процессы создания, сохранения, распределения и применения основных элементов интеллектуального капитала, необходимых для работы организации, позволяющих преобразовать интеллектуальные активы в средства для повышения производительности и эффективности.

Средствами KM так и не удалось получить ощутимые результаты и выйти за пределы общих рассуждений, создав соответствующие инструменты. KM была и остается областью интереса для весьма ограниченного сообщества ученых. Провал KM объясняется несколькими причинами - тем, что желание управлять знаниями опередило время, и тем, что еще не сформировалась потребность в работе со знаниями. Но главное, вне поля зрения KM оказался уровень D из модели DIKW.

Однако из провала KM вовсе не следует, что нет такой проблемы как автоматизация извлечения знаний из данных. Как говорят, «свято место пусто не бывает», и во втором десятилетии XXI века место KM заняло новое направление, получившее не слишком удачное название Data Science. Роль и место Data Science в системе накопления знаний показаны на рисунке ниже.

Традиционный исследователь наблюдает систему непосредственно, а Data Scientist использует накопленные данные

На протяжении тысячелетий люди наблюдали окружающий мир, используя те или иные инструменты и в доступной форме фиксировали знания. Сегодня процесс разделился на накопление данных и анализ этих данных. Яркий пример - современные астрономия или геофизика, где наблюдение с накоплением данных и последующий анализ этих данных являются самостоятельными задачами.

Data Science

Термин Data Science в середине нулевых годов XXI века предложил Уильям Кливленд, профессор университета Пердью, один самых известных специалистов в статистике, визуализации данных и машинном обучении. Примерно тогда же появился международный совет CODATA (International Council for Science: Committee on Data for Science and Technology) и издаваемый им журнал CODATA Data Science Journal. Тогда Data Science определили как дисциплину, объединяющую в себе различные направления статистики, добычу данных (data mining), машинное обучение и применение баз данных для решения сложных задач, связанных с обработкой данных.

Data Science - это зонтичный термин. Под общим названием Data Science собрано множество разных методов и технологий, служащих для анализа больших объемов данных. В строгом науковедческом понимании, например так, как определял науку Крал Поппер, назвать Data Science наукой нельзя. Тем не менее специалисты в области Data Science используют то, что называют научным методом, поэтому их вполне справедливо можно называть Data Scientist. Классический цикл научного метода показан на рисунке ниже.

Цикл научного метода

Общее понятие Data Science делится на два направления. Одно, менее популярное, точнее было бы назвать Data-Intensive Science, а втрое – широко разрекламированное - применение Data Science к бизнесу.

Четвертая парадигма науки

Направление Data-Intensive Science можно перевести как научные исследования со значительным использованием данных. Под этим термином понимают новый стиль исследований с опорой на данные, с широким использованием компьютерных инфраструктур и программного обеспечения для оперирования, анализа и распределения этих данных (data-driven, exploration-centered style of science). Для него астроном и футуролог Алекс Шалаи и выдающийся компьютерный эксперт Джим Грей в 2006 году предложили собственное название – «Четвертая парадигма науки».

Они разделили научное прошлое человечества на три периода использования данных. В античные времена наука ограничивалась описанием наблюдаемых феноменов и логическими выводами, сделанными на основе наблюдений. В XVII веке данных стало больше, и тогда люди начали создавать теории, используя в качестве доказательств те или иные аналитические модели. В XX веке компьютеры открыли возможности для использования методов численного моделирования. Наконец в XXI веке начали складываться научные методы, основанные на анализе данных (eScience), и здесь для работы с колоссальными объемами данных стали применяться синтезирующие теории, статистические и другие методы извлечения полезной информации.

Шалаи и Грей писали: «В будущем работа с большими объемами данных будет предполагать пересылку вычислений к данным, а не загрузку данных в компьютер для последующей обработки». Будущее наступило намного раньше, уже в 2013 году тот же Шалаи писал об эпохе Data-Intensive Science как о свершившемся факте.

К 2017 году методы eScience нашли свое применение не только в таких дата-емких областях, как астрономия, биология или физика. Они нашли свое применение и в гуманитарных науках, существенно расширив область, называемую «Цифровыми гуманитарными науками» (Digital Humanities). Первые работы, где использовались оцифрованные материалы и материалы цифрового происхождения датируются концом сороковых годов XX века. Они объединяют традиционные гуманитарные науки - историю, философию, лингвистику, литературоведение, искусствоведение, археологию, музыковедение и другие, с компьютерными науками. В отдельных университетах, таких как НИУ Высшая школа экономики, анализ данных вводится как обязательный предмет на всех факультетах.

Data Science в бизнесе

Применение методов Data Science в бизнесе вызвано характерным для второго десятилетия XXI века взрывным ростом объемов данных. Его образно называют наводнением данных (data flood), волной данных (data surge) или лавиной данных (data deluge). Информационный взрыв - явление не новое. О нем говорят примерно с середины пятидесятых годов XX века. Прежде рост объемов оставался синхронным развитию по закону Мура, с ним удавалось справляться традиционными технологиями. Но та лавина, которая обрушилась в связи с появлением многочисленных интернет-сервисов и миллиардами пользователей, а также революцией умных датчиков (smart sensor revolution), требует совсем иных подходов. Одних администраторов и управляющих базами данных оказалось недостаточно. Потребовались специалисты или группы специалистов, способные извлекать полезные знания из данных и предоставлять их тем, кто принимает решения. Средства, используемые этими специалистами, показаны на рисунке ниже.

Методы Data Science

Теми средствами, которые используют Data Scientist, можно уподобить ИТ всем обычным технологиям, в том смысле, что на входе будут сырые данные, а на выходе обработанные данные и информация для принятия решений. Технологический цикл реализует классический цикл научного метода. Его можно условно разделить на несколько этапов:

  • Формулировка проблемы
  • Сбор сырых данных
  • Data wrangling (от wrangler, работник, объезжающий лошадей) — это подготовка сырых данных для выполнения последующей аналитики над ними, преобразование сырых данных, хранящихся в любых произвольных форматах, в требуемые для аналитических приложений.
  • Предварительный анализ данных, выявление общих тенденций и свойств.
  • Выбор инструментов для глубокого анализа данных (R, Python, SQL, математические пакеты, библиотеки).
  • Создание модели данных и проверка ее на соответствие реальным данным.
  • В зависимости от задачи выполнение статистического анализа, использование машинного обучения или рекурсивного анализа.
  • Сравнение результатов, полученных разными методами.
  • Визуализация результатов.
  • Интерпретация данных и оформление полученной информации для передачи лицам, принимающим решения.

Этот процесс может выглядеть примерно так, как показан на рисунке «Технологический цикл Data Science».

Технологический цикл Data Science

На практике редко процесс извлечения знаний из данных бывает линейным. После выполнения того или иного шага может возникнуть необходимость возврата к предыдущему с целью уточнения используемых методов, вплоть до постановки задачи. Случается, что после получения удовлетворительных результатов, возникают уточняющие вопросы и цикл приходится проходить заново.

И в науке, и в бизнесе методами Data Science из данных извлекаются знания, поэтому вполне справедливо перефразировать известный афоризм Максима Горького «Любите данные – источник знаний».

Кодекс этики использования данных

Основная статья: Кодекс этики использования данных

Управление данными

Актуальность темы управления данными (Data Governance) растет с каждым годом. Действительно, необходимость организации процессов, направленных на повышение эффективности сбора, обработки, хранения и использования данных как ценного актива, уже очевидна практически всем компаниям. Много сказано о том, какие преимущества приносят компании правильно выстроенные процессы управления данными, и многие организации уже начали внедрение этой инициативы. При этом организации часто допускают похожие ошибки, которые негативно влияют на темпы внедрения и эффективность создаваемых процессов управления данными. О том, какие это ошибки, как их избежать и на какие вопросы организация должна найти ответы в процессе внедрения Data Governance, в материале, подготовленном для TAdviser, рассказывает Светлана Бова, Chief Data Officer банка ВТБ.

Управление качеством данных

Основная статья: Управление качеством данных

Определение качества данных формулируется как обобщенное понятие полезности данных, формализуемое в определенном наборе критериев. Для корпоративных данных информационных систем управления принято выделять следующие шесть критериев: востребованность, точность, согласованность, своевременность, доступность и интерпретируемость. Для каждого критерия определяется набор ключевых показателей эффективности (КПЭ) и прорабатываются практики, улучшающие их (подробнее).

Визуализация данных

Основная статья: Визуализация данных

Утечки данных

Основная статья: Утечки данных

Защита данных

Основная статья: Защита данных

Совершенствование моделей управления данными

Основная статья: Совершенствование моделей управления данными

Раскрытие, использование и продажа данных

2022

Как извлекать выгоду из простого и безопасного обмена данными

Благодаря достижениям в технологиях обмена данными, в первой половине 2022 года, существует возможность покупать и продавать потенциально ценную информацию на высокоэффективных облачных рынках. Объединяя эти данные с новым массивом технологий сохранения конфиденциальности, такими как полностью гомоморфное шифрование (FHE) и дифференциальная конфиденциальность, появляется возможность делиться зашифрованными данными и производить над ними вычисления без необходимости начальной расшифровки. Это обеспечивает появление новых возможностей: обмен данными при сохранении безопасности и конфиденциальности. Все это способствовало появлению новых многообещающих тенденций. Хранилища конфиденциальных данных, серверы по всему миру из-за проблем с конфиденциальностью или нормативных требований начинают генерировать ценность для предприятий в виде новых бизнес-моделей и возможностей. Ожидается что, в 2022 году все большее количество организаций начнут изучать возможность беспрепятственного и безопасного обмена данными, и возможности, которые помогут им монетизировать свои собственные информационные активы и выполнять бизнес-цели с использованием чужих данных.

Эта тенденция обмена данными набирает обороты. Опрос Forrester Research, вышедший в марте 2021 года, [1] показал, что более 70% управленцев, принимающих решения в области данных и аналитики расширяют свои возможности использовать внешние данные, а еще 17% планируют реализацию в 2022 году.

Более того, только глобальный рынок FHE растет с годовым темпом в 7,5% и составит, как ожидается, $437 млн к 2028 году. В 2022 г здравоохранение и финансы - те секторы, которые лидируют в большинстве исследований в области FHE.

Чем объясняется этот рост? Проще говоря, данные приобретают ценность, когда ими делятся. Gartner прогнозирует, что к 2023 году организации, продвигающие обмен данными превзойдут своих конкурентов по большинству бизнес-показателей [2].

Проиллюстрировать обмен данными в действии можно в следующих сценариях:

  • Использование агрегированных данных для безопасного достижения общих целей. Даже конкурирующие организации смогут работать совместно для достижения общих целей, таких как углубление понимания клиентов или обнаружение моделей мошенничества во всем секторе.

  • Расширение сотрудничества в области исследований. Общий доступ к фундаментальным или ранним результатам может ускорить критические исследовательские инициативы без ущерба конкурентному преимуществу, завоеванному с трудом.

  • Защита интеллектуальной собственности. Сверхчувствительные данные, такие как данные для обучения ИИ, могут храниться в открытых облаках, но при этом быть более защищенными.

  • Шифрование данных в движении. В областях высокочастотного трейдинга, роботизированной хирургии и умного фабричного производства конфиденциальные данные во многих моментах должны передаваться быстро. FHE позволяет пользователям получать доступ к критически важным данным быстро без ключей шифрования. Подобные возможности для монетизации данных путем совместного использования и объединения могут предложить многие конкурентные преимущества для тех, кто первым воспользуется ситуацией. Затем, конкуренты, увидев, что «первопроходцы» эффективно пользуются технологиями тоже захотят перестраивать свой бизнес с учетом организационной структуры, основанной на использовании данных и искусственного интеллекта.

Но, опять же, для раскрытия этого потенциала требуется иное управление данными — на этот раз добавление инновационных технологий и методов, освобождающих информационные активы от традиционных ограничений к конфиденциальности и безопасности.

Тенденция в работе с данными в 2022 году включает в себя три основных измерения: то, как воспользоваться возможностями, простота использования и конфиденциальность.

Новые бизнес-модели и возможности

Общие данные могут создавать общие возможности и новые бизнес-модели. По мере развития тенденции обмена данными в Deloitte ожидают, что все больше организаций будут участвовать в «совместной работе с данными» для решения общих проблем и использования взаимовыгодных преимуществ, операционных и исследовательских возможностей.

Кроме того, возможность безопасного обмена данными с внешними поставщиками услуг управления данными может помочь организациям оптимизировать процессы управления данными и снизить связанные с этим расходы.

Рассматриваются следующие возможности, которые может открыть обмен данными:

  • «Отраслевые вертикальные торговые площадки». Даже самые яростные конкуренты часто сталкиваются с общими проблемами, которые лучше всего решаются путем сотрудничества. Например, поставщики пищевой промышленности: если бы все анонимизировали конфиденциальные данные о продажах и поставках и объединили их для анализа, возможно, эти поставщики смогли бы раскрыть «тайну» спроса и предложения. Или банки в развивающихся регионах могли бы объединить анонимные кредитные данные для создания межбанковской системы оценки кредитных рисков. Или одна из самых больших возможностей: могут ли фармацевтические исследователи и врачи, работающие в рамках защищенной экосистемы, объединить данные, чтобы понять, как быстрее выводить на рынок жизненно важные инновации?

  • «Партнеры в цепочке создания стоимости». Многие производители и розничные продавцы покупают потребительские данные у сторонних брокеров данных, но, как это часто бывает, качественных данных недостаточно, чтобы принять правильное решение. Что, если системы партнеров в цепочке создания стоимости — от поставщиков до производителей и маркетологов — объединят данные о своих клиентах, чтобы создать более детализированную картину спроса?

  • «Пусть кто-нибудь другой проведет обучение модели ИИ». Модели ИИ часто считаются высокочувствительными формами интеллектуальной собственности. Поскольку они обычно умещаются на флэш-накопителе, они также представляют высокий риск для безопасности, поэтому многие организации традиционно выполняли собственное моделирование собственными силами. Благодаря технологиям шифрования это может скоро измениться. Защитив данные моделирования, директора по данным могут безопасно передавать моделирование и обучение ИИ на аутсорсинг третьим сторонам.

  • Поставщики данных оптимизируют доставку. На платформах обмена данными появится возможность купить доступ к рыночным или логистическим данным в режиме реального времени так же просто, как нажать кнопку. Поставщикам данных больше не нужно будет предоставлять API или отправлять файлы.

Простое получение внешних данных одним нажатием кнопки

Облачные платформы для обмена данными помогают организациям беспрепятственно обмениваться, покупать и продавать данные. Эти сильно виртуализированные, высокопроизводительные рынки данных обычно структурированы по модели совместного использования данных как услуги, в которой за определенную плату подписчики услуги могут управлять, курировать и адаптировать данные. Они также могут в определенной степени защитить свои данные, используя предоставляемые платформой «чистые комнаты», безопасные пространства с определенными правилами, где организации могут объединять свои активы данных для анализа. Наконец, подписчики могут объединять и продавать доступ к своим данным другим подписчикам. Покупатели данных получают стандартные или индивидуальные представления о различных аспектах рынков, продуктов или исследований.

Фундаментальная бизнес-стратегия, лежащая в основе этой модели «обмен как услуга», уже продемонстрировала свою эффективность в других важных областях обмена информацией и контентом, таких как обмен музыкальными файлами и социальные сети. В них поставщик предоставляет простую в использовании платформу для обмена данными, а клиенты предоставляют контент. [3]

Сектор рынка данных переживает раннюю фазу золотой лихорадки: такие стартапы, как Databricks, Datarade, Dawex и Snowflake, и провайдеры гипермасштабируемых облачных сервисов, такие как AWS, Azure, Google и Salesforce, стремятся заявить о себе на этом многообещающем рынке. И это многообещающе: связь роста данных и демократизации, а также цифровая трансформация помогают совершить революцию, в которой спрос на внешние данные стремительно растет [4].

Данные перестали быть просто инструментом информирования руководителей, принимающих решения, теперь они являются критически важным для бизнеса активом, который можно продавать, покупать, обменивать и делиться им. И платформа, которая облегчает этот обмен наиболее легко и эффективно, может в конечном итоге стать стандартом для обмена данными в отраслевых вертикалях данных или даже на целых рынках.

Примеры использования обмена данными — а в некоторых областях и истории успеха — распространяются по мере того, как все больше организаций начинают использовать возможности для монетизации и расширения своих активов данных. Например:

  • В первые дни пандемии COVID-19 глобальные фармацевтические компании, ведущие жесткую конкуренцию, искали способы обмена данными доклинических исследований с помощью платформ для обмена данными[5].

  • Администраторы вакцин против COVID-19 использовали централизованные государственные платформы для обмена ежедневными микроуровневыми данными о вакцинации и тестировании с учреждениями общественного здравоохранения.

  • Менеджеры по инвестициям в глобальной компании, предоставляющей финансовые услуги, собирают и анализируют данные из своих бэк-, мидл- и фронт-офисов в режиме реального времени. В результате время, необходимое для начала обмена инвестиционными данными с клиентами, сокращается с «месяцев до минут» [6].

На первую половину 2022 года еще нет достоверных прогнозов о том, как будут развиваться определенные аспекты рынка платформ для обмена данными. Хотя в конечном итоге произойдет некоторая консолидация и стандартизация, могут также укорениться рынки от нескольких платформ. Например, могут быть системы партнеров на частных рынках данных, или, возможно, органично возникнут публичные рынки, ориентированные на уникальные потребности. Какую бы форму в конечном итоге ни приняли рынки данных, ожидается, что «золотая лихорадка» продолжит набирать обороты, особенно по мере того, как поставщики будут серьезно прорабатывать систему безопасности и все больше организаций будут подписываются на эти платформы, тем самым увеличивая объем внешних данных, доступных для потребления.

Делиться данными без ущерба для конфиденциальности

Данные приобретают ценность, когда ими делятся. Тем не менее, политика конфиденциальности данных и конкурентные требования конфиденциальности исторически препятствовали способности реализовать эту ценность. Новый класс вычислительных подходов, известных под общим названием «вычисления с сохранением конфиденциальности» (или «конфиденциальные вычисления»), готов освободить организации и их данные от оков конфиденциальности. Такие подходы, как FHE, дифференциальная конфиденциальность и функциональное шифрование, позволяют организациям пользоваться преимуществами обмена данными без ущерба для конфиденциальности.

Шесть методов сохранения конфиденциальности при обмене данными

Методы сохранения конфиденциальности также могут способствовать сотрудничеству между конкурентами. Например, рассматриваются несколько финансовых учреждений, которые конкурируют друг с другом в различных областях финансовых услуг. Несмотря на то, что они конкурируют за клиентов, коллективно они могут захотеть сотрудничать для достижения общих целей, таких как обнаружение риска чрезмерной концентрации, изощренных схем мошенничества или финансовых преступлений. В качестве другого примера можно рассмотреть другой сценарий: организации, которые не конкурируют, но функционально дополняют друг друга в такой отрасли, как туризм. Существуют выгодные варианты использования обмена данными, когда компании предоставляют информацию для совместного маркетинга и кампаний скидок между авиакомпаниями, отелями и агентствами по аренде автомобилей. Каждая участвующая компания хотела бы знать о поведении клиентов и деятельности других, чтобы они могли предоставить своим конечным потребителям большую ценность и более приятное обслуживание клиентов. Тем не менее, каждый из них обязан защищать информацию о клиентах. Вычисления с сохранением конфиденциальности могут стать катализатором прорыва, который позволит этим компаниям более тесно взаимодействовать и сотрудничать.

Перспективы развития

Хотя конфиденциальные вычисления и передовые технологии обмена данными помогают организациям, находящимся в авангарде этой тенденции, извлекать больше пользы из данных, они не являются панацеей для всех требований и задач управления данными. По-прежнему остается необходимость надежного управления данными; применения тегов и метаданных.

Более того, новые инструменты и подходы не изменят сложившуюся культуру данных компании в одночасье. Например, у авторитетных компаний часто есть устоявшиеся процессы и стандарты для управления данными и их использования, тогда как стартапы и цифровые аборигены могут использовать более спокойные подходы. Или, из-за очень личных отношений, которые влияют на принятие решений и стратегию, семейные предприятия, как правило, более неохотно делятся данными, даже анонимными за пределами предприятия. Предполагается, что эти и подобные им проблемы — всего лишь небольшие препятствия на пути к принципиально новой эре трансформирующей обмен данными.

2021

Шадаев: в 2022 году будет запущен маркетплейс данных

В 2022 году Минцифры запустит маркетплейс данных. Дата-сеты в нем будут размещать и государственные органы, и бизнес, заявил министр цифрового развития Максут Шадаев, отвечая на вопросы ИТ-отрасли в ходе TAdviser SummIT 23 ноября 2021 года.

«Государство будет просить бизнес безвозмездно предоставлять обезличенные данные по отдельным направлениям, которые критически важны для системы госуправления. И бизнес получит доступ к обезличенным государственным дата-сетам для того, чтобы использовать эти данные, развивать свои решения, формировать расширенную аналитику», - отметил он.

Полный текст и видео выступления Максута Шадаева на TAdviser SummIT - по ссылке.

Обзор моделей предоставления доступа к данным государства

Эксперты ЦПУР 10 сентября 2021 года представили аналитический обзор «Модели институционализации доступа исследователей к данным государства». В нём рассмотрены подходы разных стран к решению проблемы «usability v sprivacy».

Накопленные госорганами микроданные содержат чувствительную информацию, раскрытие которой связано с рисками для безопасности отдельных субъектов этих данных, поэтому такие данные, как правило, не публикуются. Однако их объём настолько высок, что обрабатывать их самостоятельно и оставлять полностью внутри системы государственного управления нецелесообразно.

Выбирая ту или иную модель доступа к данным для исследователей, государство решает для себя, как ему соблюдать баланс между уровнем детализации раскрываемых микроданных, а, значит, их полезностью и применимостью, и сохранением конфиденциальности.

Представленный аналитический обзор в большей степени сфокусирован на анализе трех аспектов защиты данных — правилах определения пользователей, проектов и «настроек» доступа, таким образом, он охватывает организационные и инфраструктурные способы решения дилеммы «usability vs privacy».

В аналитическом обзоре обозначены три базовых модели организации доступа к микроданным, применяемых в мире:

  • дополнение функционала государственного статистического агентства без создания организаций-посредников (unmediated access approach);
  • создание или соучреждение государством отдельной исследовательской организации (research data center approach);
  • партнёрство с университетами или другими независимыми исследовательскими организациями (reseach-practice partnership).

Для России минимальным (или стартовым) сценарием организации доступа к микроданным для исследователей может выступить модель, построенная на создании специального центра исследования данных (research data-center), который будет находиться в прямом подчинении отдельных органов власти или носить межведомственный характер.

Оптимальным сценарием для России, к которому следует перейти после формирования устойчивых практик предоставления доступа к данным, эксперты ЦПУР считают использование партнёрской сети организаций, реализующих полный спектр работы с государственными микроданными — от их обработки до организации доступа. Кроме того, независимо от выбранной модели, параллельно необходимо расширять состав сведений, публикуемых в свободном доступе, в том числе в формате открытых данных.[7]

Объемы данных в мире

2020: Объем созданных данных достиг 64,2 Зб, из них сохранено менее 2% - IDC

В 2020 году в мире было создано 64,2 зеттабайт данных, однако к 2021 году было сохранено менее 2% новых данных, то есть большая часть из них была временно создана или реплицирована для использования, а затем удалена или перезаписана новыми данными. Об этом свидетельствуют результаты исследования IDC.

По сообщению IDC, объем созданных, потребляемых и передаваемых данных в 2020 году значительно вырос из-за резкого увеличения числа людей, которые на фоне ограничений из-за пандемии COVID-19 вынуждены работать и учиться дистанционно. В связи с глобальной пандемией также увеличился объем передаваемого мультимедийного контента.

Объем созданных данных в 2020 году достиг 64,2 Зб, из них сохранено менее 2%

Исследователи утверждают, что Интернет вещей является самым быстрорастущим сегментом на рынке данных, не принимая во внимание данные, полученные от систем видеонаблюдения. За ним следуют социальные сети. Данные, созданные в облаке, не демонстрирует такой же быстрый рост, как данные, хранящиеся в облаке, однако создание данных на периферии развивается такими же быстрыми темпами, как и в облаке. В IDC также отмечают, что корпоративная «датасфера» (DataSphere) растет в два раза быстрее, чем потребительская, из-за возрастающей роли облака для хранения и потребления.

«
Установленная база емкости «хранилищесферы» (StorageSphere) достигла 6,7 зеттабайт данных в 2020 году и неуклонно растет, но с более медленными темпами годового роста, чем у «датасферы», что означает, что мы сохраняем меньше данных, которые мы создаем каждый год, - сказал вице-президент по исследованиям DataSphere в IDC.
»

IDC определила три причины, по которым человечество должно хранить больше данных, которые оно создает. Во-первых, данные имеют решающее значение для усилий любой организации по обеспечению цифровой устойчивости - способности организации быстро адаптироваться к сбоям в работе бизнеса за счет использования цифровых возможностей не только для восстановления бизнес-операций, но и для извлечения выгоды из изменившихся условий. Во-вторых, компании, прошедшие цифровую трансформацию, используют данные для разработки новых инновационных решений для будущего предприятия. В-третьих, компании должны следить за ритмом своих сотрудников, партнеров и клиентов, чтобы поддерживать высокий уровень доверия и сочувствия, обеспечивающий удовлетворенность и лояльность клиентов. Данные являются источником для отслеживания этих метрик.[8]

1955: Как выглядели 5Мб данных

Вот так в 1955 году выглядели 5 Мб данных. Это 62500 перфокарт, весом 110 кг.

Почему Data Scientist сексуальнее, чем BI-аналитик

В связи с ростом популярности data science (DS) возникает два совершенно очевидных вопроса. Первый – в чем состоит качественное отличие этого недавно сформировавшегося научного направления от существующего несколько десятков лет и активно используемого в индустрии направления business intelligence (BI)? Второй - возможно более важный с практической точки зрения - чем различаются функции специалистов двух родственных специальностей data scientist и BI analyst? Ответы на эти вопросы содержатся в отдельном материале TAdviser.

Проблема цифрового хординга или патологического накопительства данных

Основная статья: Цифровой хординг (Digital Hoarding)

Возможность анализировать большие данные, в просторечии называемая Big Data, воспринимается как благо, причем однозначно. Но так ли это на самом деле? К чему может привести безудержное накопление данных? Скорее всего к тому, что отечественные психологи применительно к человеку называют патологическим накопительством, силлогоманией или образно "синдромом Плюшкина". По-английски порочная страсть собирать все подряд называют хордингом (от англ. hoard – «запас»). По классификации ментальных заболеваний хординг причислен к психическим расстройствам. В цифровую эпоху к традиционному вещественному хордингу добавляется цифровой (Digital Hoarding), им могут страдать как отдельные личности, так и целые предприятия и организации (подробнее).

Типы данных

Читайте также

Примечания