2023/12/01 15:42:43

Наука о данных
Data Science

Наука о данных (Data Science) — профессиональная деятельность, связанная с эффективным и максимально достоверным поиском закономерностей в данных, извлечение знаний из данных в обобщённой форме, а также их оформление в виде, пригодном для обработки заинтересованными сторонами (людьми, программными системами, управляющими устройствами) в целях принятия обоснованных решений.

Содержание

Что такое Data Science?

Математические и алгоритмические методы, оптимизированные для эффективного выявления сложных закономерностей. Наука о методах анализа данных, сформировавшаяся на стыке математики, компьютерных наук и бизнеса, включающая в себя построение сложных аналитических моделей на основе данных для извлечения новых знаний.

Data Science — это набор конкретных дисциплин из разных направлений, отвечающих за анализ данных и поиск оптимальных решений на их основе. Раньше этим занималась только математическая статистика, затем начали использовать машинное обучение и искусственный интеллект, которые в качестве методов анализа данных к матстатистике добавили оптимизацию и computer science (то есть информатику, но в более широком смысле, чем это принято понимать в России)[1].

Структура Data Science Проекта

Data Science - как это работает?

[2]

Традиционные риски Data Science проектов

  • Высокая стоимость реализации проекта приведет к финансовым потерям (не окупится)
  • Отсутствие подробной отчетности по проекту не позволит отчитаться о потраченных средствах или принять правильное решение о продолжении проекта
  • Внедрение закрытого алгоритма или программы («Черный ящик») сделает невозможным дальнейшее изменение или модернизацию проекта внешними или внутренними ресурсами

Big Data≠Data Science



Big Data – это:

  • ETL\ELT
  • Технологии хранения больших объемов структурированных и не структурированных данных
  • Технологии обработки таких данных
  • Управление качеством данных
  • Технологии предоставления данных потребителю

Data Science – это:

Data Science в реалиях производства

  • Сложный и длительный во времени процесс
  • Требуется глубокое понимание предметной области
  • Разная частота съема данных и не все оцифровано
  • Нет сквозного контроля и фиксации событий тех.процесса
  • Доверие к модели со стороны технологов и операторов
  • Для проверок модели требуются эксперименты с данными реального времени на производстве

Новости и основные тенденции в области данных

2023

«Искусственный интеллект от боли до эффектов» - взгляд Data-экспертов

«Рексофт Консалтинг», подразделение трансформационного и стратегического консалтинга группы «Рексофт», выпустил исследование по проблематике, с которой сталкиваются Data-специалисты российских компаний в ходе разработки и внедрения цифровых решений на базе технологий искусственного интеллекта (ИИ). Материал также содержит обзор возможных путей преодоления возникающих трудностей. Об этом «Рексофт» сообщил 28 ноября 2023 года.

Компания «Рексофт Консалтинг» провела глубинные интервью с экспертами, а именно с техническими директорами, CDO, руководителями направлений и команд Data Science, Data Science специалистами, разрабатывающими и внедряющими цифровые решения на базе ИИ в различных отраслях экономики, чтобы понять с какими проблемами они сталкиваются сегодня. В опросе приняли участие представители промышленности, медицины, финансового сектора, ритейла и ИТ-компаний.

По результатам интервью были выделены 5 ключевых областей, в которых сосредоточены основные трудности, не позволяющие эффективно внедрять ИИ-решения в российских компаниях:

  1. Взаимодействие Data-специалистов с бизнес-заказчиком
  2. Данные
  3. Управление разработкой и технологии
  4. Передача в эксплуатацию и поддержка ИИ-решений
  5. Поиск, удержание и развитие Data Science специалистов

Среди наиболее частых причин возникновения трудностей при взаимодействии Data-специалистов с бизнес-заказчиком называются такие как: завышенные ожидания бизнеса, нежелание бизнеса трансформироваться, неадаптированная корпоративная культура. Наиболее остро они проявляются в случае, если бизнес инвестирует в ИИ, но не достигает эффекта и испытывает затруднения с приживаемостью решений. Для их успешного внедрения бизнес-заказчикам необходимо быть готовыми трансформировать свою операционную модель.

В блоке данные фигурируют такие корневые причины как недостаточный уровень автоматизации бизнес-процессов, низкий уровень зрелости инфраструктуры данных, низкое качество исходных данных и длительный процесс их получения, неадаптированные для цифровых решений на базе ИИ процессы сбора и управления данными. Трудности, связанные с данными, всегда охватывают не только ИИ-разработку, но и всю компанию из-за отсутствия единых требований и настроенных процессов. Проблематика в части данных характеризуется тезисом «новые проблемы, старые решения» – прежде чем приступать к Data Science, необходимо отладить и адаптировать процессы, связанные с управлением данными.Чекап для искусственного интеллекта: зачем и как тестировать ИИ-решения?

Технологический стек для разработки решений на базе ИИ постоянно меняется и развивается. Здесь Data-специалисты выделяют отсутствие стандартов ИИ-разработки и гибкого подхода при прототипировании ИИ-решений, а также отсутствие сформированного подхода к работе с внешними разработчиками ИИ-решений.

В сегменте передачи в эксплуатацию и поддержки ИИ-решений специалисты отмечают отсутствие выстроенного процесса передачи в эксплуатацию и четких критериев приемки решений, а также то, что подходы ИБ не адаптированы к внедрению решений ИИ и оценке его рисков. Для минимизации барьеров, с которыми сталкиваются компании при масштабировании пилотных ИИ-решений, необходимо заранее договариваться о критериях успеха и продумывать модель поддержки. Критически важно до старта проекта определить и согласовать подход к оценке экономического эффекта со всеми заинтересованными сторонами, а также выстроить долгосрочную систему мотивации вовлеченных сотрудников, чтобы избежать трудностей с приживаемостью решений.

Особенную озабоченность у опрошенных экспертов вызывает задача поиска, удержания и развития Data Science специалистов. Существующие во многих российских компаниях HR-процессы поиска, найма, адаптации и удержания персонала не адаптированы для Data-специалистов. Недостаток Т-shape специалистов обостряет разрыв между бизнесом и Data Science. HR в сложившейся ситуации не понимает, как развивать последних и адаптировать первых. Организационные структуры и функционально-ролевые модели ИТ во многих российских компаниях не успели адаптироваться к системному внедрению решений на базе ИИ, что размывает распределение ответственности и роль Data-специалистов.

«
ИИ часто воспринимается как «модная игрушка», при этом упускается самое главное – ИИ должен давать компании системный трансформационный эффект. Необходимо создание технологической и организационной базы для системного развития цифровых продуктов от прототипирования до получения эффекта. Здесь стоит задуматься над созданием «цифрового конвейера» в купе с бизнес-трансформацией самой компании. В результате ИИ должен стать понятной и привычной технологией для бизнеса – повседневным рабочим инструментом, интегрированным в текущие бизнес-системы такие как ERP м CRM-системы и аналитику,
сказал Алексей Богомолов, директор практики «Стратегия трансформации» «Рексофт Консалтинг».
»

Названы 5 трендов на рынке Data Science

Значительное влияние на мировую отрасль наук о данных и машинного обучения (Data Science and Machine Learning, DSML) окажут системы генеративного искусственного интеллекта. Об этом говорится в отчете Gartner, опубликованном 1 августа 2023 года.

«
На фоне активного внедрения средств машинного обучения в разных отраслях происходит трансформация рынка — фокус смещается с обычных прогностических моделей к более демократизированному и динамичному подходу, ориентированному на данные. Этому способствует развитие платформ генеративного ИИ. Наряду с потенциальными рисками появляется множество новых возможностей и вариантов использования ИИ в сфере Data Science, — говорит Питер Кренски (Peter Krensky), директор-аналитик Gartner.
»

Значительное влияние на мировую отрасль DSML окажут системы генеративного ИИ

Опрос Gartner, в котором приняли участие более 2500 руководителей различных организаций, показал, что 45% компаний увеличили инвестиции в ИИ после появления чат-бота ChatGPT. При этом 70% респондентов сообщили, что изучают возможность использования средств генеративного ИИ, тогда как 19% уже экспериментируют с такими системами. Gartner выделяет пять ключевых тенденций, которые определят дальнейшее развитие отрасли DSML.

Тренд 1. Экосистемы облачных данных

Решения по обработке данных преобразуются из автономного программного обеспечения или смешанных развертываний в полноценные облачные платформы. К 2024 году, полагает Gartner, 50% новых приложений в облаке будут основаны на целостной экосистеме данных, а не на точечных массивах, интегрированных вручную.

Тренд 2. Искусственный интеллект на периферии

Растет потребность в ИИ-средствах на периферии (Edge AI). Такие инструменты позволяют обрабатывать данные в момент их создания, что помогает организациям получать ценную информацию в режиме реального времени и соблюдать строгие требования к конфиденциальности. Gartner прогнозирует, что к 2025 году более 55% всего анализа данных с помощью глубоких нейронных сетей будет происходить на периферии. Для сравнения: в 2021 году этот показатель составлял менее 10%.

Тренд 3. Ответственный ИИ

Подход, основанный на ответственном использовании, позволяет извлечь максимальную выгоду от внедрения технологий ИИ и обойти возможные проблемы, связанные с доверием и общественными рисками. Концепция ответственного ИИ охватывает многие деловые и этические аспекты. Gartner рекомендует организациям соблюдать осторожность при внедрении нейросетевых моделей и применять бизнес-стратегию на основе оценки рисков для обеспечения ценности ИИ. Это поможет защититься от финансовых потерь, судебных исков и репутационного ущерба.

45% компаний увеличили инвестиции в ИИ после появления ChatGPT

Тренд 4. Искусственный интеллект, ориентированный на данные

Применение подхода, ориентированного на данные, обеспечит возможность создания более совершенных ИИ-приложений и сервисов. Использование генеративного ИИ для формирования синтетических данных — это одна из быстрорастущих областей, способствующих эффективной тренировке моделей машинного обучения. Gartner прогнозирует, что к 2024 году 60% данных для моделирования реальности, новых сценариев применения ИИ и снижения рисков будут синтетическими. В 2021 году этот показатель равнялся только 1%.

Тренд 5. Ускорение инвестиций в ИИ

Финансовые вливания в технологии ИИ продолжат увеличиваться, чему будет способствовать расширение использования соответствующих инструментов. К 2026-му, полагают эксперты Gartner, более $10 млрд будет инвестировано в стартапы, которые применяют масштабные модели ИИ, обученные на огромных объемах данных.[3]

2020: Наука о данных: пять ключевых тенденций

1. Ускорение внедрения ИИ в бизнесе

В течение последних нескольких лет ИИ постепенно становится одной из основных технологий как для малых, так и для крупных предприятий, и есть все основания полагать, что это будет продолжаться в течение следующих нескольких лет. Сегодня мы находимся на начальных этапах применения ИИ, но вполне вероятно, что уже к концу 2020 г. мы увидим новые и более прогрессивные методы его задействования в научных областях и бизнесе. Движущей силой такого быстрого роста является тот факт, что ИИ позволяет компаниям любых размеров значительно повысить эффективность и результативность своих бизнес-процессов и операций. С его помощью можно также достичь огромных успехов в управлении клиентскими и пользовательскими данными[4].

Многие предприятия столкнутся со сложностями при внедрении ИИ, что связано с ограниченными финансовыми ресурсами или недостатком квалифицированного персонала, но те, кто инвестирует в него средства, получат ощутимую отдачу в виде продвинутых приложений, разработанных с использованием ИИ, МО и других технологий, которые значительным образом изменят те методы работы, которые приняты сегодня.

Еще одна тенденция, которая в ближайшие месяцы примет видимые очертания — автоматизированное МО, которое помогает трансформировать науку о данных при помощи улучшенного управления данными. Это приведет к тому, что начинающим специалистам по данным потребуется пройти специализированные курсы, чтобы изучить методы глубокого обучения.

2. Быстрый рост IoT

Согласно IDC, к концу 2020 года инвестиции в технологии Интернета вещей достигнут 1 трлн. долл., что является очевидным свидетельством ожидаемого роста числа «умных» и подключенных устройств. Многие люди уже применяют приложения и устройства, чтобы с их помощью управлять своими бытовыми приборами — электропечами, холодильниками, кондиционерами и телевизорами. Все это примеры базовой технологии IoT, и пользователи часто могут не знать, что за ней скрывается. Смарт-устройства типа Google Assistant, Amazon Alexa и Microsoft Cortana позволяют людям легко автоматизировать повседневные задачи в домашних условиях. Это только вопрос времени, когда компании задействуют их в комбинации с бизнес-приложениями и начнут активнее инвестировать в эту технологию. Наиболее заметный прогресс от применения IoT ожидается на производстве — там она поможет оптимизировать работу заводских цехов.

3. Эволюция аналитики больших данных

Эффективный анализ больших данных, несомненно, помогает предприятиям получить значительное конкурентное преимущество и достичь основных целей. Сегодня они применяют для анализа своих скоплений данных различные инструменты и технологии, такие как Python. Все больше компаний сосредоточились на выявлении причин, стоящих за определенными событиями, которые происходят в настоящее время, и в этом случае на помощь приходит прогнозная аналитика — она позволяет выявлять тенденции и прогнозировать, что может произойти в будущем. К примеру, она пригодится для того, чтобы определить пользовательские привычки отталкиваясь от истории просмотров или покупок. Специалисты по продажам и маркетингу могут проанализировать эти модели, чтобы создать более целенаправленные стратегии для привлечения новых клиентов и удержания уже имеющихся. Amazon применяет прогностические модели для наполнения складских запасов исходя из спроса в том или ином регионе продаж.

4. Edge Computing на подъеме

Периферийные вычисления набирают популярность, и ответственность за это несут датчики. Наступление этой технологии продолжится в значительной степени благодаря популяризации IoT, которая захватывает основные вычислительные системы. Edge Computing предоставляет компаниям возможность хранить потоковые данные рядом с источниками и анализировать их в режиме реального времени. Периферийные вычисления также являются альтернативой аналитике больших данных, которая требует высокопроизводительных устройств хранения данных и гораздо большей пропускной способности сети. Число устройств и датчиков, собирающих данные, растет экспоненциально, поэтому все больше компаний внедряют Edge Computing благодаря его возможностям в плане решения проблем, связанных с пропускной способностью, задержкой и связью. Кроме того, сочетание периферийных и облачных технологий формирует синхронизированную инфраструктуру, которая может минимизировать риски, связанные с анализом и управлением данными.

5. Растущий спрос на специалистов по безопасности данных

Без сомнений, внедрение ИИ и МО приведет к появлению многих новых специальностей в ИТ- и высокотехнологичных отраслях. Одной из самых востребованных станет специалист в области безопасности данных. На рынке труда уже в достаточном количестве имеются эксперты в области ИИ, МО и специалисты по данным, но помимо них существует потребность в специалистах по безопасности данных, которые умеют так анализировать и обрабатывать данные, чтобы передавать их клиентам в безопасном виде. Для выполнения этих функций они должны хорошо разбираться в новейших технологиях, таких как Python и другие популярные языки, которые применяются в науке о данных и аналитике. Четкое понимание концепций Python поможет решить проблемы, связанные с безопасностью данных.

Обучение Data Science

2024: «Наносемантика» объявила о начале партнерства со школой ИТ-профессий Skillfactory

Компания «Наносемантика» выступит технологическим партнером онлайн-программы «Data Science в медицине» школы ИТ-профессий Skillfactory. Сотрудничество направлено на подготовку квалифицированных специалистов в области Data Science для медицинской индустрии. Об этом Наносемантика сообщила 11 марта 2024 года. Подробнее здесь.

2020: НИТУ «МИСиС», SkillFactory и Mail.ru Group запускают русскоязычную онлайн-магистратуру по Data Science

28 мая 2020 года компания VK (ранее Mail.ru Group) сообщила, что НИТУ «МИСиС» и образовательная платформа в области Data Science – SkillFactory – заключили соглашение о создании совместной онлайн-магистратуры «Наука о данных» и сотрудничестве в области развития образовательных технологий в высшем образовании. Это партнерство частной образовательной компании с государственным вузом по модели OPM (Online Program Management). Индустриальным партнером программы выступает Mail.ru Group. Программу также поддерживают Nvidia, Ростелеком и Университет НТИ «20.35».

Выпускники программы смогут работать в областях Big Data Engineering, Machine Learning Development и Artificial Intelligence Development. Цель программы – вовлечь в сферу науки о данных более 1 000 молодых специалистов к 2025 году в рамках федерального проекта «Кадры для цифровой экономики», задача которого подготовить не менее 120 000 выпускников вузов по ИТ-направлениям.

Занятия будут вести профессора НИТУ «МИСиС» и практикующие специалисты из Mail.ru Group, Яндекса, банков Тинькофф и ВТБ, компаний Lamoda, BIOCAD, АльфаСтрахование и др. Интенсивная программа онлайн-магистратуры позволит студентам овладеть знаниями и навыками, востребованными работодателями, получить фундамент для дальнейшего развития и построения карьеры, пройти стажировку в компаниях-партнерах программы.

«
«Междисциплинарная магистерская программа Data Science создана НИТУ «МИСиС» совместно SkillFactory и компаниями - Mail.ru Group, Ростелеком и NVidia. Её выпускники будут владеть знаниями и компетенциями в области больших данных, искусственного интеллекта и машинного обучения. Эти навыки актуальны на рынке труда и востребованы работодателями»,
»

Ещё одна особенность программы – работа с менторами. Кроме преподавателей со студентами будет работать команда менторов – специалистов в области Data Science. Они будут помогать студентам с возникающими во время обучения сложностями, давать содержательную обратную связь по выполненным работам, делиться опытом и знаниями по профессии. Поддержка менторов будет доступна студентам в чате в режиме реального времени.

Технологическим партнером программы стала компания SkillFactory, обеспечивающая сопровождение образовательного процесса. Для каждого студента будет сформирован индивидуальный план обучения, что позволит управлять его образовательным опытом и мотивацией, что, в свою очередь, повышает результативность обучения. Студенты будут учиться на интерактивных тренажерах и решать практические задачи на реальных данных. Среди дисциплин в рамках программы: язык программирования Python, Machine Learning, Deep Learning, Big Data, Computer Vision.

«
«Мы верим в модель OPM (Online Program Manager) - взаимодействие вузов и образовательных компаний в создании и реализации образовательных программ. Эта модель уже больше 10 лет работает в США и Европе, и мы уверены, что в ближайшие годы она хорошо покажет себя и в российских вузах»,
»

«
«Подготовка специалистов по Data Science — одно из основных направлений в рамках образовательной деятельности Mail.ru Group. Мы реализуем разные форматы, среди них в том числе развитие компетенций профессионалов, которые уже работают в этой сфере. В этом направлении тесно сотрудничаем с НИТУ «МИСиС» — в 2019 году открыли Академию больших данных MADE, где уже по данным на май 2020 года учатся 200 студентов со всей страны — и готовы поделиться опытом в рамках поддержки онлайн-магистратуры вуза. У онлайн-формата много преимуществ, но главное — доступность. Получить степень магистра московского вуза смогут жители любых регионов»,
»

Поступить в магистратуру смогут выпускники бакалавриата любого направления подготовки по результатам онлайн-экзамена.

Директор по данным - Chief Data Officer, CDO

Основная статья: Директор по данным (Chief Data Officer, CDO)

Специалист по изучению данных (data scientist)

Основная статья - здесь

Почему Data Scientist сексуальнее, чем BI-аналитик

В связи с ростом популярности data science (DS) возникает два совершенно очевидных вопроса. Первый – в чем состоит качественное отличие этого недавно сформировавшегося научного направления от существующего несколько десятков лет и активно используемого в индустрии направления business intelligence (BI)? Второй - возможно более важный с практической точки зрения - чем различаются функции специалистов двух родственных специальностей data scientist и BI analyst? В материале, подготовленном специально для TAdviser, на эти вопросы отвечает журналист Леонид Черняк.

Робототехника



Управление данными

Примечания