Центр компетенций НТИ по направлению «Технологии хранения и анализа больших данных»
Центр компетенций Национальной технологической инициативы (НТИ) по направлению «Технологии хранения и анализа больших данных» на базе Московского государственного университета имени М.В. Ломоносова.
Центр компетенций НТИ по направлению «Технологии хранения и анализа больших данных»
В частности, в Центре осуществляются исследования в области предиктивной аналитики, интеллектуального анализа текстов, анализа больших данных, поиска уязвимостей в веб-приложениях, облачных технологий в медицине, технологий трехмерной оптической памяти.
Стратегическими целями деятельности Центра являются:
- В научно техническом направлении: разработка новых технологий хранения и анализа больших данных мирового уровня в медицине, экологии на производстве, для интеллектуального анализа текстов и решений для преодоления ряда актуальных для общества и государства вызовов, связанных с проблематикой хранения и анализа больших данных, а также создание широких возможностей для объединения и координации российских исследователей и разработчиков в области технологий хранения и анализа больших данных, формирования национальной сети таких специалистов;
- По направлению образовательной деятельности: разработка образовательной платформы с целью реализации образовательных программ по направлению больших и сверхбольших данных и стимулирования роста числа специалистов в соответствующей сфере;
- В части формирования инфраструктуры: создание инфраструктуры с целью формирования эффективной вычислительной базы для решения существующих и новых прикладных задач Центра
Для достижения этих целей Центр применяет и развивает следующие технологии:
Программно-аппаратный комплекс Центра, который позволяет реализовывать как классические облачные приложения и предоставление сервисов в форматах IaaS, PaaS, SaaS для поддержки специализированных методов по обработке больших данных, так и высокопроизводительные облачные вычисления.
Преодоление технологических барьеров
На сегодняшний день особо стоит отметить следующие результаты деятельности Центра:
- 2021 г:
- Разработано программное обеспечение по анализу медицинских изображений с чувствительностью 95%, в результате чего был преодолен технологический барьер постановки диагноза и назначения лекарственной терапии с чувствительностью и специфичностью не менее 95% . Программное обеспечение уже применяется в городских поликлиниках, клинико-диагностических центрах, городских клинических больницах, специализированных туберкулезных диспансерах в ходе проведения Эксперимента Департамента здравоохранения Москвы, проводимого в соответствии с в соответствии с постановлением Правительства Москвы № 1543-пп от 21.11.2019 г.
- Преодолен барьер сбора и передачи данных поступающих с промышленного оборудования различных типов, позволяющая снизить издержки предприятия за счет оптимизации использования оборудования или повысить эффективность эксплуатации изделия. Пилотное внедрение программного комплекса для прогнозирования возможных отказов и сбоев технологического оборудования реализуется в АО «Сибирская угольная энергетическая компания» и ГК «Современные транспортные технологии».
- 2018-2019 г:
- Разработан современный программный стек технологий, обеспечивающих динамически меняющуюся структуру хранилища с автоматическим формированием рабочих процессов обработки и хранения данных, наиболее точно соответствующих формату представления и содержимому разнородной неструктурированной или слабо структурированной информации, а также специфике задач извлечения из нее знаний в процессе интеллектуального анализа данных сверхбольшого объема при решении широкого спектра актуальных задач. Полученные результаты были переданы Самарскому государственному аэрокосмическому университету им. С.П. Королёва с целью их дальнейшего применения в аэро- и космических системах.
Значимые результаты научно-исследовательской деятельности
- В 2022 году зарегистрирована программа для ЭВМ «Система автоматического поиска уязвимостей в веб-приложениях на основе обработки больших данных», которое позволяет организовать процессы непрерывного тестирования и обнаружения уязвимостей в публичных веб-приложениях и информирование разработчиков приложений о потенциальных угрозах. Потенциальные потребители— корпоративные клиенты с собственной внутренней разработкой веб-приложений, которые используют или внедряют SDLC (жизненный цикл разработки программного обеспечения) – финансовые организации, банки, ИТ-компании, обслуживающие экономику и госкомпании и организации госсектора.
- В 2021 году была завершена разработка экспериментального образца программного обеспечения интеллектуального анализа больших массивов текстов, который представляет собой программу индексации моделей дистрибутивной семантики и выборки данных в задачах кросс-языкового смыслового сопоставления текстов и может использоваться B2B/B2G сегментами, а именно аналитическими центрами, крупными издательствами, электронными библиотеками и компаниями, специализирующимися на защите интеллектуальной собственности.
- Разработан проект национального стандарта в области больших данных ГОСТ Р 59926-2021/ISO/IEC TR 20547-2:2018 «Информационные технологии. Эталонная архитектура больших данных. Часть 2. Варианты использования и производные требования» (идентичный ISO IEC TR 20547-2:2018 «Information technology - Big data reference architecture - part: 2 Use cases and derived requirements»). Проект стандарта был утвержден Росстандартом и вступил в силу с 01.03.2022 г.
Создание важных объектов инфраструктуры
- В 2021 году завершено создание специализированной вычислительной инфраструктуры для решения задач в области сквозной технологии больших данных. Программно-аппаратный комплекс Центра позволяет реализовывать как классические облачные приложения и предоставление сервисов в форматах IaaS, PaaS, SaaS (инфраструктура, платформа и разработка программного обеспечения, как услуга, соответственно) для поддержки специализированных методов по обработке больших данных, так и высокопроизводительные облачные вычисления.
- Ряд проектов Центра опирается на решение задач в области машинного и глубинного обучения, искусственного интеллекта и Data Mining. Для этого была создана аппаратная инфраструктура на основе современного сервера обработки данных на GPU-ускорителях — суперкомпьютера Nvidia DGX-2. Данная платформа применяется, в частности, в проектах по предиктивной аналитике, безопасности и медицине.
- Для обеспечения потребностей ряда прикладных проектов в гибкой конфигурации ресурсов создан пул вычислительных серверов, опирающихся на технологии виртуализации OpenNebula, а также на высокоэффективное файловое хранилище Ceph. Основные пользователи данного вида ресурсов — проекты, использующие в своей деятельности прикладные базы данных с аналитическими сервисами, и образовательные проекты.
Внедрение и коммерциализация результатов деятельности Центра
- В 2021 году был разработан опытный образец программного комплекса для прогнозирования возможных отказов и сбоев технологического оборудования с преднастроенными моделями, испытанный на оборудовании ООО «Нафта Дриллинг Компани». В настоящий момент ведется доработка опытного образца для внедрения в практическую деятельность ООО «Нафта Дриллинг Компани».
- Медицинское программное обеспечение автоматизированного анализа цифровых флюорограмм на основе искусственного интеллекта достигло 95%-ной точности при анализе диагностических изображений. В 2021 году была проведена интеграция программного обеспечения в реально функционирующую информационную систему в сфере здравоохранения России на основе стандарта DICOM. На текущий момент разработанное программное обеспечение используется в практическом здравоохранении города Москвы и 53 других регионов России.
- Программное обеспечение интеллектуального анализа больших массивов текстов, действующее на основе алгоритмов обучения стеммингу и токенизации для произвольного языка, способно производить предварительную обработку текстов на 100 ведущих мировых языках, на которых публикуются научные произведения. Созданы также коллекция и база данных переводных предложений для того же набора языков. Коллекция используется АО «Антиплагиат» для оптимизации семантических моделей.
- В 2020 году разработаны прогностические модели, способные на раннем этапе детектировать отклонения в работе производственного оборудования и сигнализировать о необходимости проведения ремонтных работ. Данные модели могут быть использованы для оборудования широкого профиля в металлургических компаниях.
Создание и лицензирование РИД
- Количество созданных объектов интеллектуальной собственности за 2018-2021 год — 20 единиц, которые включают программы ЭВМ, базы данных и ноу-хау, используемые для разработок в области хранения и анализа больших данных.
- Количество реализованных лицензий за аналогичный период — 85 единиц.
Консорциум построен на основе представительства организаций разных типов (академических, образовательных, государственных, коммерческих и некоммерческих) в целях учета и гармонизации интересов различных сторон, заинтересованных в формировании, использовании и коммерциализации результатов деятельности Центра. По состоянию на январь 2022 года консорциум Центра включает 51 организацию, среди которых:
- 15 вузов;
- 7 научно-исследовательских организаций;
- 28 коммерческих компаний;
- 1 некоммерческая организация.
Среди ключевых партнеров Центра – ООО «Нафта Дриллинг Компани», совместно с которым проводились работы по разработке и испытанию опытного образца программного комплекса для прогнозирования возможных отказов и сбоев технологического оборудования. Компания предоставила финансирование на модернизацию существующего оборудования для обеспечения возможности по сбору данных в режиме реального времени. Это позволило собрать необходимый набор данных для обучения предиктивных моделей и тестировании опытного образца программного комплекса.
Другим важным партнером является ООО «Солидсофт». Совместно с партнером была разработана программа ЭВМ «Система автоматического поиска уязвимостей в веб-приложениях на основе обработки больших данных». В рамках проекта партнер выполнил работы по проведению приемочного тестирования опытного образца по автоматическому обнаружению уязвимостей в веб-приложениях. Помимо этого, индустриальный партнер оказывает активную поддержку проекта путем совместной с Центром разработки презентационных материалов, документации и коммерческих предложений для потенциальных потребителей.
В рамках проекта «Облачные технологии обработки и интерпретации медицинских диагностических изображений на основе применения средств анализа больших данных» важным партнером является АО «Антиплагиат». В деятельность компании внедрены методы кросс-языкового поиска заимствований, созданные на первом этапе реализации проекта, основанные на методах глубокого обучения для языков стран СНГ: русского, белорусского, казахского.
Основные задачи Центра группируются вокруг следующих приоритетных и ключевых комплексных научно-исследовательских проектов:
- Предиктивная аналитика технических систем:
- Разработан опытный образец программного комплекса с преднастроенными моделями для прогнозирования отказов оборудования и повышения эффективности производства. Аналитическая платформа способна снижать число простоев и сбоев при производстве, предотвращать отказы оборудования и повышать качество готовой продукции.
https://bigdata.msu.ru/projects/31/
- Система автоматического поиска уязвимостей в веб-приложениях на основе обработки больших данных:
- Разработан опытный образец высокотехнологичного программного комплекса для решения задачи автоматического непрерывного обнаружения уязвимостей в веб-приложениях на основе обработки больших данных, доработанный по результатам экспериментов на реальных приложениях и пилотных проектов, пригодный для опытной эксплуатации и коммерческой эксплуатации.
https://bigdata.msu.ru/projects/32/
- Математические основы интеллектуального анализа больших данных:
- Опубликовано семь научных статей в авторитетных научных изданиях. Содержание статей отражает результаты исследований в области развития и создания новых методов и алгоритмов анализа структурированных и неструктурированных данных; разработки программных средств обработки распределенных данных больших объемов; применения созданных средств при решении прикладных задач.
https://bigdata.msu.ru/projects/35/
- Облачные технологии обработки и интерпретации медицинских диагностических изображений на основе применения средств анализа больших данных:
- Создана многофункциональная облачная платформа по автоматизированной диагностике болезней грудной клетки. Программное обеспечение позволяет работать с цифровыми рентгеновскими снимками, сделанными на различных аппаратах лучевой диагностики (рентген, КТ, МРТ, УЗ, ПЭТ).
- Создан сервис «АнтиКорона», который позволяет эффективнее и быстрее диагностировать COVID-19. С помощью алгоритмов искусственного интеллекта система анализирует медицинские рентгеновские изображения на предмет признаков коронавирусной пневмонии и помогает врачу поставить диагноз и сформировать индивидуальный план лечения на основе рекомендаций системы поддержки принятия врачебных решений.
- На базе многофункциональной облачной платформы создан сервис «АнтиКох» — с помощью искусственного интеллекта анализирует цифровые флюорограммы и в течение 0,8 секунды выдает рекомендации с классификацией по вариантам заболевания.
https://bigdata.msu.ru/projects/33/
- Средства интеллектуального анализа больших массивов текстов:
- Доработан экспериментальный образец ПО интеллектуального анализа больших массивов текстов. В дополнение были сформулированы рекомендации по промышленному использованию и кругу потенциальных потребителей ПО информационной системы интеллектуального анализа больших массивов текстов.
https://bigdata.msu.ru/projects/34/
- Новые подходы к проектированию систем считывания для технологии трехмерной оптической памяти с многоуровневым кодированием:
- Разработан метод, пригодный для реализации многоуровневой записи информации.
https://bigdata.msu.ru/projects/36/
- Мониторинг и стандартизация развития и использования технологий хранения и анализа больших данных в цифровой экономике Российской Федерации:
- Разработан веб-сайт системы мониторинга развития и использования технологий хранений и анализа больших данных.
- Разработан проект национального стандарта ГОСТ Р 59926-2021/ISO/IEC TR 20547-2:2018 «Информационные технологии. Эталонная архитектура больших данных. Часть 2. Варианты использования и производные требования» (идентичный ISO IEC TR 20547-2:2018 «Information technology - Big data reference architecture - part: 2 Use cases and derived requirements»).
https://bigdata.msu.ru/projects/37/
- Интеллектуальный анализ больших данных в задачах экологии и охраны окружающей среды:
- Разработан опытный образец программного обеспечения по проведению вычислительных экспериментов с реальными данными по управлению развитием колоний гидробионтов и мониторингу состояния окружающей среды.
https://bigdata.msu.ru/projects/38/
Численность подготовленных Центром специалистов, имеющих высшее образование, по основным образовательным программам высшего образования и дополнительным образовательным программам, за 2018-2021 гг. составила 3389 человек, из них по программам бакалавриата — 2729 человека, магистратуры — 677 человек, специалитета – 3 человека, программам повышения квалификации — 20 человек.
Всего разработано более 30 новых образовательных курсов, распределенных по четырем основным направлениям:
- Первое включает курсы, связанные с аналитикой больших данных. В эту группу в основном входят дисциплины, базирующиеся на алгоритмах и методах теории вероятностей и математической статистики.
- Второе направление — курсы по хранению больших данных, ориентированные на изучение как основ организации хранения больших данных, так и конкретных современных технологий хранения (MapReduce, Spark и прочие).
- Направление третьей группы курсов — программная инженерия и информационные технологии. Сюда входят дисциплины, которые связаны с инженерией разработки приложений, предполагающих обработку и анализ больших данных.
- Четвертая группа – курсы по предметно-ориентированным знаниям, направленные на изучение анализа данных из конкретных предметных областей (медицина, информационная безопасность, государственная безопасность и прочие).
Образовательные курсы, разработанные в Центре, реализуются в вузах ФГБОУ ВО «Московский государственный университет имени М.В. Ломоносова», ЧОУ ВО «МУ им. С.Ю. Витте», ФГБОУ ВО «Национальный исследовательский Нижегородский государственный университет им. Н.И. Лобачевского».
Наиболее востребованными курсами Центра являются курсы «Базы данных» и «Статистика».
Дополнительно в 2021 году были подготовлены методические материалы по работе с пилотным центром дистанционной поддержки учебного процесса, комплекты учебно-методических материалов автоматизированного контроля знаний по существующим курсам, пакет учебно-методических материалов по новому курсу лекций «Методы вычислительной статистики в машинном обучении».
- В 2021 году в Северном Государственном Медицинском Университете (СГМУ) состоялось открытие регионального Арктического центра при участии Центра компетенций НТИ. В частности, 20 сотрудников СГМУ прошли обучение по программе повышения квалификации «Статистика больших данных».
- В 2020 году в Алтайском государственном университете (АлтГУ), вошедшем в консорциум Центра, состоялось открытие Регионального центра компетенций НТИ по аналогичному направлению (технологии хранения и анализа больших данных). В частности, 20 преподавателей и аспирантов АлтГУ, которые заинтересованы в участии в проектах по большим данными, реализуемых опорным вузом региона, прошли курс «Введение в большие данные»
Описание образовательной деятельности Центра представлено на сайте:
https://bigdata.msu.ru/education_platform/
- Академик Игорь Соколов,
и. о. директора Центра, декан факультета вычислительной математики и кибернетики (ВМК) МГУ, научный руководитель, и. о. директора Национального центра цифровой экономики МГУ, руководитель направления НИР и НИОКР,
+7 (495) 939-30-10,
isokolov@ipiran.ru
- Алексей Белошицкий,
исполнительный директор Центра,
+7 (916) 883-84-92,
alexey.beloshitskiy@digital.msu.ru
- Сергей Тростьянский,
заместитель директора Центра,
+7 (926) 845-83-04,
sergey.trostiansky@digital.msu.ru
- Олег Карасев,
к.э.н., соруководитель направления коммерциализации Центра, проректор МГУ,
+7 (495) 939-30-18,
k-o-i@yandex.ru
- Андрей Грунин,
соруководитель направления коммерциализации Центра, помощник проректора МГУ,
+7 (495) 939-12-50,
grunin@nanolab.phys.msu.ru
- Игорь Машечкин,
д. ф.-м. н., проф., руководитель образовательного направления, заведующий кафедрой интеллектуальных информационных технологий факультета ВМК МГУ,
+7 (495) 939-17-89,
mash@cs.msu.su
- Владимир Воеводин,
д. ф.-м. н., чл.-корр. РАН, руководитель инфраструктурного направления, директор Научно-исследовательского вычислительного центра,
+7 (495) 939-17-89,
voevodin@parallel.ru
- Мехри Алиев,
руководитель направления развития международных связей,
tg @mekhrialiev,
mekhri.aliev@digital.msu.ru
- Игорь Терещенко,
руководитель направления правовых исследований и юридического сопровождения,
tg @Igor_Lex,
igor.tereshchenko@digital.msu.ru
- Александр Бирюков,
руководитель IT и разработки,
tg @biryukovlex,
alexander.biryukov@digital.msu.ru
- Егор Шитов,
руководитель направления консалтинга и экспертизы,
tg @egorsh29,
egor.shitov@digital.msu.ru
- Станислав Черевков,
руководитель административного направления,
cherevkovss@digital.msu.ru