Центр компетенций НТИ по направлению «Технологии хранения и анализа больших данных»
Центр компетенций Национальной технологической инициативы (НТИ) по направлению «Технологии хранения и анализа больших данных» на базе Московского государственного университета имени М.В. Ломоносова.
В Центре осуществляются исследования в области предиктивной аналитики, интеллектуального анализа текстов, анализа больших данных, поиска уязвимостей в веб-приложениях, облачных технологий в медицине, технологий трехмерной оптической памяти.
Стратегическими целями деятельности Центра являются:
- В научно техническом направлении: разработка новых технологий хранения и анализа больших данных мирового уровня в медицине, экологии на производстве, для интеллектуального анализа текстов и решений для преодоления ряда актуальных для общества и государства вызовов, связанных с проблематикой хранения и анализа больших данных, а также создание широких возможностей для объединения и координации российских исследователей и разработчиков в области технологий хранения и анализа больших данных, формирования национальной сети таких специалистов;
- По направлению образовательной деятельности: разработка образовательной платформы с целью реализации образовательных программ по направлению больших и сверхбольших данных и стимулирования роста числа специалистов в соответствующей сфере;
- В части формирования инфраструктуры: формирование эффективной вычислительной базы для решения существующих и новых прикладных задач Центра
Для достижения этих целей Центр применяет и развивает следующие технологии:
Программно-аппаратный комплекс Центра, который позволяет реализовывать как классические облачные приложения и предоставление сервисов в форматах IaaS, PaaS, SaaS для поддержки специализированных методов по обработке больших данных, так и высокопроизводительные облачные вычисления.
Преодоление технологических барьеров
На сегодняшний день особо стоит отметить следующие результаты деятельности Центра:
-
2021 г:
- Разработано программное обеспечение по анализу медицинских изображений с чувствительностью 95%, в результате чего был преодолен технологический барьер постановки диагноза и назначения лекарственной терапии с чувствительностью и специфичностью не менее 95% . Программное обеспечение уже применяется в городских поликлиниках, клинико-диагностических центрах, городских клинических больницах, специализированных туберкулезных диспансерах в ходе проведения Эксперимента Департамента здравоохранения Москвы, проводимого в соответствии с в соответствии с постановлением Правительства Москвы № 1543-пп от 21.11.2019 г.
- Программный комплекс, разработанный в рамках проекта «Предиктивная аналитика технических систем», позволит преодолеть следующие технологические барьеры:
- ДК Энерджинет:
- «Возможность мониторинга технического состояния оборудования, не содержащего на момент заводского изготовления специальных датчиков и сенсоров параметров технического состояния»;
- «Обновление данных о параметрах технического состояния не реже, чем один раз в час»;
- «Глубина автоматического прогноза технического состояния оборудования не менее, чем 60 дней»;
- «Точность прогноза технического состояния оборудования не менее, чем 90%».
- ДК Технет:
- «Программно-аппаратный комплекс для сбора и передачи данных, поступающих с промышленного оборудования различных типов, позволяющая снизить издержки предприятия за счет оптимизации использования оборудования или повысить эффективность эксплуатации изделия».
Значимые результаты научно-исследовательской деятельности
-
В 2023 году была завершена работа над РИД «Модель зрелости работы с большими данными в организации», который может быть использован сторонними организациями, как коммерческими, так и государственными структурами для оценки уровня развития технологии работы с большими данными в организации.
-
В 2022 году зарегистрирована программа для ЭВМ «Система автоматического поиска уязвимостей в веб-приложениях на основе обработки больших данных», которое позволяет организовать процессы непрерывного тестирования и обнаружения уязвимостей в публичных веб-приложениях и информирование разработчиков приложений о потенциальных угрозах. Потенциальные потребители— корпоративные клиенты с собственной внутренней разработкой веб-приложений, которые используют или внедряют SDLC (жизненный цикл разработки программного обеспечения) – финансовые организации, банки, ИТ-компании, обслуживающие экономику, госкомпании и организации госсектора.
-
Произведена сборка и отладка аппаратной части комплекса, разработана конструкторская и программная документация, проведены испытания экспериментального образца программно-аппаратного комплекса считывания информации для трехмерной оптической памяти с многоуровневым кодированием.
-
В 2021 году была завершена разработка экспериментального образца программного обеспечения интеллектуального анализа больших массивов текстов, который представляет собой программу индексации моделей дистрибутивной семантики и выборки данных в задачах кросс-языкового смыслового сопоставления текстов и может использоваться B2B/B2G сегментами, а именно аналитическими центрами, крупными издательствами, электронными библиотеками и компаниями, специализирующимися на защите интеллектуальной собственности.
Создание важных объектов инфраструктуры
-
В 2021 году завершено создание специализированной вычислительной инфраструктуры для решения задач в области сквозной технологии больших данных. Программно-аппаратный комплекс Центра позволяет реализовывать как классические облачные приложения и предоставление сервисов в форматах IaaS, PaaS, SaaS (инфраструктура, платформа и разработка программного обеспечения, как услуга, соответственно) для поддержки специализированных методов по обработке больших данных, так и высокопроизводительные облачные вычисления.
-
Ряд проектов Центра опирается на решение задач в области машинного и глубинного обучения, искусственного интеллекта и Data Mining. Для этого была создана аппаратная инфраструктура на основе современного сервера обработки данных на GPU-ускорителях — суперкомпьютера Nvidia DGX-2. Данная платформа применяется, в частности, в проектах по предиктивной аналитике, безопасности и медицине.
-
Для обеспечения потребностей ряда прикладных проектов в гибкой конфигурации ресурсов создан пул вычислительных серверов, опирающихся на технологии виртуализации OpenNebula, а также на высокоэффективное файловое хранилище Ceph. Основные пользователи данного вида ресурсов — проекты, использующие в своей деятельности прикладные базы данных с аналитическими сервисами, и образовательные проекты.
Внедрение и коммерциализация результатов деятельности Центра
-
В 2023 году лицензии на сервис автоматического поиска уязвимостей в веб-приложениях были предоставлены ПАО «Сбербанк», группе «Мвидео-Эльдорадо», ООО «Артекс Технолоджи».
В 2022 году ПО пилотно тестировалось в ряде компаний: ПАО «Вымпелком», группе «Мвидео-Эльдорадо», сервисе More.tv и др.
-
Создан и начал функционировать Центр, оборудованный мощными серверами и станцией спутниковой связи, который позволил выставить в облако медицинский искусственный интеллект по анализу цифровых флюорограмм и обеспечить прямой доступ к облачному сервису любому специалисту лучевой диагностики в 53 регионах России.
-
Результаты приоритетного проекта «Предиктивная аналитика технических систем» планируется использовать для решения задач акустической локации в рамках проекта для АО «Мурманский морской торговый порт».
-
В 2021 году результаты проекта «Средства интеллектуального анализа больших массивов текстов» пилотно внедрены в деятельность АО «Антиплагиат». В частности, внедрены методы кросс-языкового поиска заимствований, созданные на первом этапе реализации проекта, основанные на методах глубокого обучения для языков стран СНГ: русского, белорусского, казахского.
Создание и лицензирование РИД
-
Количество созданных объектов интеллектуальной собственности за 2018-2023 год — 37 единиц, которые включают программы ЭВМ, базы данных и ноу-хау, используемые для разработок в области хранения и анализа больших данных.
-
Количество реализованных лицензий за аналогичный период — 96 единиц.
Консорциум построен на основе представительства организаций разных типов в целях учета и гармонизации интересов различных сторон, заинтересованных в формировании, использовании и коммерциализации результатов деятельности Центра. По состоянию на начало 2024 года консорциум Центра включает 54 организации, среди которых:
-
15 вузов;
-
7 научно-исследовательских организаций;
-
31 коммерческих компаний;
-
1 госкорпорация.
Среди ключевых партнеров Центра – ООО «Нафта Дриллинг Компани», совместно с которым проводились работы по разработке и испытанию опытного образца программного комплекса для прогнозирования возможных отказов и сбоев технологического оборудования. Компания предоставила финансирование на модернизацию существующего оборудования для обеспечения возможности по сбору данных в режиме реального времени. Это позволило собрать необходимый набор данных для обучения предиктивных моделей и тестировании опытного образца программного комплекса.
Другим важным партнером является ООО «Солидсофт». Совместно с партнером была разработана программа ЭВМ «Система автоматического поиска уязвимостей в веб-приложениях на основе обработки больших данных». В рамках проекта партнер выполнил работы по проведению приемочного тестирования опытного образца по автоматическому обнаружению уязвимостей в веб-приложениях. Помимо этого, индустриальный партнер оказывает активную поддержку проекта путем совместной с Центром разработки презентационных материалов, документации и коммерческих предложений для потенциальных потребителей.
Основные задачи Центра группируются вокруг следующих приоритетных и ключевых комплексных научно-исследовательских проектов:
-
Предиктивная аналитика технических систем:
- Разработан опытный образец программного комплекса с преднастроенными моделями для прогнозирования отказов оборудования и повышения эффективности производства. Аналитическая платформа способна снижать число простоев и сбоев при производстве, предотвращать отказы оборудования и повышать качество готовой продукции.
https://bigdata.msu.ru/projects/31/
-
Система автоматического поиска уязвимостей в веб-приложениях на основе обработки больших данных:
- Разработан опытный образец высокотехнологичного программного комплекса для решения задачи автоматического непрерывного обнаружения уязвимостей в веб-приложениях на основе обработки больших данных, доработанный по результатам экспериментов на реальных приложениях и пилотных проектов, пригодный для опытной эксплуатации и коммерческой эксплуатации.
https://bigdata.msu.ru/projects/32/
-
Математические основы интеллектуального анализа больших данных:
- Опубликовано семь научных статей в авторитетных научных изданиях. Содержание статей отражает результаты исследований в области развития и создания новых методов и алгоритмов анализа структурированных и неструктурированных данных; разработки программных средств обработки распределенных данных больших объемов; применения созданных средств при решении прикладных задач.
https://bigdata.msu.ru/projects/35/
-
Облачные технологии обработки и интерпретации медицинских диагностических изображений на основе применения средств анализа больших данных:
- Создана многофункциональная облачная платформа по автоматизированной диагностике болезней грудной клетки. Программное обеспечение позволяет работать с цифровыми рентгеновскими снимками, сделанными на различных аппаратах лучевой диагностики (рентген, КТ, МРТ, УЗ, ПЭТ): с помощью искусственного интеллекта сервис анализирует цифровые флюорограммы и в течение 0,8 секунды выдает рекомендации с классификацией по вариантам заболевания.
- В мае 2022 года медицинский искусственный интеллект получил Регистрационное удостоверение Росздравнадзора № РЗН 2022/17406 и был включен в Единый радиологический информационный сервис (ЕРИС) города Москвы.
https://bigdata.msu.ru/projects/33/
-
Средства интеллектуального анализа больших массивов текстов:
- Доработан экспериментальный образец ПО интеллектуального анализа больших массивов текстов. В дополнение были сформулированы рекомендации по промышленному использованию и кругу потенциальных потребителей ПО информационной системы интеллектуального анализа больших массивов текстов.
https://bigdata.msu.ru/projects/34/
-
Новые подходы к проектированию систем считывания для технологии трехмерной оптической памяти с многоуровневым кодированием:
- Разработан метод, пригодный для реализации многоуровневой записи информации.
- Разработан программно-аппаратный комплекс считывания информации из оптических носителей с многоуровневым кодированием, подана заявка на патент изобретения.
https://bigdata.msu.ru/projects/36/
-
Мониторинг и стандартизация развития и использования технологий хранения и анализа больших данных в цифровой экономике Российской Федерации:
- Разработан веб-сайт системы мониторинга развития и использования технологий хранений и анализа больших данных.
- Разработаны и вступили в силу шесть национальных стандартов и четыре предварительных национальных стандарта в области технологий больших данных.
https://bigdata.msu.ru/projects/37/
-
Интеллектуальный анализ больших данных в задачах экологии и охраны окружающей среды:
- Разработан опытный образец программного обеспечения по проведению вычислительных экспериментов с реальными данными по управлению развитием колоний гидробионтов и мониторингу состояния окружающей среды.
https://bigdata.msu.ru/projects/38/
Численность подготовленных Центром специалистов, имеющих высшее образование, по основным образовательным программам высшего образования и дополнительным образовательным программам, за 2018-2023 гг. составила 4746 человек, из них по программам бакалавриата — 4026 человека, магистратуры — 677 человек, специалитета – 40 человек, программам повышения квалификации — 20 человек.
Всего разработано более 30 новых образовательных курсов, распределенных по четырем основным направлениям:
- Аналитика больших данных.
В эту группу в основном входят дисциплины, базирующиеся на алгоритмах и методах теории вероятностей и математической статистики.
- Хранение больших данных.
Дисциплины ориентированы на изучение как основ организации хранения больших данных, так и конкретных современных технологий хранения (MapReduce, Spark и прочие).
- Программная инженерия и информационные технологии.
Сюда входят дисциплины, которые связаны с инженерией разработки приложений, предполагающих обработку и анализ больших данных.
- Предметно-ориентированные знания, направленные на изучение анализа данных из конкретных предметных областей (медицина, информационная безопасность, государственная безопасность и прочие).
Образовательные курсы, разработанные в Центре, реализуются в вузах ФГБОУ ВО «Московский государственный университет имени М.В. Ломоносова», ЧОУ ВО «МУ им. С.Ю. Витте», ФГБОУ ВО «Национальный исследовательский Нижегородский государственный университет им. Н.И. Лобачевского».
Наиболее востребованными курсами Центра являются курсы «Базы данных» и «Статистика».
Дополнительно в 2022 году было завершено создание пилотного центра дистанционной поддержки учебного процесса, который содержит методические материалы по работе с дистанционной образовательной площадкой, комплекты учебно-методических материалов автоматизированного контроля знаний по существующим курсам.
В 2021 году в Северном Государственном Медицинском Университете (СГМУ) состоялось открытие регионального Арктического центра при участии Центра компетенций НТИ. В частности, 20 сотрудников СГМУ прошли обучение по программе повышения квалификации «Статистика больших данных».
В 2020 году в Алтайском государственном университете (АлтГУ), вошедшем в консорциум Центра, состоялось открытие Регионального центра компетенций НТИ по аналогичному направлению (технологии хранения и анализа больших данных). В частности, 20 преподавателей и аспирантов АлтГУ, которые заинтересованы в участии в проектах по большим данными, реализуемых опорным вузом региона, прошли курс «Введение в большие данные»
Описание образовательной деятельности Центра представлено на сайте:
https://bigdata.msu.ru/education_platform/
-
Академик Игорь Соколов,
и. о. директора Центра, декан факультета вычислительной математики и кибернетики (ВМК) МГУ, научный руководитель, и. о. директора Национального центра цифровой экономики МГУ, руководитель направления НИР и НИОКР,
+7 (495) 939-30-10,
isokolov@ipiran.ru
-
Алексей Белошицкий,
исполнительный директор Центра,
+7 (916) 883-84-92,
alexey.beloshitskiy@digital.msu.ru
-
Сергей Тростьянский,
заместитель директора Центра,
+7 (926) 845-83-04,
sergey.trostiansky@digital.msu.ru
-
Игорь Машечкин,
д. ф.-м. н., проф., руководитель образовательного направления, заведующий кафедрой интеллектуальных информационных технологий факультета ВМК МГУ,
+7 (495) 939-17-89,
mash@cs.msu.su
-
Владимир Воеводин,
д. ф.-м. н., чл.-корр. РАН, руководитель инфраструктурного направления, директор Научно-исследовательского вычислительного центра,
+7 (495) 939-17-89,
voevodin@parallel.ru
-
Мехри Алиев,
руководитель направления развития международных связей,
tg @mekhrialiev,
mekhri.aliev@digital.msu.ru
-
Игорь Терещенко,
руководитель направления правовых исследований и юридического сопровождения,
tg @Igor_Lex,
igor.tereshchenko@digital.msu.ru
-
Александр Бирюков,
руководитель IT и разработки,
tg @biryukovlex,
alexander.biryukov@digital.msu.ru
-
Егор Шитов,
руководитель направления консалтинга и экспертизы,
tg @egorsh29,
egor.shitov@digital.msu.ru
-
Тимофей Воронин,
руководитель административного направления,
+ 7 (904) 789-20-74
tg @t_voronin
voronin@digital.msu.ru