«В любом применении искусственный интеллект будет инструментом учителя, а не заменой ему»

29.07.2020
Проверят ли андроиды электроЕГЭ.

Директор по развитию технологических конкурсов Up Great Юрий Молодых.

В декабре 2019 года РВК, АСИ и Фонд «Сколково» объявили о старте технологического конкурса Up Great «ПРО//ЧТЕНИЕ», цель которого — создание универсального алгоритма, способного к глубокому пониманию естественного языка человека. Разработки участников конкурса будут тестировать через проверку школьных эссе, а победитель, чей алгоритм справится с задачей не хуже преподавателя, получит 100 млн рублей. В июне организаторы конкурса опубликовали первые датасеты, на которых смогут «тренироваться» ИИ конкурсантов, а проведение первого цикла испытаний запланировано до конца года. Директор по развитию технологических конкурсов Up Great Юрий Молодых рассказал Indicator.Ru о том, почему искусственный интеллект называют «электричеством XXI века» и отберет ли он право оценивать ЕГЭ у преподавателей.

— Задача участников конкурса «ПРО//ЧТЕНИЕ» — создать решения, которые смогут анализировать содержание текстов на русском и английском языках, находить в них смысловые ошибки. Почему базой для обучения и тестирования алгоритмов были выбраны именно эссе ЕГЭ?

— В технологических конкурсах очень важно продумать систему испытаний так, чтобы результаты были объективно измеримыми. Без прозрачности у участников не будет доверия к системе проведения испытаний, ведь для любой из команд участие в конкурсе означает серьезные инвестиции времени и денег.

Когда мы выбирали, на какой задаче тестировать возможность искусственного интеллекта понимать смысл текстов (а это крайне важная с точки зрения науки область, прогресс в которой найдет массу применений в самых разных отраслях и индустриях), мы изучили большое количество задач, в которых необходимо анализировать не только орфографию и пунктуацию, но и смысл текста. Однако оказалось, что в большинстве случаев для такого анализа отсутствуют объективные критерии. Например, мы думали над очень актуальной сегодня задачей выявления fake news. Но в качественном фейке уже не допускают фактических искажений. Fake news дают неверную интерпретацию, преувеличивают значение каких-либо фактов и событий, но напрямую не врут читателю, поэтому такой фейк очень нелегко разоблачить.

Образование же отличается тем, что многолетняя практика учителей и регуляторов сформировала достаточно объективные критерии оценки текста. Любой проверяющий работу учитель знает, что его проверку могут апеллировать, и поэтому отталкивается от принятых критериев. Методика ЕГЭ обладает очень четкими критериями, поэтому разные учителя, даже если немного по-разному отмечают ошибки, всегда опираются на принятый стандарт. Это дает возможность использовать эти критерии и для искусственного интеллекта.

На самом деле в нашем конкурсе есть не только сочинения в рамках ЕГЭ — например, по русскому языку у нас есть также и сочинения из обычной школьной программы, с чуть более простыми критериями проверки. Просто именно в ЕГЭ критерии оказались наиболее однозначными, что позволяет нам провести объективные испытания.

Не менее важная причина заключается в том, что образование — это социально значимая область, в которой повышение качества работы учителя даже на доли процента даст колоссальный результат, с учетом того, что у нас в стране сотни тысяч педагогов и миллионы школьников и студентов. Наша задача — создать платформу для учителей и учеников, в рамках которой ИИ помогает учителю проверять работы быстрее и качественнее, а ученикам дает онлайн-тренажер, доступный круглосуточно из любой точки мира.

— Как ведется подготовка датасета для конкурса? Сколько эссе уже в него добавлено?

— Поясню, что датасет представляет собой сборник примеров школьных работ с разметкой, то есть промаркированными ошибками. На этих примерах участники конкурса могут тренировать свои алгоритмы. В датасет входят постоянно пополняющаяся обучающая выборка с отмеченными ошибками и тестовая выборка, для которой ошибки участникам неизвестны. На тестовой выборке проводится контрольное измерение качества решения.

Сейчас мы собираем датасет вместе с нашими партнерами: русскоязычный датасет помогает формировать «Школьная лига Роснано», которая проводит большое количество хороших образовательных программ по русскому языку и литературе. Английский датасет мы собираем совместно с Дальневосточным федеральным университетом, их подразделения — Школа цифровой экономики и Центр изучения иностранных языков — обладают отличным опытом, компетенциями и международными связями.

Подготовка датасета производится на специальной платформе, созданной для конкурса. Туда загружаются эссе и сочинения, а преподаватели-эксперты выделяют ошибки в соответствии с классификатором, который мы разработали совместно с лабораторией машинного интеллекта МФТИ и при участии сотен учителей и экспертов ЕГЭ. В том числе большой вклад сделали сотрудники МГПУ и московской школы №2086. В специальном интерфейсе эксперт видит текст эссе, выделяет мышкой фрагмент текста и выбирает из списка классификатора нужный тип ошибки и после этого, если это необходимо, пишет текстовый комментарий, который позволит ученику понять, в чем суть ошибки или как правильно написать текст.

Помимо ошибок эксперты выделяют смысловые блоки — так как одним из критериев хорошо написанной работы является обязательное наличие определенных типов таких блоков. Например, в работах по истории должно быть несколько исторических примеров. Фактически, если ошибки снижают оценку за работу, то правильное использование смысловых блоков ее, наоборот, повышает.

Пока что на сайте конкурса опубликована небольшая обучающая выборка, в ней около 350 размеченных сочинений. К концу августа их будет больше двух тысяч, а всего в течение конкурса наши эксперты разметят свыше 20 тысяч работ. Помимо собранных нами эссе в 2021 году мы откроем платформу для публичного использования — любой школьный учитель или репетитор сможет использовать ее для того, чтобы, с одной стороны, проверять работы своих учеников, а с другой стороны — помочь нам с краудсорсингом датасета. За счет него мы рассчитываем увеличить размер датасета в несколько раз.

— Сильно ли отличаются оценки, которые выставляют одним и тем же работам разные эксперты? Как вы решаете эту проблему?

— Дело даже не в оценках. Оценка, по большому счету, вычисляется по простой формуле, исходя из тех ошибок, которые найдены. Наоборот, фокус на оценке иногда приводит к искажению работы учителя — если сочинение «на троечку», иногда проверяющие ищут не все ошибки, какие в работе есть, а необходимое для обоснования оценки количество. Поэтому наших экспертов мы собственно оценку ставить не просим, ведь наша задача — научить ИИ понимать смысл текста и давать полезную обратную связь, а не просто ставить школьникам баллы.

Разметки разных экспертов отличаются значительно — разная локализация ошибок (начало и конец ошибки или фрагмента), иногда отличаются типы ошибок и почти всегда отличается текстовый комментарий. Не говоря уже о том, что один учитель иногда выделяет ошибку там, где другой ее не выделяет.

Как мы работаем с такими противоречиями? Во-первых, следуем тем алгоритмам, которые используются для проверки работ ЕГЭ. Каждый текст проверяет как минимум два преподавателя, а в случае, если расхождения между их разметками достаточно большие, — автоматически назначается третий эксперт. В отличие от первых двух экспертов, он видит оба варианта разметки и делает третий, результирующий вариант.

Во-вторых, задача участников конкурса не в том, чтобы повторить эталонную разметку — ведь эталона не существует, все учителя проверяют работы по-разному, несмотря на общие критерии. Задача ИИ — сделать такую проверку, чтобы она отличалась от разметок экспертов не сильнее, чем разметки экспертов отличаются друг от друга. Платформа автоматически рассчитывает степень сходства между разметками и сравнивает процент сходства разметок экспертов и разметки ИИ. Если процент сходства ИИ равен или выше процента сходства экспертов — задача решена.

Этот подход очень хорош своей гибкостью: разметки экспертов в ходе проверки простых эссе отличаются друг от друга незначительно, а значит, и ИИ должен очень близко их повторить. Но для сложных сочинений, в которых эксперты очень по-разному выделяют ошибки, расхождение может быть серьезным, поэтому и у ИИ есть широкий коридор допустимых вариантов. В том числе, если один эксперт ошибку выделил, а второй посчитал, что ошибки нет, то для ИИ будет корректно как выделить эту ошибку, так и не выделить.

Более того, для ошибок, которые выделил ИИ, но не заметили эксперты, мы будем проводить отдельную ручную проверку. Если выяснится, что ИИ ошибку нашел, а эксперты пропустили, то алгоритм получит дополнительные баллы. Это особенно важно в практическом смысле: если ИИ-ассистент будет помогать учителю не просто быстрее проверять работы, но и находить такие ошибки, которые учитель сам бы пропустил, то польза от такого помощника будет заметно больше.

— С какими еще сложностями вы столкнулись на этапе формирования датасета?

— Самый сложный момент был связан не с методикой проведения конкурса, а с этическими вопросами. Школьные учителя, с которыми мы консультировались, разделились на два лагеря: технопессимисты считают, что внедрение ИИ будет отбирать у учителя работу, приведет к дополнительным сокращениям штатов в школах и в целом негативно повлияет на качество образования. Оптимисты же, наоборот, отмечают, что учителям часто не хватает времени вчитываться в работы глубоко, и если появится ИИ, который хорошо выделяет по крайней мере простые ошибки, то учитель сможет потратить больше времени на объяснение сложных ошибок.

Моя личная позиция: любые технологии могут быть использованы как во благо системе и отдельным людям, так и во вред. В нашем случае, я думаю, что на первых этапах нельзя делать использование такой системы обязательным. Принудительное внедрение всегда вызывает перегибы. Возможно, правильным будет использование такого ИИ в первую очередь в системе дополнительного образования, в работе репетиторов и в школах, испытывающих кадровый дефицит, вдали от крупных городов. Если учитель перегружен, у него маленький стаж и нет никого, кто мог бы его поддержать, — то для него ИИ-ассистент однозначно будет благом.

Конечно, за пару лет оцифровать такой глубокий процесс, как оценка содержания работ школьников в масштабах страны, невозможно. Поэтому одной из задач всех, включенных в реформу образования, является проведение как можно более ранних экспериментов, пилотных внедрений и итеративное улучшение системы образования. Принципиально важно начинать этот процесс не с административного принуждения, а с того, чтобы разрешить эксперименты тем, кто на них готов.

Если мы пойдем по этому пути, то к моменту, когда технологии будут готовы к широкомасштабному внедрению, мы уже будем готовы отдать своих детей учителю, вооруженному не только бумажными учебниками и доской, но и ИИ-ассистентами.

— Что именно должен уметь искусственный интеллект, чтобы справляться с анализом текста на уровне специалиста?

— В конкурсе есть три группы метрик, по которым ИИ должен показать результат, сопоставимый с живым преподавателем-экспертом, чтобы претендовать на победу:

1. Локализация ошибок и фрагментов, то есть нужно уметь находить те отрывки текста, на которые преподаватель должен обращать внимание при оценке работы, — как повышающие оценку фрагменты, так и понижающие ее ошибки.

2. Классификация ошибок и фрагментов. В классификаторе есть более 50 разных типов ошибок, из которых часть — общая для всех предметов (например, фактические ошибки), а часть — специальные для отдельного предмета, который проверяется в конкурсе: русский язык, литература, обществознание, история и английский язык. Например, в сочинениях по истории ошибкой считаются рассуждения, не опирающиеся на исторические факты или мнения историков, а для сочинений по литературе такие рассуждения ошибкой не являются.

3. Создание на естественном языке понятного школьнику комментария о том, как нужно было правильно написать и почему. Во-вторых, ИИ должен работать быстро — на проверку одного эссе отводится в среднем 30 секунд (на сложную или длинную работу можно потратить и больше, но среднее значение нельзя превысить).

И, наконец, технические моменты. ИИ должен уметь скачать и загрузить эссе на платформу без ошибок в синтаксисе разметки. Каждое эссе на платформе — это txt-файл. Разметка осуществляется на похожем на markdown языке (грубо говоря — как теги в Википедии), очень простом, чтобы его было легко читать и машине, и человеку, открывшему файл в блокноте.

— Разработчики таких решений для английского языка сейчас ближе к преодолению технологического барьера, чем те, кто работает с русскоязычными текстами?

— На текущий момент для английского языка есть гораздо больше хороших решений, библиотек и языковых моделей, чем для русского языка, — в первую очередь из-за объема англоязычного рынка и количества ученых и инженеров, работающих над этими решениями.

В частности, есть очень хорошие языковые модели-трансформеры: GPT-3 (разработка OpenAI) и BERT (разработка Google). Это очень большие нейросети, которые никто не учил решать нашу конкурсную задачу, однако они обладают огромным количеством «общих» знаний о языке и мире. Одних этих сетей недостаточно для победы в конкурсе, но в целом работу командам они упростят — они уже довольно хорошо «знают» язык, поэтому научиться выполнять конкретную задачу проще.

Для русского языка тоже есть довольно качественные библиотеки и системы, например DeepPavlov (открытая разработка iPavlov, реализуемая совместно с Лабораторией нейронных систем и глубокого обучения МФТИ в рамках Национальной технологической инициативы при индустриальной поддержке Сбербанка. Однако они, безусловно, пока что отстают от зарубежных разработок.

Но есть еще фактор обучающей выборки, то есть объемы сформированных для конкурса датасетов. На старте конкурса мы заложили одинаковый целевой объем для каждого языка — по 10 тысяч работ. Однако я уверен, что краудсорс на открытой платформе, который мы запустим в 2021 году, для русского языка пойдет быстрее, чем для английского.

Что окажется важнее — качество предобученных языковых моделей или размер обучающей выборки? Думаю, пока ответа на этот вопрос нет ни у кого — ведь в мире нет детального понимания метода, при помощи которого задача будет решена.

— Как сам конкурс и в перспективе созданные его участниками решения помогут учителям и школьникам? Могут ли результаты найти применение в образовании, но за пределами ЕГЭ?

— Помимо очевидного применения (ИИ — ассистент учителя), очень важным кажется использование такого ИИ как тренажера для школьников — круглосуточно доступной системы, в которую можно загрузить любой написанный текст и посмотреть, какие в нем есть недочеты. Думаю, это будет востребовано не только в рамках подготовки к экзаменам, но и в целом в рамках учебного процесса.

Помимо этого, инструмент будет полезен всем, чья работа связана с написанием объемных текстов: например, любой журналист и редактор занимаются факт-чекингом перед публикацией статьи. Очевидно, что ИИ, обученный на школьных работах, вряд ли будет применим для анализа статей по международной политике, однако для статей на историческую тематику сможет быть полезным.

Визионеры называют ИИ электричеством XXI века, которое позволит решать любые задачи эффективнее, чем раньше. Я не уверен в полной корректности метафоры, но думаю, что применений масса — индивидуальные образовательные траектории, «умные учебники», рекомендации, диагностика, новые формы онлайн-образования, — все это и многое другое делается при помощи ИИ и машинного обучения.

При этом принципиально важно подчеркнуть, что в любом применении искусственный интеллект будет инструментом учителя, а не заменой ему. К примеру, «Антиплагиат» не заменяет рецензирование работы, но помогает быстро убедиться в оригинальности текста. Сейчас использование такого инструмента стало нормой.

В более широкой перспективе анализ содержания текста может применяться в очень многих видах деятельности — юриспруденции, технической поддержке, науке. Для всех этих областей, конечно, алгоритмы придется «дообучать» на специальных выборках, но при этом общая архитектура и методология решения упростят разработку в разы.

— Заинтересованы ли педагоги и профильные ведомства (Минпросвещения, Рособрнадзор) во внедрении систем ИИ в проверку ЕГЭ?

— Директор Федерального института педагогических измерений (именно они разрабатывают ЕГЭ, критерии и методики проверки) Оксана Решетникова еще два года назад заявила, что внедрение ИИ для автоматизации проверки ЕГЭ — лишь вопрос времени и что к 2030 году они рассчитывают на внедрение таких систем.

В процессе подготовки конкурса нас поддержали и со стороны Министерства просвещения, и со стороны Министерства науки и высшего образования, а также министерства образования некоторых регионов. Конкретные планы, конечно, целесообразно будет обсуждать, когда появятся хотя бы промежуточные результаты конкурса — в 2021 году. Думаю, что в первую очередь мы будем договариваться об экспериментальных внедрениях на пилотных площадках, которые сами будут проявлять инициативу, — таких площадок уже сейчас достаточно. Педагоги, как я уже говорил, не все поддерживают внедрение ИИ, но огромное количество ориентированных на изменения в образовании людей смотрят на новые технологии с оптимизмом.

— Есть ли среди этих задач такие, где автоматизация рутинных операций остро необходима уже сейчас?

— Как говорит известный фантаст Нил Гейман, «будущее уже наступило, только оно неравномерно распределено». Прогресс развивается с такой скоростью, что мы не успеваем осознать, как быстро из футуристического сценария технология становится частью обыденной жизнью, — посмотрите, например, на то, как прочно вошли в нашу жизнь сервисы по вызову такси через приложение и насколько они повысили качество и доступность услуги.

Огромное количество рутинных операций уже начали автоматизировать, и для практического применения самые «горящие» — не прорывные задачи, как в нашем конкурсе, а уже зрелые технологии.

В общем образовании, на мой взгляд, самая острая проблема — снижение бюрократической нагрузки на учителя: написание отчетов, заполнение дневников, построение учебных планов. Учителя страдают от растущей нагрузки по отчетности, поэтому это очень важная задача, которую можно решать уже сейчас, — технологии готовы.

Источник: Индикатор