Зачем Российская государственная библиотека учит машину читать газеты?
Встреча в одном проекте Российской государственной библиотеки (РГБ) и «Школы 21», где идет подготовка ИТ-специалистов по инновационной образовательной методике, стала поистине счастливой: задачи из сферы работы с библиотечными фондами, которые являются необычайно актуальными для РГБ, идеально подходят для оттачивания мастерства студентов «Школы 21». Эта встреча произошла во время хакатона, организованного РГБ на площадке «Школы 21» 28-29 ноября 2020 г.
Оцифрованные фонды РГБ – это обширное поле для применения передовых технологий компьютерной лингвистики для решения задач различного уровня сложности в самых разных аспектах. Первый аспект – современное информационное обеспечение библиографической деятельности: разработка продвинутых цифровых каталогов, вплоть до уточнения параметров литературных источников. Второй – поддержка научной работы специалистов: историков, литературоведов и проч., работающих с литературными произведениями. Третий аспект - научная деятельность сотрудников РГБ, которые активно участвуют в большом федеральном проекте создании представительного корпуса русского языка.
Зачем библиотеке передовые ИТ
Библиотечные и архивные фонды – настоящее богатство, память и история нашей страны,- подчеркивает Вадим Дуда, генеральный директор РГБ. Бывшая «Ленинка» хранит сегодня около 47 млн. документов, которые активно переводятся в цифровой формат. Вызов современного информационного общества – встроить наши документы, информацию, знания в цифровое пространство. Необходимо предоставить читателям удобную и современную навигацию по всему фонду. Для этого нужны не только «метаполя» библиографических описаний, а возможность работы с полными текстами, их динамическая «разметка» и тегирование в современном контексте, в современном информационном поле, в современном облаке научной систематизации. |
Корпусная лингвистика – это новое явление в языкознании, непосредственно связанное с информационными технологиями. Фактически корпус – это собрание текстов на том или ином языке в электронной форме, которое специальным образом размечено. Разметки могут быть разных видов, например, грамматическая разметка, которая сопоставляет каждому слову его грамматические параметры. Конечная задача российского проекта – создание, так называемого, полного электронного корпуса русского языка, который включает большое число (представительную выборку) максимально разнообразных текстов (проза и поэзия, официальные документы и письма и т.д.), которые снабжены специальной разметкой.
Как полагает выдающийся российский ученый в области семантических исследований естественного языка Юрий Апресян, в информационную эпоху национальный корпус становится таким же необходимым элементом строгого научного описания языка, наряду со словарем и грамматикой. Действительно, появление языкового корпуса можно сравнить с революцией в лингвистике – появляется возможность буквально в реальном времени проводить анализ текстов в самых разных разрезах, причем, на реальных «живых» текстах. Однако предварительно необходимо провести серьезную работу по подготовке текстов произведений.TAdviser выпустил новую Карту «Цифровизация промышленности»: свыше 250 разработчиков и поставщиков услуг
Так, библиотека запустила проект по оцифровке газетных источников. В качестве пилотного образца выбрана газета «Красная звезда» времен Великой Отечественной войны 1941 – 1045 гг.
Для газеты «Красная звезда» нужны достаточно сложные алгоритмы, которые позволят скан полосы превратить в структуру связанных элементов из текстов, заголовков, иллюстраций – XML-структуру,- рассказал об актуальном направлении работы с газетным фондом РГБ Вадим Дуда. |
Вторая задача состоит в том, чтобы выделить из этого массива данных географические названия, награды, имена собственные, даты, другую информацию.
В результате мы получаем из скана газетной полосы невероятно ценный информационный массив для работы. Фактически, мы создаем основу совершенно нового библиотечного направления – цифровой библиографии!- подчеркнул Вадим Дуда. |
Илья Кутуков, руководитель лаборатории исследований и разработки РГБ, рассказал, что работа с этими документами представляет особую сложность, ведь газету печатали в военное время, качество бумаги и самой полиграфии было далеко не лучшим.
Сверхплотная верстка – нужно было вместить на полосу газеты как можно больше информации, нестабильный шрифт. Вдобавок газетный архив перенес затопление. Все это существенно ухудшает качество работы программ автоматического распознавания текста,- поясняет Илья Кутуков. |
Однако уже первые опыты с анализом лексики текстов газеты, по словам специалиста, дали очень интересные результаты:
Непривычный современному слуху язык, тезаурус политинформа с большим количеством сокращений, неологизмов, специфичной лексики того времени. Работая с оцифрованными текстами с помощью компьютерных программ, умеющих выделять сущности, мы увидели, как менялась лексика языка по мере того, как развивалось течение Великой Отечественной войны. |
Собственно, проблематике дальнейшей работы с оцифрованной подшивкой «Красной звезды» военных лет был посвящен хакатон с участием студентов «Школы 21».
Хакатон РГБ и «Школы 21»
Среди разнообразных параметров, которые тем или иным образом характеризуют любое литературное произведение, важное место занимает датировка. Это важно, с одной стороны, для библиографии – когда жил и творил автор? Этот вопрос имеет, в том числе, прагматическое значение для РГБ: исследование авторских прав на произведение, которое размещается в открытом доступе, требует больших затрат времени и усилий. С другой стороны, параметр времени – один из базовых для анализа содержания произведения, а также для исследований на базе газетных источников – он помогает устанавливать причинно-следственные связи между людьми, объектами, событиями. Иными словами, отвечать на базовые вопросы: кто? Где? Когда?
Мы не сможем продвигаться дальше в своей работе в цифровом пространстве, ни в сфере каталогизации, ни в исследованиях, если не сможем работать с датами,- пояснил Илья Кутуков. |
В то же время выявление дат и определение их точного места на временной шкале – задача очень непростая. Нынешние коммерческие системы текстовой аналитики в целом неплохо справляются с выявлением в электронных документах дат, написание которых принято в современных документах. Однако указание на бумажной газете полосе века с помощью римских цифр оказывается серьезным испытанием даже для «распознавалки». Классический пример: римская цифра XVIII распознается как аббревиатура ХУШ. Коммерческие системы текстовой аналитики также не «обучены» выявлять архаичные способы указания времени, например, «Р.Х.» или «н.в.». И уж совсем неподъемными для них станут относительные ссылки типа «первый месяц весны», «через две недели после Рождества…», не говоря уж о референсных датировках типа «незадолго до…».
Нужно найти в документе упоминание времени и привести его к унифицированному представлению на единой временной шкале, чтобы потом отдельные тексты можно было соотносить друг с другом,- пояснил задачу Илья Кутуков. |
В силу высокой сложности поставленной задачи, разработчики никак не ограничивались в своих возможностях использовать любые доступные инструментальные средства и готовые библиотеки. Для тестирования своих ИТ-решений команды получили доступ к открытой части текущей версии языкового корпуса, который создают специалисты РГБ.
К концу второго дня разработки на этап питчинга – презентации своих решений - вышли 12 команд. Интересно, что участники творчески перерабатывали общую постановку задачи в ТЗ для собственной разработки. Например, одна команда не стала тратить время на поиск подходящей открытой библиотеки и последующей ее адаптации к конкретной задаче, а сразу стала создавать собственную библиотеку для распознавания паттернов дат. Кто-то сфокусировался на задаче очистки входных данных. Илья Кутуков оценил эти результаты:
Фактически вы решали задачу автоматической проверки датасета. Это очень нужная задача. |
Действительно, результаты оцифровки бумажных произведений обязательно нужно проверять, но таких ресурсов у библиотеки, конечно, нет. В этой связи актуальна задача выявления ошибок, имеющихся в оцифрованных текстах.
Еще одна команда решила сконцентрировать внимание на ценности разработки для конечных потребителей – исследователей и создала программу парсинга, формирующую базу данных, на основе которой можно создать сервис. Еще один участник пошел еще дальше – он поставил перед собой задачу осмысления содержания текста через даты. Ему Илья Кутуков предложил рассмотреть предложение о работе:
Сделано не то, что требовалось в задании, но это то, что нам требуется для нашей работы. |
В целом, по его оценкам, многие команды неожиданно основательно подошли к решению поставленной задачи и получили хорошие результаты. По итогам хакатона организаторы от РГБ создадут специальный открытый репозиторий, где будет выложен код участников, а также наборы данных, подготовленные РГБ.
Наша конечная цель – максимально открытый доступ к структурированной информации РГБ,- пояснил он и добавил, что команды – участницы хакатона с полным правом могут называться контрибьюторами национального корпуса русского языка. Машиночитаемость русского языка - это наша с вами совместная работа, которая очень важна для изучения того, как функционирует наш язык,- подчеркнул Илья Кутуков. |