Top.Mail.Ru

Дмитрий Николаев рассказал, как ИИ расшифровал зачеркнутые рукописи Пушкина

Российские специалисты в области нейросетей и лингвистики разработали искусственный интеллект, который способен восстанавливать зачеркнутые слова в рукописях Александра Пушкина. Эти слова нередко вызывают разночтения, поэтому новая технология может значительно помочь исследователям.

Дмитрий Николаев, руководитель отдела «Зрительные системы» ФИЦ ИУ РАН, в беседе с RTVI рассказал, что нейросеть обучалась в два этапа. Сначала она училась зачеркивать слова в «Болдинской рукописи», а затем – «расчеркивать» их, восстанавливая исходное содержание. Николай Перцов, ведущий научный сотрудник Института русского языка РАН, пояснил, как эта методика способна изменить изучение пушкинских текстов.

Все началось с работы над Национальным корпусом русского языка (НКРЯ), в которой программисты и лингвисты совместно создавали платформу для анализа русского языка. Ученые столкнулись с огромными объемами данных, требующими автоматизированных методов обработки. Тогда и возникла идея расширить использование технологий, в том числе для расшифровки рукописей Пушкина.

Одним из инициаторов проекта был Андрей Соболевский, занимавший пост директора Института проблем передачи информации РАН. Он объединил команды лингвистов и программистов, среди которых оказались специалисты лаборатории зрительных систем под руководством Николаева. После успешного завершения проекта возник вопрос: можно ли повторить этот опыт, но уже в области зрительного интеллекта? Так и началось сотрудничество с Николаем Перцовым, специалистом по пушкинистике.

В пушкинских рукописях множество исправлений: поэт постоянно вносил правки, а иногда редактировался даже со стороны цензоров, включая Николая I. Это делает изучение рукописей не только литературной, но и исторической задачей.

Некоторые тексты в академических изданиях отличаются от оригиналов. Например, в статье «О народности в литературе» говорится о «трагедиях из итальянских новелл», тогда как Пушкин писал о «итальянских повестях». Такие различия могут менять смысл произведений, а иногда даже открывать новые нюансы творчества поэта.

ИИ обучался на «Болдинских рукописях» — этого оказалось достаточно, чтобы привлечь внимание специалистов. В планах исследователей – расширить обучение нейросети на все доступные рукописные материалы.

Для работы использовались генеративно-состязательные сети (GAN). Одна нейросеть генерировала зачеркивания на основе почерка Пушкина, другая – пыталась отличить сгенерированные изображения от настоящих. Это позволило создать реалистичные примеры, на которых затем обучали основную нейросеть, восстанавливающую зачеркнутые слова.

Результат работы – программа, которая позволяет увидеть зачеркнутые слова так, как они могли выглядеть изначально. Однако окончательное решение о достоверности восстановления остается за экспертами, знакомыми с почерком поэта.

ИИ не только помогает расшифровывать зачеркнутые слова, но и может изучать, как менялся почерк Пушкина с годами. В перспективе возможно даже определять, кто именно вносил правки в текст – сам поэт или цензор.