Студентка НГУ создала приложение для оцифровки тибетских рукописей
Приложение ориентировано на старопечатные тексты с использованием классического тибетского слогового письма, которое восходит к древнеиндийскому письму брахми.

Студентка Гуманитарного института Новосибирского государственного университета (НГУ) Анна Мурашкина создала систему автоматического распознавания и транслитерации текстов на тибетском языке. Она использовала изображения страниц классических тибетских текстов XVIII–XX веков из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН.
Как пояснила студентка, необходимо сохранить тибетское культурное наследие, делая его доступным в цифровом виде. «Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Эти знания передаются в Тибете из поколения в поколение. Однако со временем, под воздействием природных и антропогенных факторов, бумажные носители подвержены физическому разрушению, что ведет к утрате бесценной информации и ограничивает доступ к этим уникальным материалам», – пояснила она. Анна Мурашкина добавила, что сейчас в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится до 70 тыс. единиц документов, которые могут быть утерянными. По ее мнению, одним из наиболее надежных способов сохранения и систематизации исторических документов является оцифровка.
Исследовательница с применением машинного обучения выстроила модель, которая распознает символы тибетского алфавита с изображений, переводит в машиночитаемый вид и при этом показывает большую точность. «Для этого я вручную выполнила лингвистическую разметку строк тибетского текста. Затем с учетом специфики тибетской графики разработала систему оценки качества оптического распознавания символов (OCR). Далее я провела сравнение существующих архитектур и выбрала модель сверточной нейросети, которая потребовала дообучения», – пояснила Анна Мурашкина. После дообучения модели был создан полный модульный алгоритм, включающий этапы предобработки, сегментации, распознавания и постобработки.
По словам студентки, ценность ее проекта заключается в том, что она помогла оцифровать архив – документы, созданные людьми, которые хотели передать свои знания будущим поколениям. Разработку Анну Мурашкиной планируют использовать сотрудники Института монголоведения, буддологии и тибетологии СО РАН. Также речь идет о сотрудничестве с Буддистским центром цифровых технологий, который проводит оцифровку архивов храмов и монастырей, сообщили в пресс-службе Новосибирского госуниверситета.
Источник: Учительская газета