31.01.2024
Анастасия Ракова поделилась итогами работы сервиса "Поиск по архивам", который помогает изучать историю семьи по рукописным текстам
Горожане свыше двадцати миллионов раз обратились к порталу «Поиск по архивам», его запустили в Москве год назад. Туда загрузили более 5,4 млн страниц исторических материалов из Главархива Москвы и прочие материалы.
Как сказала заммэра по вопросам социального развития Анастасия Ракова, благодаря сервису гражданам теперь легче находить историю своих семей. Еще он помогает ученым и журналистам, а на страницах, которые содержат устаревшие символы и рукописи, тренируется искусственный интеллект.
Поиск по архивам — это запущенный в начале прошлого года сервис Яндекса, он помогает быстро находить упоминания людей, населенных пунктов и событий в расшифрованных нейросетью рукописных документах XVIII-XX веков.
Анастасия Ракова разъяснила, что на протяжении нескольких последних лет запросы, которые связаны с поиском предков и исследованием прошлого семьи, оказываются одними из популярнейших в Главархиве Москвы. Это очень заметно в Год семьи. Есть стремление помочь людям в столь значимом деле, ищут способы сделать доступ к документам легче. Так, несколько лет назад был открыт онлайн-сервис «Моя семья» и размещены в нем оцифрованные метрические книги — документы, где присутствуют сведения о рождении, браке и смерти москвичей и жителей Московской губернии разных вероисповеданий. На основе ресурса «Моя семья» нейросеть «Поиска по архивам» училась читать рукописные тексты. За год работы сервиса к порталу обратились свыше 20 млн раз, что доказывает его востребованность и нужность. Сама нейросеть проанализировала свыше 10 млн страниц исторических документов.
Благодаря сервису «Поиск по архивам» историки, социологи, демографы, журналисты и обычные жители города способны находить информацию об исторических событиях и личностях. Как рассказали в Соцкомплексе столицы, работать с архивными документами теперь так же элементарно, как с привычным поиском Яндекса.
В настоящее время в «Поиске по архивам» есть документы из архивов 11 регионов, в том числе Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и прочих областей. Всего нейросеть Яндекса распознала более 60 тыс. рукописных и печатных текстов середины XVIII — начала XX веков: в сумме это более 10 млн страниц, или 492 млн строк. В «Поиске по архивам» хранятся расшифрованные архивные дела (к примеру, метрические книги и ревизские сказки), где есть информация о людях, родившихся в России до 1917 г. Также в сервисе собрали 3,6 млн оцифрованных страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости. Технология расшифровки в «Поиске по архивам» основана на оптическом распознавании символов. Нейросеть узнает утратившие актуальность знаки (к примеру, пропавшие из алфавита буквы), берет в расчет особенности почерка и за несколько секунд делает из трудночитаемых записей печатный текст. Для работы с версткой газетных страниц нейросеть научена распознавать текст на больших полосах, набранный мелким шрифтом на низкоплотной бумаге.
Версия для печати