Думал относительно быстро завершу задачу по созданию полной карты метрических книг и сделаю пост о том, зачем оно и почему, но процесс оказался сложнее чем предполагалось ввиду того ужаса, в котором данные представлены в первоисточнике. Задачка по их расшифровке оказалась нетривиальной😁
Итак, первое что я выяснил, оказывается метрические книги уездов, представленные на сайте Национального архива Грузии в правой колонке (те, которые до 1871 года) на самом деле весьма условные. При проверке по факту, выяснилось, что многие представленные там годы по отдельным селениям просто не существуют, нет таких книг. Тут конечно проверять только вручную, как-то реально отфильтровать даты при создании базы данных невозможно без ручной проверке заказом дел в архиве. Поэтому приходится полагаться на их условность.
Второе - если помните, в первом посте про создание карты метрических книг Грузии я писал, что использовал примерно 3600 точек церквей на карте Грузии, сгруппированных по селениям. Часть из них была привязана к районным центрам, когда не удавалось сопоставить селение с каким-то реально существующим сегодня (например, исчезло или переименовали и информации об этом нет). Это были точки составленные из списка селений и церквей на сайте архива, как после 1871 года, так и вот эти самые уездные до 1871 года с проблемой из пункта выше.
Но реальное число уездных селений и церквей за период с 1819 по 1871 годы, книги по которым есть в фонде 489 исторического архива, значительно больше и составляет около 43500 точек. Больше чем в 10 раз от изначального количества. Казалось бы, можно автоматизировано тем же самым путем обработать и добавить их на карту, но не тут-то было.
Эти записи существуют официально только на бумажном носителе в зале архива. У меня есть таблицы перенесенные в pdf, созданные в частном порядке, которые публиковать нельзя, но работать с ними можно. Если взглянуть на них визуально, то это просто грузинский текст в табличках - номера, даты, названия селений и иногда церквей. Что тут сложного? Но под капотом этого грузинского текста полностью или частично лежит особая кодировка. Если скопировать текст в текстовый файл, получится белиберда на грузинском языке, но на латинице с очень странным набором символов.
Оказалось большие куски текста записаны в старой кодировке Mojibake, где вместо грузинских букв отображаются латинские символы, которые были привязаны к грузинским фонемам в старых шрифтах (например, AcadNusx или G_Sylfaen). В ней например название региона Рача пишется как raWa, а слово Год (tseli), как weli. Собственно расшифровка этой проблемы потребовала нетривиальных подходов через написание специальных промптов и скриптов, дальнейшую двойную обработку названий в OpenRefine (корректировка названий и потом сопоставление с реальными названиями в Wikidata), чтобы справиться с корявыми окончаниями и странными вставками посторонних букв в названиях селений.
Сейчас схему я уже отработал, но нормализация названий конечно требует отдельных усилий. Надеюсь за неделю-полторы закончу и объединю все точки (с отсеиванием дубликатов) на изначальную красивую карту, которая значительно пополнится. И там не только Грузия, но очень много метрических книг по всему Кавказу от Новороссийска до Дербента, от Батуми до Баку и Еревана. Оказалось, местный архив хранит немало полезных для генеалогического поиска тайн!
Потом можно будет карту еще красиво допилить, чтобы можно было искать метрические записи по радиусу от точки в 20-30 км. Это поможет найти дополнительные зацепки, если поиск в нужном месте не дал результата. Но о пользе самой карты для практического поиска и облегчения работы я расскажу потом отдельно, как опубликую итоги.