TG Telegram Group & Channel
Генеалогия Русской равнины | United States America (US)
Create: Update:

Последним докладом на «ГенЭкспо Футуро» был доклад Александра Ракитько – директора по продукту российской биотех компании Генотек, нам более всего известной по ДНК-тестам.

Во время выступления Александр презентовал разработку Генотека: нейросеть, которая расшифровывает записи из метрических книг и других дореволюционных документов, делая возможным текстовый поиск по ним.

На данный момент проиндексированы 2 миллиона изображений оцифрованных метрических книг из сервиса «Моя семья» архива города Москва. Компания открыта к сотрудничеству и аналогичным действиям по другим документам, и к разработчикам уже стали обращаться, предлагая сканы других документов из других архивов.

В сообществе «Генеалогическое собрание» в Фейсбуке поделились опытом использования нового сервиса. На всякий случай скопирую самые важные моменты:

• Не раз уже встречала упреки, что текст в выборке малочитаемый, и всякое подобное. Это НОРМАЛЬНО. Индексирование (распознавание) проводили не люди вручную, а нейросеть. Как получилось распознать то или иное слово, то вы и видите в поисковой выборке.
• Объем проиндексированной информации не равен объему метрических книг, выложенных в настоящий момент на сайте ЦГАМ. Не индексировались лютеранские и прочие неправославные МК, плюс индексирование было проведено некоторое время назад («Сейчас в поиске участвуют только метрические книги, которые были опубликованы на ЦГАМ до ноября 2021» – уточнение А. Р.).
• Найти можно любые записи с упоминанием человека по ФИО, месту рождения/приписки, чину, и т.д. Записи о рождении, венчании, отпевании. В том числе можно обнаружить восприемников.
• Если поиск по ФИО ничего не дает (или не дает нужного результата), можно использовать самые немыслимые комбинации. Имя + чин, фамилия + населенный пункт, отчество + семейный статус - на что хватит вашей фантазии. Можно вводить все эти слова не полностью, ограничиться 4-5 знаками. Менее 4х знаков - либо поиск не срабатывает вовсе, либо выдает более 10000 записей.
• Не забывайте, что фамилии указывались далеко не у всех (даже если имелись), и среди восприемников-крестьян намного чаще встретится гипотетический Иван Иванов (отчество), чем Иван Иванов Григорьев. У замужней женщины в записи о рождении ребенка фамилия также не будет указана, обнаружится только "Иван Иванов Григорьев и законная жена его, Дарья Семенова".
• Имена в МК встречаются как в каноническом написании (Георгий), так и в разговорном/просторечном (Егор). Особо тщательно проверяйте иностранные имена и фамилии, при записи они иногда трансформировались довольно сильно.
• После заполнения поисковой строки и появления определенной выборки можно использовать фильтры. По используемому фонду, названию церкви, нужному периоду и т.д. Так выборка сокращается с 10000 до 200-400 записей, которые вполне реально быстро просмотреть (особенно, ориентируясь на год, и сразу пропуская слишком ранние, допустим).

Я тоже воспользовался сервисом в первый же день после публикации информации о нём. Дело в том, что один из родов моих предков, Кременецкие, происходит из московских служащих (вероятнее всего – мещан). К моему удивлению, по запросу «Кременецкий» не было вообще ни одного результата поиска (зато по слову «Кремен» – масса). Вероятно, нужные МК ещё не оцифрованы/проиндексированы. Буду ждать.

А вы не ждите! Воспользуйтесь сервисом, внимательно изучите результаты поиска – возможно, вам повезёт больше, чем мне.

Последним докладом на «ГенЭкспо Футуро» был доклад Александра Ракитько – директора по продукту российской биотех компании Генотек, нам более всего известной по ДНК-тестам.

Во время выступления Александр презентовал разработку Генотека: нейросеть, которая расшифровывает записи из метрических книг и других дореволюционных документов, делая возможным текстовый поиск по ним.

На данный момент проиндексированы 2 миллиона изображений оцифрованных метрических книг из сервиса «Моя семья» архива города Москва. Компания открыта к сотрудничеству и аналогичным действиям по другим документам, и к разработчикам уже стали обращаться, предлагая сканы других документов из других архивов.

В сообществе «Генеалогическое собрание» в Фейсбуке поделились опытом использования нового сервиса. На всякий случай скопирую самые важные моменты:

• Не раз уже встречала упреки, что текст в выборке малочитаемый, и всякое подобное. Это НОРМАЛЬНО. Индексирование (распознавание) проводили не люди вручную, а нейросеть. Как получилось распознать то или иное слово, то вы и видите в поисковой выборке.
• Объем проиндексированной информации не равен объему метрических книг, выложенных в настоящий момент на сайте ЦГАМ. Не индексировались лютеранские и прочие неправославные МК, плюс индексирование было проведено некоторое время назад («Сейчас в поиске участвуют только метрические книги, которые были опубликованы на ЦГАМ до ноября 2021» – уточнение А. Р.).
• Найти можно любые записи с упоминанием человека по ФИО, месту рождения/приписки, чину, и т.д. Записи о рождении, венчании, отпевании. В том числе можно обнаружить восприемников.
• Если поиск по ФИО ничего не дает (или не дает нужного результата), можно использовать самые немыслимые комбинации. Имя + чин, фамилия + населенный пункт, отчество + семейный статус - на что хватит вашей фантазии. Можно вводить все эти слова не полностью, ограничиться 4-5 знаками. Менее 4х знаков - либо поиск не срабатывает вовсе, либо выдает более 10000 записей.
• Не забывайте, что фамилии указывались далеко не у всех (даже если имелись), и среди восприемников-крестьян намного чаще встретится гипотетический Иван Иванов (отчество), чем Иван Иванов Григорьев. У замужней женщины в записи о рождении ребенка фамилия также не будет указана, обнаружится только "Иван Иванов Григорьев и законная жена его, Дарья Семенова".
• Имена в МК встречаются как в каноническом написании (Георгий), так и в разговорном/просторечном (Егор). Особо тщательно проверяйте иностранные имена и фамилии, при записи они иногда трансформировались довольно сильно.
• После заполнения поисковой строки и появления определенной выборки можно использовать фильтры. По используемому фонду, названию церкви, нужному периоду и т.д. Так выборка сокращается с 10000 до 200-400 записей, которые вполне реально быстро просмотреть (особенно, ориентируясь на год, и сразу пропуская слишком ранние, допустим).

Я тоже воспользовался сервисом в первый же день после публикации информации о нём. Дело в том, что один из родов моих предков, Кременецкие, происходит из московских служащих (вероятнее всего – мещан). К моему удивлению, по запросу «Кременецкий» не было вообще ни одного результата поиска (зато по слову «Кремен» – масса). Вероятно, нужные МК ещё не оцифрованы/проиндексированы. Буду ждать.

А вы не ждите! Воспользуйтесь сервисом, внимательно изучите результаты поиска – возможно, вам повезёт больше, чем мне.


>>Click here to continue<<

Генеалогия Русской равнины




Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)