>За счет этого можно как-то опечатки поймать если все совпадает, кроме пары букв
В отдельных случаях можно даже почти весь послужной человека увидеть, т.к. присутствуют записи, когда он был мл. лейтенантом, лейтенантом, а потом - майором.
А на моего деда - две практически идентичные записи, но почему-то отличающиеся датой рождения на 5 дней.
При дальнейшей обработке выделил ещё четыре несомненных дубля, пропущенных при первом проходе. В итоге 94 человека на 124 записи, 24% избыточных записей.
>При дальнейшей обработке выделил ещё четыре несомненных дубля, пропущенных при первом проходе. В итоге 94 человека на 124 записи, 24% избыточных записей.
Посмотрел ещё одну не слишком распространённую фамилию - Юдаков, 210 записей по которым выделяются 162 отдельных человека: 160 мужчин и 2 женщины. Доля избыточных записей 23%, но опять-таки остаются несколько записей, по которым есть основания полагать, что они дублирующие, но недостаточно оснований, чтобы исключить из подсчёта количества лиц.
Таким образом, можно полагать, что в базе из 6.8 млн записей содержится информация примерно на 5.1 млн человек (три четверти, 75% от числа записей). Но здесь следует оговориться, что я набирал статистику по фамилиям, распространённым преимущественно в России: в полосе от Тулы и Орла через Тамбов и Среднее Поволжье в Казахстан и Зап. Сибирь. По территориям, побывавшим под оккупацией может быть своя специфика.