ВИФ2 NE : Ветка : понятно, что число записей превышает число людей

От	Сибиряк
К	apple16
Дата	29.06.2021 16:24:17
Рубрики	WWII;

понятно, что число записей превышает число людей

>За счет этого можно как-то опечатки поймать если все совпадает, кроме пары букв

В отдельных случаях можно даже почти весь послужной человека увидеть, т.к. присутствуют записи, когда он был мл. лейтенантом, лейтенантом, а потом - майором.

А на моего деда - две практически идентичные записи, но почему-то отличающиеся датой рождения на 5 дней.

При дальнейшей обработке выделил ещё четыре несомненных дубля, пропущенных при первом проходе. В итоге 94 человека на 124 записи, 24% избыточных записей.

От	Сибиряк
К	Сибиряк (29.06.2021 16:24:17)
Дата	30.06.2021 09:14:23

Re: понятно, что...

>При дальнейшей обработке выделил ещё четыре несомненных дубля, пропущенных при первом проходе. В итоге 94 человека на 124 записи, 24% избыточных записей.

Посмотрел ещё одну не слишком распространённую фамилию - Юдаков, 210 записей по которым выделяются 162 отдельных человека: 160 мужчин и 2 женщины. Доля избыточных записей 23%, но опять-таки остаются несколько записей, по которым есть основания полагать, что они дублирующие, но недостаточно оснований, чтобы исключить из подсчёта количества лиц.

Таким образом, можно полагать, что в базе из 6.8 млн записей содержится информация примерно на 5.1 млн человек (три четверти, 75% от числа записей). Но здесь следует оговориться, что я набирал статистику по фамилиям, распространённым преимущественно в России: в полосе от Тулы и Орла через Тамбов и Среднее Поволжье в Казахстан и Зап. Сибирь. По территориям, побывавшим под оккупацией может быть своя специфика.

От	apple16
К	Сибиряк (30.06.2021 09:14:23)
Дата	30.06.2021 13:27:22

Я постараюсь сегодня завтра еще выгрузить - там побольше записей

Но там рядовые и там на глазок больше повторов