От apple16
К Сибиряк
Дата 29.06.2021 16:08:05
Рубрики WWII;

Формально это разные записи - у них разные ID в исходной системе

За счет этого можно как-то опечатки поймать если все совпадает, кроме пары букв

От Сибиряк
К apple16 (29.06.2021 16:08:05)
Дата 29.06.2021 16:24:17

понятно, что число записей превышает число людей


>За счет этого можно как-то опечатки поймать если все совпадает, кроме пары букв

В отдельных случаях можно даже почти весь послужной человека увидеть, т.к. присутствуют записи, когда он был мл. лейтенантом, лейтенантом, а потом - майором.

А на моего деда - две практически идентичные записи, но почему-то отличающиеся датой рождения на 5 дней.

При дальнейшей обработке выделил ещё четыре несомненных дубля, пропущенных при первом проходе. В итоге 94 человека на 124 записи, 24% избыточных записей.

От Сибиряк
К Сибиряк (29.06.2021 16:24:17)
Дата 30.06.2021 09:14:23

Re: понятно, что...

>При дальнейшей обработке выделил ещё четыре несомненных дубля, пропущенных при первом проходе. В итоге 94 человека на 124 записи, 24% избыточных записей.

Посмотрел ещё одну не слишком распространённую фамилию - Юдаков, 210 записей по которым выделяются 162 отдельных человека: 160 мужчин и 2 женщины. Доля избыточных записей 23%, но опять-таки остаются несколько записей, по которым есть основания полагать, что они дублирующие, но недостаточно оснований, чтобы исключить из подсчёта количества лиц.

Таким образом, можно полагать, что в базе из 6.8 млн записей содержится информация примерно на 5.1 млн человек (три четверти, 75% от числа записей). Но здесь следует оговориться, что я набирал статистику по фамилиям, распространённым преимущественно в России: в полосе от Тулы и Орла через Тамбов и Среднее Поволжье в Казахстан и Зап. Сибирь. По территориям, побывавшим под оккупацией может быть своя специфика.

От apple16
К Сибиряк (30.06.2021 09:14:23)
Дата 30.06.2021 13:27:22

Я постараюсь сегодня завтра еще выгрузить - там побольше записей

Но там рядовые и там на глазок больше повторов