От Сибиряк
К apple16
Дата 29.06.2021 14:04:18
Рубрики WWII;

~20% дублирующих записей

Спасибо!

>На одного человека может быть больше чем одна запись

Попробовал оценить количество дублей. Для этого сделал полную выборку по своей фамилии, всего получилось 124 записи, после отсеивания явных дублей (а также триплетов и квадруплетов) осталось 98 записей (пара подозрительных на дублирование сохранились): всего 96 мужчин и 2 женщины.

В итоге по выборке имеем 21% дублирующих записей.


От apple16
К Сибиряк (29.06.2021 14:04:18)
Дата 29.06.2021 16:08:05

Формально это разные записи - у них разные ID в исходной системе

За счет этого можно как-то опечатки поймать если все совпадает, кроме пары букв

От Сибиряк
К apple16 (29.06.2021 16:08:05)
Дата 29.06.2021 16:24:17

понятно, что число записей превышает число людей


>За счет этого можно как-то опечатки поймать если все совпадает, кроме пары букв

В отдельных случаях можно даже почти весь послужной человека увидеть, т.к. присутствуют записи, когда он был мл. лейтенантом, лейтенантом, а потом - майором.

А на моего деда - две практически идентичные записи, но почему-то отличающиеся датой рождения на 5 дней.

При дальнейшей обработке выделил ещё четыре несомненных дубля, пропущенных при первом проходе. В итоге 94 человека на 124 записи, 24% избыточных записей.

От Сибиряк
К Сибиряк (29.06.2021 16:24:17)
Дата 30.06.2021 09:14:23

Re: понятно, что...

>При дальнейшей обработке выделил ещё четыре несомненных дубля, пропущенных при первом проходе. В итоге 94 человека на 124 записи, 24% избыточных записей.

Посмотрел ещё одну не слишком распространённую фамилию - Юдаков, 210 записей по которым выделяются 162 отдельных человека: 160 мужчин и 2 женщины. Доля избыточных записей 23%, но опять-таки остаются несколько записей, по которым есть основания полагать, что они дублирующие, но недостаточно оснований, чтобы исключить из подсчёта количества лиц.

Таким образом, можно полагать, что в базе из 6.8 млн записей содержится информация примерно на 5.1 млн человек (три четверти, 75% от числа записей). Но здесь следует оговориться, что я набирал статистику по фамилиям, распространённым преимущественно в России: в полосе от Тулы и Орла через Тамбов и Среднее Поволжье в Казахстан и Зап. Сибирь. По территориям, побывавшим под оккупацией может быть своя специфика.

От apple16
К Сибиряк (30.06.2021 09:14:23)
Дата 30.06.2021 13:27:22

Я постараюсь сегодня завтра еще выгрузить - там побольше записей

Но там рядовые и там на глазок больше повторов