От Александр Солдаткичев
К Samsv
Дата 31.05.2018 17:52:41
Рубрики WWII; Армия; 1941; Память;

Думаете, здесь кто-то сможет ответить? Тогда у меня тоже вопрос.

Здравствуйте

"В настоящее время ОБД «Мемориал» насчитывает 37 млн. записей о погибших, пропавших без вести, вернувшихся из плена и окружения (ранее считавшихся погибшими и пропавшими без вести), прошедших через ВПП. Дополнительно также имеются более 11 млн. записей на информацию из Книг Памяти."

Почему не указано, сколько человек учтено в настоящий момент в базе данных?
Это могло бы дать ещё одну оценку потерь.
У каждого человека в этой базе сейчас есть id-номер.
Почему бы не написать, сколько их всего.

С уважением, Александр Солдаткичев

От dummycharacter
К Александр Солдаткичев (31.05.2018 17:52:41)
Дата 02.06.2018 18:02:23

Re: Думаете, здесь...

>Это могло бы дать ещё одну оценку потерь.


Именно поэтому этого и не надо делать. Все эти повторы, и ошибки вычленяются на раз - и для этого даже не нужно звать спецов из гугла, даже для криворуков работающих в отечественном ит это не вопрос, а семечки.

От apple16
К Александр Солдаткичев (31.05.2018 17:52:41)
Дата 31.05.2018 18:17:05

Потому что в базе нет порядка

>Почему не указано, сколько человек учтено в настоящий момент в базе данных?
>Это могло бы дать ещё одну оценку потерь.
>У каждого человека в этой базе сейчас есть id-номер.
>Почему бы не написать, сколько их всего.

Это не может дать никакой оценки потерь, поскольку работы по борьбе за качество данных проведено не было.
ID есть в районе 80 миллионов (это сколько всего разных бумажек). Но не все это люди.
Про человека в среднем 2-3-4 записи
Получится условно говоря 10 миллионов. Из которых с миллион двойников.
Что это нам даст непонятно.

Нужен поставленный процесс переноса в чистую базу надежно идентифицированных людей
С поиском по связям с формированиям (значит нужна база формирований) и с населенными пунктами (нужна база населенных пунктов)
Также должны быть подняты указанные в донесениях родственники.

Это все очень трудоемко хотя и автоматизируется.

От john1973
К apple16 (31.05.2018 18:17:05)
Дата 03.06.2018 04:13:21

Re: Потому что...

>Это все очень трудоемко хотя и автоматизируется.
Еще в 13 году я писал на сайт МО со случаем родственницы жены - вот фото захоронения, вот сканы доков погибшей, вот посмертное представление к награде с точными данными по довоенному паспорту - уберите лишние неточные сведения из базы, зачем это? Воз и ныне там.

От AMX
К apple16 (31.05.2018 18:17:05)
Дата 01.06.2018 10:51:48

Re: Потому что...

>Это не может дать никакой оценки потерь, поскольку работы по борьбе за качество данных проведено не было.
А как их провести? Опечатки и ошибки на вводе еще можно было проконтролировать.
А как вы сведете к общему знаменателю путаницу в исходных данных.
Я вот неверного ввода еще ни разу не встречал, а второе почти на каждом шагу.

Или кто должен решить, что Иван Иванович Иванов в послевоенной переписи, где другой год рождения или место рождения или дата гибели/пропажи без вести, это один и тот же человек по другим данным?
Лучше пускай так как сейчас, чем разных людей объединят.

Или кто должен решить, что Малорецкий р-он, это на самом деле Малоритский? Причем это так получилось, потому что боец не знал как его район пишется.


От Slick
К AMX (01.06.2018 10:51:48)
Дата 03.06.2018 15:46:46

Re: Потому что...


>Или кто должен решить, что Иван Иванович Иванов в послевоенной переписи, где другой год рождения или место рождения или дата гибели/пропажи без вести, это один и тот же человек по другим данным?
>Лучше пускай так как сейчас, чем разных людей объединят.

>Или кто должен решить, что Малорецкий р-он, это на самом деле Малоритский? Причем это так получилось, потому что боец не знал как его район пишется.

Поэтому нужны слои данных с доступом ко всем : скан-копии (источник) - распознанный текст - структурированный текст - агрегаты (слои связей) и т.д. ...

совсем не тривиальная задача...

От apple16
К AMX (01.06.2018 10:51:48)
Дата 01.06.2018 11:31:24

Это тоже процесс

В простом случае совпадение основных атрибутов
В сложном - садятся живые люди и думают

Где однозначно сказать нельзя там и не объединяют

От Александр Солдаткичев
К apple16 (31.05.2018 18:17:05)
Дата 01.06.2018 09:46:38

Посмотрел потери по годам.

Здравствуйте

Первое число всего в базе, в скобках - только в донесениях о безвозвратных потерях, третье - в документах госпиталей и медсанбатов.

1941 - 4.130.894 (1.671.963) 73.879
1942 - 7.005.985 (3.227.013) 287.575
1943 - 6.447.324 (2.855.848) 373.066
1944 - 5.058.695 (2.341.447) 362.352
1945 - 2.368.047 (1.211.541) 217.341

Всего 25.010.945 записей в базе.
Из донесений о потерях 11.307.812 человек.
Из документов госпиталей и медсанбатов 1.314.213 человек.

Похоже, действительно удаления дублей никто не делает, просто вписывают людей из разных источников.

С уважением, Александр Солдаткичев

От apple16
К Александр Солдаткичев (01.06.2018 09:46:38)
Дата 01.06.2018 10:10:02

Медсанбаты обычно очень неточны

Я как-то изучал туземные кавдивизии по потерям

Каких только номеров твердым и четким почерком не понаписано в карточки
Несуществующие полки через раз

Причины понятны - вопросы идентификации вот меньше всего волновали людей в госпитале

От Александр Солдаткичев
К apple16 (01.06.2018 10:10:02)
Дата 01.06.2018 10:25:22

Так тут отчёты об умерших. В установлении факта смерти не должны они косячить. (-)


От john1973
К Александр Солдаткичев (01.06.2018 10:25:22)
Дата 03.06.2018 03:56:27

Re: Так тут...

Родственница моей жены (военфельдшер, ст. л-т м/с) установлена на Преображенском кладбище как раз по данным умерших МСБ дивизии. Но сам смотрел по Подвигу Народа - три установочных записи, разные части, разные диагнозы (!!!), хотя еще свидетельница (перевязочная сестра того МСБ, знакомая погибшей) в 90-х утверждала что привезли в МСБ живую

От Ustinoff
К apple16 (31.05.2018 18:17:05)
Дата 31.05.2018 21:32:32

Re: Потому что...

>Это все очень трудоемко хотя и автоматизируется.

Либо автоматизируется, либо очень трудоемко. )
Плохо оно автоматизируется на сегодня в таких объемах. Может завтра будет хорошо. Но по большому счету уже почти 100 лет прошло и может оно уже и не очень актуально.

От apple16
К Ustinoff (31.05.2018 21:32:32)
Дата 01.06.2018 00:42:26

Банков с 50 миллионами банковских карточек даже в РФ должно быть несколько

Технологий вагон и они сами не слишком умные - можно и самим запилить
Всякая Informatica Data Quality унылое, но работает.

Те это рутинная задача для большого банка и уже давно
Да и пенсионный примерно такие же объемы шевелит

Поэтому весь вопрос в деньгах на организацию процесса силами людей, которые и слов таких не слышали.

Но можно проще поступить
- хочешь ляпнуть на 9 мая с трибуны "Никто не забыт, ничто не забыто" будь добр покажи сертификат на 10,000 очищенных тобой или на твои деньги записей.
Otherwise отсидка на 15 суток
Ресурс используем - значит платим за него.

От Slick
К apple16 (01.06.2018 00:42:26)
Дата 03.06.2018 15:39:50

Re: Банков с...


>Те это рутинная задача для большого банка и уже давно
>Да и пенсионный примерно такие же объемы шевелит

В банке и пенсионном фонде - по определению структурированные (пускай не полные) данные в отличии от топичных. Теоретически можно настроить "нейросеть" но точность 95% вряд ли будет - скорее 65% реальна... и черный ящик алгоритма на выходе - который не "проверить"...

От Лейтенант
К apple16 (01.06.2018 00:42:26)
Дата 03.06.2018 01:34:15

Ну есть такие, но там проблем там полно

У того же Сбербанка в базе полно необъединенных дубликатов, которые автоматизированные средства не берут. Столкунулся на личном примере.

От Slick
К Лейтенант (03.06.2018 01:34:15)
Дата 03.06.2018 15:34:53

Re: Ну есть...

>У того же Сбербанка в базе полно необъединенных дубликатов, которые автоматизированные средства не берут. Столкунулся на личном примере.
Уверены что там применялись автоматизированные средства? В банках первичен "счет" а не человек. Нет по сути необходимости объединять.

От Prepod
К Slick (03.06.2018 15:34:53)
Дата 04.06.2018 13:50:29

Re: Ну есть...

>>У того же Сбербанка в базе полно необъединенных дубликатов, которые автоматизированные средства не берут. Столкунулся на личном примере.
>Уверены что там применялись автоматизированные средства? В банках первичен "счет" а не человек. Нет по сути необходимости объединять.
Это если человек однозначно идентифицирован и база данных его "видит" как одного человека с разными картами. Это тоже была непростая задача на этапе автоматизации и создания единых баз в рамках одного банка (особенно запарно при объединении банков). На практике за одним человеком числится масса разных счетов и карт, открытых в разное время по разным надобностям. Отсюда введение разнообразных виртуальных "мастер-счетов" и аналогов в сочетании со стимулированием клиентов пользоваться этими счетами и привязывать карты к этому счету. Переход бюдетников на карты "Мир" позволил мним банкам оптимизировать процесс и загнать клинетов на один счет.
Идентифицировать человека, сменившего фамилию, адрес, номер паспорта полностью автоматически нельзя, нужно волевое решение сотрудника и/или инфориация от клиента.
Точно так же как и с военно-истоическими базами. Разные РВК это вообще стандарт: один по мету призыва на срочную, другой по мету призыва по мобилизации, и оба, что харатерно, правильные. Даже у кадровых командиров РККА есть вариант призыва по месту жительства и по месту зачисления на пулеметные курсы, и опять же, оба в принчипе правильные. Разные написания отчества и вида Ленович-Леонтьевич, Панетелеевич-Пантелеймонович это классика.
Выдача сберовских но-нейм карт в реальном времени тоже провоцирует ошибки, как и заполнение наградных на многих отличившихся после успешного боевого эпизода. Человеческий фактор.

От Slick
К Prepod (04.06.2018 13:50:29)
Дата 04.06.2018 15:40:04

Re: Ну есть...


>Это если человек однозначно идентифицирован и база данных его "видит" как одного человека с разными картами. Это тоже была непростая задача на этапе автоматизации и создания единых баз в рамках одного банка (особенно запарно при объединении банков). На практике за одним человеком числится масса разных счетов и карт, открытых в разное время по разным надобностям.

Для банков достаточно идентифицировать человека к привязке конкретного счета. Объединение всех счетов в одного клиента - допфункционал. Частно не на уровне бухучетных систем - а выше в CRM с соответствующим падением качества данных. Если вы хотите точно посчитать потери - задача не тривиальна.

От Паршев
К apple16 (01.06.2018 00:42:26)
Дата 01.06.2018 10:35:19

Да, но только ввод информации трудоемкий

где-то в 90-е годы было 50 центов на запись (карточку), если склероз не подводит.

От Fateev
К apple16 (01.06.2018 00:42:26)
Дата 01.06.2018 06:58:50

Дело не в кол-ве карточек

День добрый.

>Те это рутинная задача для большого банка и уже давно
>Да и пенсионный примерно такие же объемы шевелит

50 лимонов записей - это копейки для современных компов и баз данных.
Проблема именно в автоматическом распознавании дублей и их слиянии.
Я по своей работе регулярно имею дело с попытками автоматического распознавания адреса из строки в структурированную базу - пока ничего хорошего - все кончается ручной работой по косвенным признакам, куда отнести этот адрес/абонента.

>Поэтому весь вопрос в деньгах на организацию процесса силами людей, которые и слов таких не слышали.
А кто будет выверять обработанные этими людьми данные ? И не приведет ли это к еще большему бардаку?

>Но можно проще поступить
>- хочешь ляпнуть на 9 мая с трибуны "Никто не забыт, ничто не забыто" будь добр покажи сертификат на 10,000 очищенных тобой или на твои деньги записей.
>Otherwise отсидка на 15 суток
Приведет к бооооольшой показухе и припискам.

С уважением, Павел Фатеев.

От apple16
К Fateev (01.06.2018 06:58:50)
Дата 01.06.2018 10:27:40

Конечно вопрос в процессе

Есть куча софта для борьбы за качество данных
Причем там не умная какая-то big data

В простейшей формулировке есть запись и ее связи с другими сущностями
(родственниками, населенными пунктами, воинскими формированиями, датами)
Важно понимать что полей как в базе данных у записи на самом деле нет - фамилий может быть много, мест рождения и прочего. Только id и связи

Для любых двух записей можно посчитать метрику близости. Одинаковая фамилия +100, год рождения +200, и то и другое +1000. Если больше порога (1200 например) то это один человек.
Специальные коэффициенты, если в одной записи нет поля а в другой есть.
(в зависимости от типа исходного документа)
Придумали коэффициенты - натравили на выборку - смотрим кого предлагает объединить.
Если все ok - накатываем. теперь у нас другое множество id с другими связями
При этом можно и назад откатить если была ошибка


Сначала очень слабые критерии - только полное совпадение по ключевым атрибутам
Потом сложнее и сложнее

Городских раскидывать не очень сложное дело - там адреса и прочее
Деревенских с милой привычкой иметь три фамилии на село в 100 дворов и без адресов очень тяжело

Население выступает в качестве бесплатного QA - сигнализирует если что не так.
Есть люди которые например копают "свою" дивизию или полк - они гораздо глубже в теме - тоже могут помочь.

Опять таки федеральная программа - хочешь идти на "Бессмертный полк" - будь добр проверь своих по ОБД чтобы все было четко.

Сходные задачи решают и банки и страховые и всякие федеральные программы.
В штатах в Medicaid или Child Welfare только в путь ловить Гонсалесов с переездами и новыми браками. В РФ должно быть то же самое.

Но это все не дешево - зарплата одного или даже двух генералов. МО такое не потянуть ))

От Fateev
К apple16 (01.06.2018 10:27:40)
Дата 01.06.2018 11:13:32

Re: Конечно вопрос...

День добрый.
>Есть куча софта для борьбы за качество данных
Скажем так, эта задача глубоко нетривиальная, и у одних наших заказчиков в 2002г процент нормального разбора адресов (при загрузке из текста) вышел всего 50-55% картотеки(около 600 т.абонентов). Они плюнули на этот софт, написали (2 местных программера) за 2 недели свою процедуру - получилось около 65%. Еще около 3 недель ручной программерской работы по отлову массовых ошибок - и потом полгода ручной работы операторов. Но какие-то дубли ловят до сих пор.

>В простейшей формулировке есть запись и ее связи с другими сущностями
>(родственниками, населенными пунктами, воинскими формированиями, датами)
>Важно понимать что полей как в базе данных у записи на самом деле нет - фамилий может быть много, мест рождения и прочего. Только id и связи
Нет разницы - реляционная база или сетевая или иерархическая - важен именно алгоритм распознавания и на каких принципах его делать.

>Для любых двух записей можно посчитать метрику близости. Одинаковая фамилия +100, год рождения +200, и то и другое +1000. Если больше порога (1200 например) то это один человек.
>Специальные коэффициенты, если в одной записи нет поля а в другой есть.
>(в зависимости от типа исходного документа)
>Придумали коэффициенты - натравили на выборку - смотрим кого предлагает объединить.
Согласен, обычно по каким то определенным критериям дубли и сливают.

>Если все ok - накатываем. теперь у нас другое множество id с другими связями
>При этом можно и назад откатить если была ошибка

Разумеется ! это вообще первое, о чем должны думать и делать при любой массовой конвертации.

>Сначала очень слабые критерии - только полное совпадение по ключевым атрибутам
>Потом сложнее и сложнее

>Городских раскидывать не очень сложное дело - там адреса и прочее
>Деревенских с милой привычкой иметь три фамилии на село в 100 дворов и без адресов очень тяжело
В городах другое - одинаковые улицы и ошибки при вводе - примеры я уже показывал.

>Население выступает в качестве бесплатного QA - сигнализирует если что не так.
>Есть люди которые например копают "свою" дивизию или полк - они гораздо глубже в теме - тоже могут помочь.

>Опять таки федеральная программа - хочешь идти на "Бессмертный полк" - будь добр проверь своих по ОБД чтобы все было четко.
>Сходные задачи решают и банки и страховые и всякие федеральные программы.
>В штатах в Medicaid или Child Welfare только в путь ловить Гонсалесов с переездами и новыми браками. В РФ должно быть то же самое.
С современными гражданами все таки проще - можно оттолкнуться от ID документов- паспорта, страховые, ИНН итп. С гражданами 1930-40х такое не проходит ( .

>Но это все не дешево - зарплата одного или даже двух генералов. МО такое не потянуть ))

Обычно (по моей практике) заказчиков на вразумление и трудовые подвиги очень хорошо стимулирует сильный пинок директората.

С уважением, Павел Фатеев.

От Samsv
К Fateev (01.06.2018 06:58:50)
Дата 01.06.2018 10:12:42

Можно начать хотя бы с наведения порядка в адм. террит. делении.

>День добрый.

>>Те это рутинная задача для большого банка и уже давно
>>Да и пенсионный примерно такие же объемы шевелит
>
>50 лимонов записей - это копейки для современных компов и баз данных.
>Проблема именно в автоматическом распознавании дублей и их слиянии.
>Я по своей работе регулярно имею дело с попытками автоматического распознавания адреса из строки в структурированную базу - пока ничего хорошего - все кончается ручной работой по косвенным признакам, куда отнести этот адрес/абонента.

>>Поэтому весь вопрос в деньгах на организацию процесса силами людей, которые и слов таких не слышали.
>А кто будет выверять обработанные этими людьми данные ? И не приведет ли это к еще большему бардаку?


Приветствую!

А то каких только районов и нас. пунктов не встретишь.
Районы по кр. мере легко исправить, да и большинство названий нас. пунктов можно скорреткировать.
Тогда и связывать похожие записи дегче будет.
С уважением, Samsv,
http://samsv.narod.ru

От Fateev
К Samsv (01.06.2018 10:12:42)
Дата 01.06.2018 10:35:48

Re: Можно начать...

День добрый.
>А то каких только районов и нас. пунктов не встретишь.
>Районы по кр. мере легко исправить, да и большинство названий нас. пунктов можно скорреткировать.

Основных проблем две-
1. Одинаковые наименования улиц и нас. пунктов (Ленина, Маркса, Ивановки и Алексеевки всех видов).
2. Разные варианты написания и ошибки при заполнении. Скажем улица может называться - ул. Ленина; прс Ленина; пр.Ленина; пЛенина; и это все одна и таже улица.
Кладр, ФИАС итп помогают, но с ними надо сопоставлять приходящие данные - и в этом проблема.

P.S. Завязываю, ибо оффтопик.
С уважением, Павел Фатеев.

От john1973
К Fateev (01.06.2018 10:35:48)
Дата 03.06.2018 04:20:52

Re: Можно начать...

>1. Одинаковые наименования улиц и нас. пунктов (Ленина, Маркса, Ивановки и Алексеевки всех видов).
>2. Разные варианты написания и ошибки при заполнении. Скажем улица может называться - ул. Ленина; прс Ленина; пр.Ленина; пЛенина; и это все одна и таже улица
Сокольнический р-н Москвы? Существующий и поныне в тех же границах? НЯЗ и улицы те же?

От Fateev
К john1973 (03.06.2018 04:20:52)
Дата 03.06.2018 08:00:41

Не надо москвацентризма )

День добрый.
>>1. Одинаковые наименования улиц и нас. пунктов (Ленина, Маркса, Ивановки и Алексеевки всех видов).
>>2. Разные варианты написания и ошибки при заполнении. Скажем улица может называться - ул. Ленина; прс Ленина; пр.Ленина; пЛенина; и это все одна и таже улица
>Сокольнический р-н Москвы? Существующий и поныне в тех же границах? НЯЗ и улицы те же?

Конкретно этот случай был в Сибири.

С уважением, Павел Фатеев.

От Александр Солдаткичев
К apple16 (31.05.2018 18:17:05)
Дата 31.05.2018 18:22:02

Re: Потому что...

Здравствуйте

>>Почему не указано, сколько человек учтено в настоящий момент в базе данных?
>>Это могло бы дать ещё одну оценку потерь.
>>У каждого человека в этой базе сейчас есть id-номер.
>>Почему бы не написать, сколько их всего.

>Это не может дать никакой оценки потерь, поскольку работы по борьбе за качество данных проведено не было.
>ID есть в районе 80 миллионов (это сколько всего разных бумажек). Но не все это люди.
>Про человека в среднем 2-3-4 записи
>Получится условно говоря 10 миллионов. Из которых с миллион двойников.
>Что это нам даст непонятно.

>Нужен поставленный процесс переноса в чистую базу надежно идентифицированных людей
>С поиском по связям с формированиям (значит нужна база формирований) и с населенными пунктами (нужна база населенных пунктов)
>Также должны быть подняты указанные в донесениях родственники.

>Это все очень трудоемко хотя и автоматизируется.

Я посмотрел 10 своих родственников и у каждого 1 номер, никаких повторений нет.
Люди с одинаковыми фамилией, именем, отчеством легко вычленяются и проверяются.

С уважением, Александр Солдаткичев

От AMVAS
К Александр Солдаткичев (31.05.2018 18:22:02)
Дата 03.06.2018 12:13:14

Re: Потому что...

Приветствую

>Я посмотрел 10 своих родственников и у каждого 1 номер, никаких повторений нет.
>Люди с одинаковыми фамилией, именем, отчеством легко вычленяются и проверяются.

У моего прадеда только в книгах Памяти 2 записи. по Смоленской и Московской областям. Он призывался из Смоленска, а запросы на него прабабушка посылала из Московской области в 1950-х годах.
А где он реально погиб до сих пор ищем, поскольку архивы гражданских наркоматов при НКО до сих пор не обработаны. Есть только ГУКовская справка.

Алексей
http://rkkaww2.armchairgeneral.com/

От Rwester
К Александр Солдаткичев (31.05.2018 18:22:02)
Дата 01.06.2018 05:04:34

Re: Потому что...

Здравствуйте!

у моего деда две карты с разночтениями и одна в которой с его подачи изменили данные.

Рвестер, с уважением

От Варяг
К Александр Солдаткичев (31.05.2018 18:22:02)
Дата 31.05.2018 19:14:22

Re: Потому что...

как раз легко вычисляются люди с разными и сложными фамилиями, Иван Петрович Сидоровых там тысячи...
я писал про одного человека, который в базе фигурирует 5 раз, причем 2 последних уже из за огрехов оцифровки...

От Александр Солдаткичев
К Варяг (31.05.2018 19:14:22)
Дата 01.06.2018 02:14:46

Посмотрел Иван Петровича Сидорова - 234 человека, не тысячи.

Здравствуйте

Ну вот Ивановых Иван Ивановичей 6584. Есть, конечно, над чем поработать.
Сейчас все с "Бессмертным полком" носятся - могли бы под это дело всю страну подключить.
До человека можно уточнить состав армии. У кого родственников не найдётся - те сразу будут ярко выделяться.
Все нормальные люди знают, что случилось с их родителями, дедушками и дядями.
Лет через 20 уже поздно может быть - дети и даже внуки погибших поумирают.

С уважением, Александр Солдаткичев

От Лейтенант
К Александр Солдаткичев (01.06.2018 02:14:46)
Дата 03.06.2018 01:30:48

А еще там бывают опечатки и иные ошибки в ФИО (-)


От DM
К Александр Солдаткичев (31.05.2018 18:22:02)
Дата 31.05.2018 18:34:04

Re: Потому что...

>Я посмотрел 10 своих родственников и у каждого 1 номер, никаких повторений нет.
>Люди с одинаковыми фамилией, именем, отчеством легко вычленяются и проверяются.

Вот две карточки:
https://pamyat-naroda.ru/heroes/podvig-chelovek_nagrazhdenie22670861/?backurl=%2Fheroes%2F%3Flast_name%3D%D0%9A%D0%BE%D0%B7%D0%B0%D1%87%D0%B5%D0%BD%D0%BA%D0%BE%26first_name%3D%D0%A1%D1%82%D0%B5%D0%BF%D0%B0%D0%BD%26middle_name%3D%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B5%D0%B2%D0%B8%D1%87%26date_birth%3D%26rank%3D%26group%3Dall%26types%3Dpamyat_commander%3Anagrady_nagrad_doc%3Anagrady_uchet_kartoteka%3Anagrady_ubilein_kartoteka%3Apotery_doneseniya_o_poteryah%3Apotery_gospitali%3Apotery_utochenie_poter%3Apotery_spiski_zahoroneniy%3Apotery_voennoplen%3Apotery_iskluchenie_iz_spiskov%3Apotery_kartoteki%3Apotery_vpp%26page%3D1
https://pamyat-naroda.ru/heroes/podvig-chelovek_kartoteka1372102995/?backurl=%2Fheroes%2F%3Flast_name%3D%D0%9A%D0%BE%D0%B7%D0%B0%D1%87%D0%B5%D0%BD%D0%BA%D0%BE%26first_name%3D%D0%A1%D1%82%D0%B5%D0%BF%D0%B0%D0%BD%26middle_name%3D%D0%A1%D0%B5%D1%80%D0%B3%D0%B5%D0%B5%D0%B2%D0%B8%D1%87%26date_birth%3D%26rank%3D%26group%3Dall%26types%3Dpamyat_commander%3Anagrady_nagrad_doc%3Anagrady_uchet_kartoteka%3Anagrady_ubilein_kartoteka%3Apotery_doneseniya_o_poteryah%3Apotery_gospitali%3Apotery_utochenie_poter%3Apotery_spiski_zahoroneniy%3Apotery_voennoplen%3Apotery_iskluchenie_iz_spiskov%3Apotery_kartoteki%3Apotery_vpp%26page%3D1

Можно убедиться сравнивая "мелочи", что это - один человек (мой дед). Но записей две, и они не объеденены.

От apple16
К Александр Солдаткичев (31.05.2018 18:22:02)
Дата 31.05.2018 18:33:32

10 от 10 миллионов это 0.0001 % те не о чем и даже 1000 не о чем

Я дубликаты видел - их много

Можно сформировать критерий по которому автоматически сливать записи.
Мозг просто спокойно игнорит разные даты рождения или опечатки в месте рождения и особенно отсутствие информации.

Критерий должен не подгребать под одну запись односельчан Кузнецовых
(те пусть он будет сначала слабый)

Потом потихоньку смотреть, кого предлагается объединить и идти дальше.

Также нужно поднять сервис деск, чтобы пользователи могли просить слить записи, если они что-то знают или имеют документы.
Контроль качества нужен.

Работа интересная и полезная, но денег на нее нет.

От DM
К apple16 (31.05.2018 18:33:32)
Дата 31.05.2018 19:03:57

Re: 10 от...

>Мозг просто спокойно игнорит разные даты рождения или опечатки в месте рождения и особенно отсутствие информации.

Но примере тех карточек, ссылки на которые я дал - в одной стоит место призыва Марксовский р-н. Но все дело в том, что на момент призыва он не был Марксовским. И ошибки, вроде, нет и сбой сортировки базы - есть.

От apple16
К DM (31.05.2018 19:03:57)
Дата 31.05.2018 19:45:04

Для начала автоматически подберем ну пусть 60% п

Потом вручную дальше

Работу можно вести параллельно те скорость зависит только от денег

От Инженер-109
К Александр Солдаткичев (31.05.2018 18:22:02)
Дата 31.05.2018 18:33:20

У моего деда 3 повторения

>Я посмотрел 10 своих родственников и у каждого 1 номер, никаких повторений нет.
>Люди с одинаковыми фамилией, именем, отчеством легко вычленяются и проверяются.

из-за разночтений в дате и месте гибели, годе рождения

От Инженер-109
К Инженер-109 (31.05.2018 18:33:20)
Дата 01.06.2018 23:02:02

Сходил на Мемориал - 5 повторений деда! Все ID разные (-)


От Begletz
К Инженер-109 (01.06.2018 23:02:02)
Дата 02.06.2018 05:11:52

Я так понял, что ID дается документу (-)


От Begletz
К Инженер-109 (31.05.2018 18:33:20)
Дата 01.06.2018 04:00:24

А про моего 2 записи, причем в одной он старлей, в другой просто лейтенант

Там, где он старший (Информация из донесения о безвозвратных потерях), отчество перепутано и "последнее место службы: командир ХХХ сд", хотя в фотокопии документа правильно, командир роты. А там, где он лейтенант (Информация из приказа об исключении из списков), там отчество правильно и должность "командир взвода". Т е к путанице во фронтовых документах добавлена своя.

От Александр Солдаткичев
К Инженер-109 (31.05.2018 18:33:20)
Дата 31.05.2018 19:07:10

Re: У моего...

Здравствуйте

>>Я посмотрел 10 своих родственников и у каждого 1 номер, никаких повторений нет.
>>Люди с одинаковыми фамилией, именем, отчеством легко вычленяются и проверяются.
>
>из-за разночтений в дате и месте гибели, годе рождения

По фамилии, имени, отчеству вы же сразу видите все 3 записи?

С уважением, Александр Солдаткичев

От john1973
К Александр Солдаткичев (31.05.2018 19:07:10)
Дата 03.06.2018 04:02:17

Re: У моего...

>По фамилии, имени, отчеству вы же сразу видите все 3 записи?
Мой случай (точнее случай троюродной бабки жены) именно 3 записи по ФИО, званию (медслужба) и дате смерти (выбытию из МСБ дивизии). Бардак учета еще тот, но на кладбище есть персональный камень в воинской аллее

От nnn
К Александр Солдаткичев (31.05.2018 19:07:10)
Дата 31.05.2018 20:58:59

и у моего деда 2 записи, причем дата призыва разная + - месяц ! Совок, сэр ! (-)


От john1973
К nnn (31.05.2018 20:58:59)
Дата 03.06.2018 04:05:34

Re: и у...

Мы с женой еще нашли и камень в воинском захоронении, Москва - Преображенское кладбище (!!!), но 3 записи в умерших - сам искал

От Инженер-109
К Александр Солдаткичев (31.05.2018 19:07:10)
Дата 31.05.2018 19:58:52

Да, запись в полку, запись госпитальная и военкоматовская

>По фамилии, имени, отчеству вы же сразу видите все 3 записи?

и все чуть-чуть разные. Я не знаю точно ли его числят как 3 разных человека или же где то есть указание, что он один

>С уважением, Александр Солдаткичев

От lesnik
К Александр Солдаткичев (31.05.2018 19:07:10)
Дата 31.05.2018 19:14:12

Re: У моего...

>По фамилии, имени, отчеству вы же сразу видите все 3 записи?

У моего родственника с очень редким именем (то есть совпадения по ФИО исключены) та же ситуация, три записи - год рождения то 1913, то 1923, место жительства то Прокофьево, то Прокофево.

От Alexeich
К lesnik (31.05.2018 19:14:12)
Дата 06.06.2018 17:28:32

Re: У моего...

>>По фамилии, имени, отчеству вы же сразу видите все 3 записи?
>
>У моего родственника с очень редким именем (то есть совпадения по ФИО исключены) та же ситуация, три записи - год рождения то 1913, то 1923, место жительства то Прокофьево, то Прокофево.

В свое время поиск данных деда жены доставил большие проблемы. По двум причинам. Довольно распространенная мусульманская фамилия была переврана на другую довольно распространенную мусульманскую фамилию. Перевраны были (в пределах узнаваемого) также имя и отчество. Аналогичную ситуацию описывал коллега-азербайджанец. В общем с экзотческими для русского уха, но распространенными именами и фамилиями, типа Худабердиев, Абдулрзаев и иже с ними - беда.