От apple16
К Александр Солдаткичев
Дата 31.05.2018 18:33:32
Рубрики WWII; Армия; 1941; Память;

10 от 10 миллионов это 0.0001 % те не о чем и даже 1000 не о чем

Я дубликаты видел - их много

Можно сформировать критерий по которому автоматически сливать записи.
Мозг просто спокойно игнорит разные даты рождения или опечатки в месте рождения и особенно отсутствие информации.

Критерий должен не подгребать под одну запись односельчан Кузнецовых
(те пусть он будет сначала слабый)

Потом потихоньку смотреть, кого предлагается объединить и идти дальше.

Также нужно поднять сервис деск, чтобы пользователи могли просить слить записи, если они что-то знают или имеют документы.
Контроль качества нужен.

Работа интересная и полезная, но денег на нее нет.

От DM
К apple16 (31.05.2018 18:33:32)
Дата 31.05.2018 19:03:57

Re: 10 от...

>Мозг просто спокойно игнорит разные даты рождения или опечатки в месте рождения и особенно отсутствие информации.

Но примере тех карточек, ссылки на которые я дал - в одной стоит место призыва Марксовский р-н. Но все дело в том, что на момент призыва он не был Марксовским. И ошибки, вроде, нет и сбой сортировки базы - есть.

От apple16
К DM (31.05.2018 19:03:57)
Дата 31.05.2018 19:45:04

Для начала автоматически подберем ну пусть 60% п

Потом вручную дальше

Работу можно вести параллельно те скорость зависит только от денег