10 от 10 миллионов это 0.0001 % те не о чем и даже 1000 не о чем
Я дубликаты видел - их много
Можно сформировать критерий по которому автоматически сливать записи.
Мозг просто спокойно игнорит разные даты рождения или опечатки в месте рождения и особенно отсутствие информации.
Критерий должен не подгребать под одну запись односельчан Кузнецовых
(те пусть он будет сначала слабый)
Потом потихоньку смотреть, кого предлагается объединить и идти дальше.
Также нужно поднять сервис деск, чтобы пользователи могли просить слить записи, если они что-то знают или имеют документы.
Контроль качества нужен.
Работа интересная и полезная, но денег на нее нет.
>Мозг просто спокойно игнорит разные даты рождения или опечатки в месте рождения и особенно отсутствие информации.
Но примере тех карточек, ссылки на которые я дал - в одной стоит место призыва Марксовский р-н. Но все дело в том, что на момент призыва он не был Марксовским. И ошибки, вроде, нет и сбой сортировки базы - есть.