От apple16
К All
Дата 28.06.2021 19:24:25
Рубрики WWII;

Справочник по офицерам КА из ОБД

Тут из ОБД удалось по случаю вытащить справочник офицеров
(один из нескольких условно доступных)

Сделан в виде CSV файла с русскими разделителями и в русской кодировке 1251, хотя Excel скорее всего на нем сдохнет ибо там 6.8 миллиона записей отсортированных по ФИО
Также отдельно в архиве лежат по буквам алфавита фрагменты - сделал тестовые файлы
На одного человека может быть больше чем одна запись
Видно ошибки и опечатки

Колонки следующие

Номер;Фамилия;Имя;Отчество;Дата рождения;Место рождения;Место призыва;Дата призыва;Место службы;Воинское звание;Дата выбытия;История


Понятно, что лейтенанты могут не попасть, но капитаны-майоры думаю там практически все


Можно использовать для решения типовых задач как то

1. Через grep найти все записи по конкретной дивизии - например в 173 сд больше 5000 записей
13 гв. сд - более 6000
2. Найти названия формирований - какие есть кд и медсанбаты например
3. Выяснить как назывались населенные пункты и районы в начале века
4. Посчитать долю офицеров во вспомогательных подразделениях vs стрелковые и артполки

и тп


https://drive.google.com/file/d/1BFVTI7fD1dLTSvvRWik6JjwZ8L7nn9mP/view?usp=sharing


Скорее всего будет такое же по
1. Потерям (там что-то около 31 миллиона записей)
2. Награждениям (там 28 миллионов записей)

Есть еще два справочника офицеров - буду пытаться свести в один и сделаю кустарный MDM какой.
В перспективе поднять список формирований и населенных пунктов

От apple16
К apple16 (28.06.2021 19:24:25)
Дата 02.07.2021 01:20:43

Второй и третий справочник по офицерам

№2
Он не полный (~50%), поскольку сервис накрылся невовремя, но позволяет уточнить первый
2.9 миллиона записей

https://drive.google.com/file/d/1g0L1M-L9xV-dUYGYw3KaqtLHF8XMGhZ8/view?usp=sharing

№3 - выборка ОБД по офицерским званиям
21 миллион записей (но там по записи на награду)
https://drive.google.com/file/d/1bAETkmZFmKHOChH7YbZ-Ncf1gxnvodGi/view?usp=sharing

От apple16
К apple16 (28.06.2021 19:24:25)
Дата 01.07.2021 23:36:41

Список потерь

CSV в 1251 с русским разделителем
31 миллион записей
дублей порядочно

отдельно по нодам сделал и их сортировку по ФИО

Колонки следующие

Номер;Фамилия;Имя;Отчество;Дата рождения;Место рождения;Место призыва;Дата призыва;Место службы;Воинское звание;Дата выбытия;История


https://drive.google.com/file/d/1bebZJGCHqotLy7-g7afG1EndEw64_RnH/view?usp=sharing

От Сибиряк
К apple16 (01.07.2021 23:36:41)
Дата 15.07.2021 07:36:17

Re: Список потерь

>CSV в 1251 с русским разделителем
>31 миллион записей
>дублей порядочно

Посмотрел по не слишком частой российской фамилии Юданов - всего 490 записей. После объединения записей, достаточно очевидно относящихся к одному и тому же человеку (в некоторых случаях даже несмотря на различия в написании имени, отчества, даты рождения), осталось 270 записей, их которых 23 записи после дальнейшей обработки скорее всего удастся объединить с другими. В итоге имеем не менее 247 человек, 50.4% от числа записей. Если распространить результат, полученный по этой выборке, на весь список, то в базе содержится информация о ~15.5 млн человек, из которых конечно не все погибли, т.к. нередко попадаются освобождённые из плена.


>отдельно по нодам сделал и их сортировку по ФИО

>Колонки следующие

>Номер;Фамилия;Имя;Отчество;Дата рождения;Место рождения;Место призыва;Дата призыва;Место службы;Воинское звание;Дата выбытия;История


>
https://drive.google.com/file/d/1bebZJGCHqotLy7-g7afG1EndEw64_RnH/view?usp=sharing

От Сибиряк
К Сибиряк (15.07.2021 07:36:17)
Дата 19.07.2021 18:30:47

Re: Список потерь

>>CSV в 1251 с русским разделителем
>>31 миллион записей
>>дублей порядочно
>
>Посмотрел по не слишком частой российской фамилии Юданов - всего 490 записей. После объединения записей, достаточно очевидно относящихся к одному и тому же человеку (в некоторых случаях даже несмотря на различия в написании имени, отчества, даты рождения), осталось 270 записей, их которых 23 записи после дальнейшей обработки скорее всего удастся объединить с другими.

После внимательного рассмотрения список сократился до 248 записей, из которых 14 с высокой вероятностью могут быть объединены с другими, но для однозначного решения по этим случаям информации недостаточно. Итого получается не менее 234 человек, из которых 14 - живые на момент составления донесения: двое уволенных по ранению, двое эвакуированных раненых, один дезертир из запасного полка в Закавказье, двое осужденных и 7 освобождённых из плена. Остальные 220 человек - убитые, умершие от ран, погибшие в плену и пропавшие без вести - 45% от изначального числа записей в выборке (490).

От Kalash
К apple16 (28.06.2021 19:24:25)
Дата 01.07.2021 13:04:31

Re: Справочник по...

>Тут из ОБД удалось по случаю вытащить справочник офицеров
>(один из нескольких условно доступных)

У меня ничего не получается почему то. Кто нибудь может найти в этом списке моего деда, Калашникова Дмитрия Фёдоровича, 1906 года рождения, старший лейтенант в начале, майор в конце войны?

От apple16
К Kalash (01.07.2021 13:04:31)
Дата 01.07.2021 17:04:03

Re: Справочник по...

>>Тут из ОБД удалось по случаю вытащить справочник офицеров
>>(один из нескольких условно доступных)
>
>У меня ничего не получается почему то. Кто нибудь может найти в этом списке моего деда, Калашникова Дмитрия Фёдоровича, 1906 года рождения, старший лейтенант в начале, майор в конце войны?

node_КАЛ.txt

70012780009;Калашников;Дмитрий;Федорович;22.10.1906;Украинская ССР, Сталинская обл., Щербиновский руд.;;__.03.1941 ;"352 осапб ЛитВо; 55 осапб 2 гв. мк 3 УкрФ";гв. майор;19.01.1945;
70012780010;Калашников;Дмитрий;Федорович;__.__.1906;Украинская ССР, Сталинская обл., Щербиновский руд.;;22.06.1941 ;ЗапФ;мл. лейтенант;;

От Vladre
К apple16 (28.06.2021 19:24:25)
Дата 30.06.2021 03:54:27

Re: Справочник по...

>3. Выяснить как назывались населенные пункты и районы в начале века

Это вряд ли. Проще сделать с нуля. Ошибок просто масса. Варианты написания моего села и его нахождения в разных районах - десятки. Некоторые ошибки такие, что если б не знал человека сроду бы не догадался, что это за село.

Ошибки даже в одном документе. В списке односельчан.

От apple16
К Vladre (30.06.2021 03:54:27)
Дата 30.06.2021 13:26:13

Тут как раз надо собирать все виды написания населенного пункта и его

принадлежности району. Те есть правильное название и все варианты написания с опечатками, ведущие туда же. Эта база и другие такие пойдут для набора статистики.

У меня как-то товарищ делал SMS опрос-голосование типа "все песни всех групп". Просто человек глазами читал и относил к тому или иному коллективу. Через неделю уже лихо любые "тхе битлес" распознавались.

От Сибиряк
К apple16 (28.06.2021 19:24:25)
Дата 29.06.2021 14:04:18

~20% дублирующих записей

Спасибо!

>На одного человека может быть больше чем одна запись

Попробовал оценить количество дублей. Для этого сделал полную выборку по своей фамилии, всего получилось 124 записи, после отсеивания явных дублей (а также триплетов и квадруплетов) осталось 98 записей (пара подозрительных на дублирование сохранились): всего 96 мужчин и 2 женщины.

В итоге по выборке имеем 21% дублирующих записей.


От apple16
К Сибиряк (29.06.2021 14:04:18)
Дата 29.06.2021 16:08:05

Формально это разные записи - у них разные ID в исходной системе

За счет этого можно как-то опечатки поймать если все совпадает, кроме пары букв

От Сибиряк
К apple16 (29.06.2021 16:08:05)
Дата 29.06.2021 16:24:17

понятно, что число записей превышает число людей


>За счет этого можно как-то опечатки поймать если все совпадает, кроме пары букв

В отдельных случаях можно даже почти весь послужной человека увидеть, т.к. присутствуют записи, когда он был мл. лейтенантом, лейтенантом, а потом - майором.

А на моего деда - две практически идентичные записи, но почему-то отличающиеся датой рождения на 5 дней.

При дальнейшей обработке выделил ещё четыре несомненных дубля, пропущенных при первом проходе. В итоге 94 человека на 124 записи, 24% избыточных записей.

От Сибиряк
К Сибиряк (29.06.2021 16:24:17)
Дата 30.06.2021 09:14:23

Re: понятно, что...

>При дальнейшей обработке выделил ещё четыре несомненных дубля, пропущенных при первом проходе. В итоге 94 человека на 124 записи, 24% избыточных записей.

Посмотрел ещё одну не слишком распространённую фамилию - Юдаков, 210 записей по которым выделяются 162 отдельных человека: 160 мужчин и 2 женщины. Доля избыточных записей 23%, но опять-таки остаются несколько записей, по которым есть основания полагать, что они дублирующие, но недостаточно оснований, чтобы исключить из подсчёта количества лиц.

Таким образом, можно полагать, что в базе из 6.8 млн записей содержится информация примерно на 5.1 млн человек (три четверти, 75% от числа записей). Но здесь следует оговориться, что я набирал статистику по фамилиям, распространённым преимущественно в России: в полосе от Тулы и Орла через Тамбов и Среднее Поволжье в Казахстан и Зап. Сибирь. По территориям, побывавшим под оккупацией может быть своя специфика.

От apple16
К Сибиряк (30.06.2021 09:14:23)
Дата 30.06.2021 13:27:22

Я постараюсь сегодня завтра еще выгрузить - там побольше записей

Но там рядовые и там на глазок больше повторов

От nnn
К apple16 (28.06.2021 19:24:25)
Дата 29.06.2021 13:46:40

Re: Справочник по...

>Тут из ОБД удалось по случаю вытащить справочник офицеров
>(один из нескольких условно доступных)

>Сделан в виде CSV файла с русскими разделителями и в русской кодировке 1251, хотя Excel скорее всего на нем сдохнет ибо там 6.8 миллиона записей отсортированных по ФИО
>Также отдельно в архиве лежат по буквам алфавита фрагменты - сделал тестовые файлы
>На одного человека может быть больше чем одна запись
>Видно ошибки и опечатки

>Колонки следующие

>Номер;Фамилия;Имя;Отчество;Дата рождения;Место рождения;Место призыва;Дата призыва;Место службы;Воинское звание;Дата выбытия;История


>Понятно, что лейтенанты могут не попасть, но капитаны-майоры думаю там практически все


>Можно использовать для решения типовых задач как то

>1. Через grep найти все записи по конкретной дивизии - например в 173 сд больше 5000 записей
>13 гв. сд - более 6000
>2. Найти названия формирований - какие есть кд и медсанбаты например
>3. Выяснить как назывались населенные пункты и районы в начале века
>4. Посчитать долю офицеров во вспомогательных подразделениях vs стрелковые и артполки

>и тп


>
https://drive.google.com/file/d/1BFVTI7fD1dLTSvvRWik6JjwZ8L7nn9mP/view?usp=sharing


Это Вы сами сделали ? Респект !

От Oleg5955
К apple16 (28.06.2021 19:24:25)
Дата 28.06.2021 22:01:59

Re: Справочник по...

Спасибо!



От Алтын
К apple16 (28.06.2021 19:24:25)
Дата 28.06.2021 21:06:08

Спасибо большое! А потери это и раненные тоже? (-)


От apple16
К Алтын (28.06.2021 21:06:08)
Дата 28.06.2021 21:41:18

Это все что вернулись по запросу

Варианты там

погиб
умер от ран
убит
пропал без вести
перешел на сторону врага
ранен
попал в плен
умер от болезни