От apple16
К AlReD
Дата 22.08.2006 14:59:20
Рубрики Спецслужбы; Память;

Выложили много машинописных листов

В дела видимо собраны по географическому признаку
Первичный пласт информации - разговоры, агитматериалы, справки,
случаи людоедства и т.п.
Системы никакой не вижу - из документов выводы
можно сделать любые

Технически все так себе сделано - нельзя скачать все
сразу (в PDF файлы зашить по делам)
Поскольку страницы нераспознаны
(жалкие 400 страниц распознать и вычитать не осилили)
нельзя искать по контексту файлов - люди же будут искать названия сел
и фамилии родственников.
Короче до DDRS далеко - 100% бедолаги из софтлайна его даже не видели.

Файлики лежат по адресам вида
http://www.sbu.gov.ua/sbu/doccatalog/document?id=XXXXX
где XXXXX от 49761 до 52593 (причем не подряд)

Листовка 2 файла
Дело 229 - 13 файлов
Дело 228 - 197 файлов
Дело 230 - 191 файл

Если кто поможет вне украинской юрисдикции
(вдруг они против будут :))
- любой качалкой замиррорим все
(по списку файлов) и в PDF выложим

От Chestnut
К apple16 (22.08.2006 14:59:20)
Дата 22.08.2006 15:21:15

Re: Выложили много...

>Технически все так себе сделано - нельзя скачать все
>сразу (в PDF файлы зашить по делам)
>Поскольку страницы нераспознаны
>(жалкие 400 страниц распознать и вычитать не осилили)
>нельзя искать по контексту файлов - люди же будут искать названия сел
>и фамилии родственников.
>Короче до DDRS далеко - 100% бедолаги из софтлайна его даже не видели.

С распознанными файлами нет гарантии соответствия оригиналу

In hoc signo vinces

От apple16
К Chestnut (22.08.2006 15:21:15)
Дата 22.08.2006 15:57:21

Вы не поняли

Файлы распознаются и ложатся в базу отдельно
- где, какое слово в каких координтатах было найдено.
При поиске по ключевым словам вам подсвечивают в JPEG
(а лучше ч/б TIFF) документе нужное место.
Так сделан Таймс за 1700-лохматый год с тогдашним качеством печати
Так сделан DDRS (где тоже не все документы отличного качества
- он кстати в принципе похож)
Конечно ошибок достаточно,
но тогда это уже инструмент поиска информации а не свалка файлов.
Пока на сайте сделали минимальный объем работ
- просто сканирование и примитивная верстка. Для 2006 года плохо.

Будем делать PDF?

От Alex Medvedev
К Chestnut (22.08.2006 15:21:15)
Дата 22.08.2006 15:34:57

Re: Выложили много...

>С распознанными файлами нет гарантии соответствия оригиналу

Я вам страшную тайну открою -- при наличии фотошопа эти картинки тоже на оригинал не тянут :)

От Chestnut
К Alex Medvedev (22.08.2006 15:34:57)
Дата 22.08.2006 16:28:33

Re: Выложили много...

>Я вам страшную тайну открою -- при наличии фотошопа эти картинки тоже на оригинал не тянут :)

Я про глюки, а не по намеренную подделку документов

In hoc signo vinces