От Chestnut
К apple16
Дата 22.08.2006 15:21:15
Рубрики Спецслужбы; Память;

Re: Выложили много...

>Технически все так себе сделано - нельзя скачать все
>сразу (в PDF файлы зашить по делам)
>Поскольку страницы нераспознаны
>(жалкие 400 страниц распознать и вычитать не осилили)
>нельзя искать по контексту файлов - люди же будут искать названия сел
>и фамилии родственников.
>Короче до DDRS далеко - 100% бедолаги из софтлайна его даже не видели.

С распознанными файлами нет гарантии соответствия оригиналу

In hoc signo vinces

От apple16
К Chestnut (22.08.2006 15:21:15)
Дата 22.08.2006 15:57:21

Вы не поняли

Файлы распознаются и ложатся в базу отдельно
- где, какое слово в каких координтатах было найдено.
При поиске по ключевым словам вам подсвечивают в JPEG
(а лучше ч/б TIFF) документе нужное место.
Так сделан Таймс за 1700-лохматый год с тогдашним качеством печати
Так сделан DDRS (где тоже не все документы отличного качества
- он кстати в принципе похож)
Конечно ошибок достаточно,
но тогда это уже инструмент поиска информации а не свалка файлов.
Пока на сайте сделали минимальный объем работ
- просто сканирование и примитивная верстка. Для 2006 года плохо.

Будем делать PDF?

От Alex Medvedev
К Chestnut (22.08.2006 15:21:15)
Дата 22.08.2006 15:34:57

Re: Выложили много...

>С распознанными файлами нет гарантии соответствия оригиналу

Я вам страшную тайну открою -- при наличии фотошопа эти картинки тоже на оригинал не тянут :)

От Chestnut
К Alex Medvedev (22.08.2006 15:34:57)
Дата 22.08.2006 16:28:33

Re: Выложили много...

>Я вам страшную тайну открою -- при наличии фотошопа эти картинки тоже на оригинал не тянут :)

Я про глюки, а не по намеренную подделку документов

In hoc signo vinces