РБК

2019 - 2021

Dprofile

Главное о проекте

Клиент обратился к нам задачей по созданию системы оцифровки печатных документов. Главной целью было упрощение и ускорение процесса формирования гигантского электронного архива печатных изданий, выходящих в РФ.

Мы взяли на себя работы по backend, frontend и design направлениям.

Создание системы оцифровки печатных документов

На момент старта работ для оптического распознавания символов широко использовалась только программа FineReader. Но она не обладала нужным функционалом и не отвечала фундаментальности проекта. Поэтому наша команда начала искать более оптимальные технологические решения.

Мы провели большую аналитическую работу — ездили к клиенту, познакомились с процессами формирования электронного архива и написали схему, как это должно работать быстро и без проблем.

Все отсканированные документы автоматически попадали в общую базу файлов.

Очерёдность файлов отвечала дате выхода изданий, все архивы были собраны в правильном порядке.

Был реализован удобный поиск по релевантным запросам. Достаточно вбить одно слово, и оператор может найти искомое упоминание в рамках всего архива изданий.

Создавали с нуля «Каталог эмитентов» и раздел управления каталогом в ACMS

Для работы с нераспознанными словами были добавлены словари замен.

Технология OCR

За основу решили взять технологию OCR (optical character recognition) и доработали с учётом требований. Это позволило нам реализовать много удобных фич, которые в то время стали настоящим ноу-хау.

Отдельной большой задачей стала разработка интерфейса административной панели с возможностью использования hot keys.

Как работает сервис

На экране пользователь видит исходный документ — фото или скан печатной страницы газеты или журнала, на котором автоматически размечены области с текстом. Блоки, извлечённые из исходного документа, «помнят» координаты, из какого абзаца и какой страницы исходника они взяты. По клику можно вернуться к оригиналу, и уточнить верность расшифровки.

Сервис умеет определять, что на одной странице расположено несколько статей, и самостоятельно декомпозировать их в отдельные документы, с разбивкой на абзацы и заголовки. Бывает, что статья в журнале свёрстана так, что части публикации по странице разбросаны хаотично. С помощью wysisyg-редактора оператор моментально размечает порядок блоков для обработки, и получает аккуратный, связный текст.

Backend
Frontend
UX/UI Design
OCR Tesseract
PostgreSQL

Django, GraphQL
React, Typescript, DraftJS
Figma

Команда и технологии

Евгений

Frontend developer

Мы создали систему, которая работает максимально быстро, и требует минимум действий от оператора. Полагаю, у нас получился продукт, который мог бы быть полезен для многих компаний на стыке печатных и цифровых медийных отраслей. Полученный опыт позволит быстро адаптировать наработки под задачу конкретного клиента.

Хотите такой же проект?

Оставить заявку