Электронный архив и база данных СМИ для развития бизнеса
СМИ
Технология OCR
Backend
Frontend
UX/UI Design

РБК

2019 - 2021

Главное о проекте

Клиент обратился к нам задачей по созданию системы оцифровки печатных документов. Главной целью было упрощение и ускорение процесса формирования гигантского электронного архива печатных изданий, выходящих в РФ.

Мы взяли на себя работы по backend, frontend и design направлениям.
Создание системы оцифровки печатных документов
На момент старта работ для оптического распознавания символов широко использовалась только программа FineReader. Но она не обладала нужным функционалом и не отвечала фундаментальности проекта. Поэтому наша команда начала искать более оптимальные технологические решения.

Мы провели большую аналитическую работу — ездили к клиенту, познакомились с процессами формирования электронного архива и написали схему, как это должно работать быстро и без проблем.
Технология OCR
  • Для работы с нераспознанными словами были добавлены словари замен.
  • Создавали с нуля «Каталог эмитентов» и раздел управления каталогом в ACMS
  • Был реализован удобный поиск по релевантным запросам. Достаточно вбить одно слово, и оператор может найти искомое упоминание в рамках всего архива изданий.
  • Очерёдность файлов отвечала дате выхода изданий, все архивы были собраны в правильном порядке.
  • Все отсканированные документы автоматически попадали в общую базу файлов.
Отдельной большой задачей стала разработка интерфейса административной панели с возможностью использования hot keys.
За основу решили взять технологию OCR (optical character recognition) и доработали с учётом требований. Это позволило нам реализовать много удобных фич, которые в то время стали настоящим ноу-хау.
Как работает сервис
На экране пользователь видит исходный документ — фото или скан печатной страницы газеты или журнала, на котором автоматически размечены области с текстом. Блоки, извлечённые из исходного документа, «помнят» координаты, из какого абзаца и какой страницы исходника они взяты. По клику можно вернуться к оригиналу, и уточнить верность расшифровки.

Сервис умеет определять, что на одной странице расположено несколько статей, и самостоятельно декомпозировать их в отдельные документы, с разбивкой на абзацы и заголовки. Бывает, что статья в журнале свёрстана так, что части публикации по странице разбросаны хаотично. С помощью wysisyg-редактора оператор моментально размечает порядок блоков для обработки, и получает аккуратный, связный текст.
Команда и технологии
Django, GraphQL
React, Typescript, DraftJS
Figma
Backend
Frontend
UX/UI Design
OCR Tesseract
PostgreSQL
Мы создали систему, которая работает максимально быстро, и требует минимум действий от оператора. Полагаю, у нас получился продукт, который мог бы быть полезен для многих компаний на стыке печатных и цифровых медийных отраслей. Полученный опыт позволит быстро адаптировать наработки под задачу конкретного клиента.
Frontend developer
Евгений
Хотите такой же проект?