DOI: https://doi.org/10.20998/2079-0023.2020.01.05

ДОСЛІДЖЕННЯ СУМІСНОГО ВИКОРИСТАННЯ МАТЕМАТИЧНОЇ МОРФОЛОГІЇ ТА ЗГОРТКОВИХ НЕЙРОННИХ МЕРЕЖ ДЛЯ ВИРІШЕННЯ ЗАДАЧІ РОЗПІЗНАВАННЯ ЦІННИКІВ

Andrii Kovtunenko, Olena Yakovleva, Valentyn Liubchenko, Olha Yanholenko

Анотація


Робота присвячена вирішенню задачі розпізнавання зображень, що містять інформацію символьного типу, штрих коди, логотипи, або інші знаки. Прикладом таких зображень є цінники в торговельних центрах, флаєра, запрошення, білети на різні заходи. Інформація на таких зображеннях має різний тип і її розпізнавання потребує відмінних підходів. В роботі розглядалось питання розпізнавання цінників в торговельних мережах. Для розпізнавання елементів зображення суттєву роль відіграє точність їх детектування. Було досліджено поєднання класичних методів аналізу зображень та нейромережевого підходу. Особливу увагу було приділено дослідженню у порівняльному аспекті детектування об’єктів методами морфології та шляхом обробки згортковою нейронною мережею. Дослідження показали, що морфологія дає значно нижчу якість детектування ніж нейронна мережа, але у декілька разів перевищує її у швидкодії. Оскільки швидкодія має велике значення для реалізації алгоритмів на мобільних пристроях, до морфології була додана обробка додатковими фільтрами та нормалізація геометричних спотворень, що суттєво поліпшило точність детектування та подальшого розпізнавання. За результатами досліджень питань детектування та розпізнавання штрих коду і символьної інформації, що присутня на цінниках, зроблено висновки щодо обрання підходів та технологій для вирішення цих задач, розроблено алгоритм та на його основі застосунок для розпізнавання цінників різних торгов ельних мереж. Також була розроблена мобільна версія застосунку. Алгоритм побудовано таким чином, що першим кроком є детектування опорного елементу, наприклад, штрих коду, далі відносно опорного елементу відбувається детектування інших елементів цінника. Штрих код детектується за допомогою математичної морфології та методів математичної статистики, яка використовується для підвищення точності алгоритму, або за допомогою згорткових нейронних мереж. Для детектування ціни та назви товару використовується згорткова нейронна мережа CRAFT, що вміє обробляти зображеннями низької якості. Знайдені назва та ціна нормалізуються для усунення геометричних спотворень та передаються для розпізнавання бібліотеці Tesseract. Ця бібліотека працює з багатьма мовами та знаходиться у відкритому доступі. Застосунок для розпізнавання цінників був створений мовою С++ з використанням бібліотек OpenCV, ZXing, Libtorch, Tesseract.

Ключові слова


розпізнавання зображень; детектування об’єктів; морфологія; нормалізація геометричних перетворень; згорткова нейронна мережа; рекурентна нейронна мережа; навчання нейронної мережі; торгівельна мережа; цінники; штрих код; програмний застосунок

Повний текст:

PDF

Посилання


Serra J. Image Analysis, Mathematical Morphology. Academic Press, 1982. 621 p.

Putjatin E. P., Jakovleva E. V., Ljubchenko V. A. Razlozhenie matricy centroaffinnogo preobrazovanija dlja normalizacii izobrazhenij [Centroaffine transformation matrix decomposition for image normalization]. Radiojelektronika i informatika [Radioelectronics and informatics]. 1996, no. 4 (05), pp. 91–94.

Artificial Intelligence Development Services. Available at: https://www.sytoss.com/data-science-and-neural-network (accessed 10.06.2020).

Image Polygonal Annotation with Python (polygon, rectangle, circle, line, point and image-level flag annotation). Available at: https://github.com/wkentaro/labelme (accessed 15.04.2020).

Common Objects in Context. Available at: http://cocodataset.org/#home (accessed 01.04.2020).

Zharkov A., Zagaynov I. Universal Barcode Detector via Semantic Segmentation. Available at: https://arxiv.org/abs/1906.06281 (accessed 10.02.2020).

Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift. Available at: https://arxiv.org/abs/1502.03167 (accessed 01.03.2020).

Zhou X. et. al. EAST: an efficient and accurate scene text detector. Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2017. pp. 5551–5560.

Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition. Available at: https://arxiv.org/abs/1409.1556 (accessed 15.05.2020).

Ronneberger O., Fischer P., Brox T. U-net: Convolutional networks for biomedical image segmentation. International Conference on Medical image computing and computer-assisted intervention. Springer, Cham. 2015. pp. 234–241.

ZXing (“Zebra Crossing”) barcode scanning library for Java, Android. Available at: https://github.com/zxing/zxing (accessed 10.02.2020).

Hochreiter S., Schmidhuber J. Long short-term memory. Neural computation. 1997, vol. 9, no. 8. pp. 1735–1780.

Understanding LSTM Networks. Available at: https://colah.github.io/posts/2015-08-Understanding-LSTMs (accessed 10.03.2020).

Tan M., Le Q. V. Efficientnet: Rethinking model scaling for convolutional neural networks. Available at: https://arxiv.org/abs/1905.11946 (accessed 20.04.2020).