ДОСЛІДЖЕННЯ СУМІСНОГО ВИКОРИСТАННЯ МАТЕМАТИЧНОЇ МОРФОЛОГІЇ ТА ЗГОРТКОВИХ НЕЙРОННИХ МЕРЕЖ ДЛЯ ВИРІШЕННЯ ЗАДАЧІ РОЗПІЗНАВАННЯ ЦІННИКІВ
DOI:
https://doi.org/10.20998/2079-0023.2020.01.05Ключові слова:
розпізнавання зображень, детектування об’єктів, морфологія, нормалізація геометричних перетворень, згорткова нейронна мережа, рекурентна нейронна мережа, навчання нейронної мережі, торгівельна мережа, цінники, штрих код, програмний застосунокАнотація
Робота присвячена вирішенню задачі розпізнавання зображень, що містять інформацію символьного типу, штрих коди, логотипи, або інші знаки. Прикладом таких зображень є цінники в торговельних центрах, флаєра, запрошення, білети на різні заходи. Інформація на таких зображеннях має різний тип і її розпізнавання потребує відмінних підходів. В роботі розглядалось питання розпізнавання цінників в торговельних мережах. Для розпізнавання елементів зображення суттєву роль відіграє точність їх детектування. Було досліджено поєднання класичних методів аналізу зображень та нейромережевого підходу. Особливу увагу було приділено дослідженню у порівняльному аспекті детектування об’єктів методами морфології та шляхом обробки згортковою нейронною мережею. Дослідження показали, що морфологія дає значно нижчу якість детектування ніж нейронна мережа, але у декілька разів перевищує її у швидкодії. Оскільки швидкодія має велике значення для реалізації алгоритмів на мобільних пристроях, до морфології була додана обробка додатковими фільтрами та нормалізація геометричних спотворень, що суттєво поліпшило точність детектування та подальшого розпізнавання. За результатами досліджень питань детектування та розпізнавання штрих коду і символьної інформації, що присутня на цінниках, зроблено висновки щодо обрання підходів та технологій для вирішення цих задач, розроблено алгоритм та на його основі застосунок для розпізнавання цінників різних торгов ельних мереж. Також була розроблена мобільна версія застосунку. Алгоритм побудовано таким чином, що першим кроком є детектування опорного елементу, наприклад, штрих коду, далі відносно опорного елементу відбувається детектування інших елементів цінника. Штрих код детектується за допомогою математичної морфології та методів математичної статистики, яка використовується для підвищення точності алгоритму, або за допомогою згорткових нейронних мереж. Для детектування ціни та назви товару використовується згорткова нейронна мережа CRAFT, що вміє обробляти зображеннями низької якості. Знайдені назва та ціна нормалізуються для усунення геометричних спотворень та передаються для розпізнавання бібліотеці Tesseract. Ця бібліотека працює з багатьма мовами та знаходиться у відкритому доступі. Застосунок для розпізнавання цінників був створений мовою С++ з використанням бібліотек OpenCV, ZXing, Libtorch, Tesseract.Посилання
Serra J. Image Analysis, Mathematical Morphology. Academic Press, 1982. 621 p.
Putjatin E. P., Jakovleva E. V., Ljubchenko V. A. Razlozhenie matricy centroaffinnogo preobrazovanija dlja normalizacii izobrazhenij [Centroaffine transformation matrix decomposition for image normalization]. Radiojelektronika i informatika [Radioelectronics and informatics]. 1996, no. 4 (05), pp. 91–94.
Artificial Intelligence Development Services. Available at: https://www.sytoss.com/data-science-and-neural-network (accessed 10.06.2020).
Image Polygonal Annotation with Python (polygon, rectangle, circle, line, point and image-level flag annotation). Available at: https://github.com/wkentaro/labelme (accessed 15.04.2020).
Common Objects in Context. Available at: http://cocodataset.org/#home (accessed 01.04.2020).
Zharkov A., Zagaynov I. Universal Barcode Detector via Semantic Segmentation. Available at: https://arxiv.org/abs/1906.06281 (accessed 10.02.2020).
Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift. Available at: https://arxiv.org/abs/1502.03167 (accessed 01.03.2020).
Zhou X. et. al. EAST: an efficient and accurate scene text detector. Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2017. pp. 5551–5560.
Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition. Available at: https://arxiv.org/abs/1409.1556 (accessed 15.05.2020).
Ronneberger O., Fischer P., Brox T. U-net: Convolutional networks for biomedical image segmentation. International Conference on Medical image computing and computer-assisted intervention. Springer, Cham. 2015. pp. 234–241.
ZXing (“Zebra Crossing”) barcode scanning library for Java, Android. Available at: https://github.com/zxing/zxing (accessed 10.02.2020).
Hochreiter S., Schmidhuber J. Long short-term memory. Neural computation. 1997, vol. 9, no. 8. pp. 1735–1780.
Understanding LSTM Networks. Available at: https://colah.github.io/posts/2015-08-Understanding-LSTMs (accessed 10.03.2020).
Tan M., Le Q. V. Efficientnet: Rethinking model scaling for convolutional neural networks. Available at: https://arxiv.org/abs/1905.11946 (accessed 20.04.2020).
##submission.downloads##
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2020 Вісник Національного технічного університету «ХПІ». Серія: Системний аналiз, управління та iнформацiйнi технологiїАвтори, які публікуються у цьому журналі, погоджуються з наступними умовами:
- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).