Towards information system development for data extraction from web

Yulia Mukolaivna Gontar; Kateryna Victorivna Tkach; Bohdan Oleksandrovych Yena; Artem Victorovych Vasylenko

doi:10.20998/2079-0023.2018.22.08

Towards information system development for data extraction from web

Автор(и)

Yulia Mukolaivna Gontar https://orcid.org/0000-0002-3748-5086
Kateryna Victorivna Tkach https://orcid.org/0000-0001-7104-800X
Bohdan Oleksandrovych Yena https://orcid.org/0000-0003-4791-956X
Artem Victorovych Vasylenko https://orcid.org/0000-0003-3121-4856

DOI:

https://doi.org/10.20998/2079-0023.2018.22.08

Ключові слова:

information, web search, data extraction, data source, data mining, language standards, informational technology

Анотація

Сьогодні Інтернет містить величезну кількість джерел інформації, яка постійно використовується в нашому щоденному житті. Часто буває, що схожа за змістом інформація представлена в різній формі на різних ресурсах (наприклад, електронні бібліотеки, інтернет-магазини, новинні сайти). У даній роботі аналізується вилучення інформації з веб-джерел певного типу, яке потрібно користувачеві. Проведено аналіз проблеми вилучення даних. При розгляді основних підходів до екстракції даних були виділені сильні і слабкі сторони кожного. Сформульовано основні аспекти вилучення веб-знань. Проаналізовано підходи та інформаційні технології вирішення проблем синтаксичного аналізу на основі існуючих інформаційних систем. На основі проведеного аналізу була сформована задача розробки моделей і програмних компонентів для отримання даних з веб-ресурсів певного типу. Розроблено концептуальну модель вилучення даних з урахуванням веб-простору як зовнішнього джерела даних. Була створена специфікація вимог для програмного компонента, що дозволить продовжити роботу над проектом, щоб чітко розуміти вимоги і обмеження для реалізації. При моделюванні програмного забезпечення були розроблені наступні діаграми, такі як діаграми класів, активності, послідовності і розгортання, які потім будуть використовуватися для створення готового додатка. Для подальшої розробки програмного забезпечення була визначена платформа програмування і види тестування (навантажувальний і модульне). Отримані результати дозволяють стверджувати, що пропоноване проектне рішення, яке буде реалізовано у вигляді прототипу програмної системи, може виконувати завдання екстракції даних з різних джерел на основі одного семантичного шаблону.

Посилання

Baumgartner R., Gatterbauer W., Gottlob G. Web data extraction system. In Encyclopedia of Database Systems. 2009, pp. 3465–3471.

Anupam V., Freire J., Kumar B., Lieuwen D. Automating web navigation with the WebVCR. Computer Networks. 2000, pp. 503– 517.

Memex (Domain-Specific Search). Available at: www.darpa.mil/program/memex (accessed 02.11.2017).

Gatterbauer W., Bohunsky P., Herzog M., Krüpl B., Pollak B. Towards domain-independent information extraction from web tables. Proceedings of the 16th international conference on World Wide Web (May 08–12, 2007, Banff, Alberta, Canada). New York, ACM, 2007, pp. 71–80.

Bonifati A., Braga D., Campi A, Ceri S. Active XQuery. Proceedings of the 18th International Conference on Data Engineering (26 February – 1 March 2002, San Jose, California). 2002, pp. 129–138.

Bohannon P., Dalvi N., Filmus Y. Automatic web-scale information extraction. Proceedings of the ACM SIGMOD ICMD. 2012, pp. 609–612.

Shen W., AnHai D., Jeffrey F. Naughton, Ramakrishnan R. Declarative information extraction using datalog with embedded extraction predicates. In Proceedings of the 33rd International Conference on Very Large Data Bases. VLDB Endowment, 2007, pp. 1033–1044.

Crescenzi V. RoadRunner. Towards automatic data extraction from large Web sites. Proceedings of the 27th International Conference on Very Large Data Bases. 2001, pp. 109–118.

Agichtein E., Gravano L. Snowball: extracting relations from large plain-text collections. Proceedings of the fifth ACM conference on Digital libraries. 2000, pp. 85–94.

Arasu A., Garcia-Molina H. Extracting Structured Data from Webpages. Proceedings of SIGMOD International Conference on Management of Data (June 9–12, 2003, San Diego, California). ACM, New York, 2003, pp. 337–348.

John T. Van Stan, Aron Stubbins, Tree‐DOM: Dissolved organic matter in throughfall and stemflow. Limnology and Oceanography Letters. 2017, vol. 3, pp. 199–214.

Cunningham H., Tablan V., Roberts A., Bontcheva K. Getting more out of biomedical documents with gate’s full lifecycle open source text analytics. PLoS Comput Biol. 2013, no. 9 (2), pp. 31–47.

Shin J., Wu S., Wang F., Christopher De Sa, Ce Zhang C., Re C. Incremental knowledge base construction using deepdive. VLDB Endowment. 2015, vol. 8, no. 11, pp. 1310–1321.

Khare R, Cutting D., Sitaker K., Rifkin A. Nutch: A Flexible and Scalable Open-Source Web Search Engine. Proceedings of the 14th International Conference on World Wide Web. 2005, vol. 1, p. 32.

Avasarala S. Selenium WebDriver Practical Guide. Pact Publishing, 2014. 266 p.

##submission.downloads##

PDF (English)

Як цитувати

Gontar, Y. M., Tkach, K. V., Yena, B. O., & Vasylenko, A. V. (2018). Towards information system development for data extraction from web. Вісник Національного технічного університету «ХПІ». Серія: Системний аналiз, управління та iнформацiйнi технологiї, (22), 53–59. https://doi.org/10.20998/2079-0023.2018.22.08

Завантажити посилання

Номер

№ 22 (2018)

Розділ

СИСТЕМНИЙ АНАЛІЗ І ТЕОРІЯ ПРИЙНЯТТЯ РІШЕНЬ

Ліцензія

Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:

Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).

Towards information system development for data extraction from web

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

##submission.downloads##

Як цитувати

Номер

Розділ

Ліцензія

Інформація

##plugins.block.developedBy.blockTitle##