Towards information system development for data extraction from web

Yulia Mukolaivna Gontar, Kateryna Victorivna Tkach, Bohdan Oleksandrovych Yena, Artem Victorovych Vasylenko

Анотація


Сьогодні Інтернет містить величезну кількість джерел інформації, яка постійно використовується в нашому щоденному житті. Часто буває, що схожа за змістом інформація представлена в різній формі на різних ресурсах (наприклад, електронні бібліотеки, інтернет-магазини, новинні сайти). У даній роботі аналізується вилучення інформації з веб-джерел певного типу, яке потрібно користувачеві. Проведено аналіз проблеми вилучення даних. При розгляді основних підходів до екстракції даних були виділені сильні і слабкі сторони кожного. Сформульовано основні аспекти вилучення веб-знань. Проаналізовано підходи та інформаційні технології вирішення проблем синтаксичного аналізу на основі існуючих інформаційних систем. На основі проведеного аналізу була сформована задача розробки моделей і програмних компонентів для отримання даних з веб-ресурсів певного типу. Розроблено концептуальну модель вилучення даних з урахуванням веб-простору як зовнішнього джерела даних. Була створена специфікація вимог для програмного компонента, що дозволить продовжити роботу над проектом, щоб чітко розуміти вимоги і обмеження для реалізації. При моделюванні програмного забезпечення були розроблені наступні діаграми, такі як діаграми класів, активності, послідовності і розгортання, які потім будуть використовуватися для створення готового додатка. Для подальшої розробки програмного забезпечення була визначена платформа програмування і види тестування (навантажувальний і модульне). Отримані результати дозволяють стверджувати, що пропоноване проектне рішення, яке буде реалізовано у вигляді прототипу програмної системи, може виконувати завдання екстракції даних з різних джерел на основі одного семантичного шаблону.

Ключові слова


information; web search; data extraction; data source; data mining; language standards; informational technology

Повний текст:

PDF (English)

Посилання


Baumgartner R., Gatterbauer W., Gottlob G. Web data extraction system. In Encyclopedia of Database Systems. 2009, pp. 3465–3471.

Anupam V., Freire J., Kumar B., Lieuwen D. Automating web navigation with the WebVCR. Computer Networks. 2000, pp. 503– 517.

Memex (Domain-Specific Search). Available at: www.darpa.mil/program/memex (accessed 02.11.2017).

Gatterbauer W., Bohunsky P., Herzog M., Krüpl B., Pollak B. Towards domain-independent information extraction from web tables. Proceedings of the 16th international conference on World Wide Web (May 08–12, 2007, Banff, Alberta, Canada). New York, ACM, 2007, pp. 71–80.

Bonifati A., Braga D., Campi A, Ceri S. Active XQuery. Proceedings of the 18th International Conference on Data Engineering (26 February – 1 March 2002, San Jose, California). 2002, pp. 129–138.

Bohannon P., Dalvi N., Filmus Y. Automatic web-scale information extraction. Proceedings of the ACM SIGMOD ICMD. 2012, pp. 609–612.

Shen W., AnHai D., Jeffrey F. Naughton, Ramakrishnan R. Declarative information extraction using datalog with embedded extraction predicates. In Proceedings of the 33rd International Conference on Very Large Data Bases. VLDB Endowment, 2007, pp. 1033–1044.

Crescenzi V. RoadRunner. Towards automatic data extraction from large Web sites. Proceedings of the 27th International Conference on Very Large Data Bases. 2001, pp. 109–118.

Agichtein E., Gravano L. Snowball: extracting relations from large plain-text collections. Proceedings of the fifth ACM conference on Digital libraries. 2000, pp. 85–94.

Arasu A., Garcia-Molina H. Extracting Structured Data from Webpages. Proceedings of SIGMOD International Conference on Management of Data (June 9–12, 2003, San Diego, California). ACM, New York, 2003, pp. 337–348.

John T. Van Stan, Aron Stubbins, Tree‐DOM: Dissolved organic matter in throughfall and stemflow. Limnology and Oceanography Letters. 2017, vol. 3, pp. 199–214.

Cunningham H., Tablan V., Roberts A., Bontcheva K. Getting more out of biomedical documents with gate’s full lifecycle open source text analytics. PLoS Comput Biol. 2013, no. 9 (2), pp. 31–47.

Shin J., Wu S., Wang F., Christopher De Sa, Ce Zhang C., Re C. Incremental knowledge base construction using deepdive. VLDB Endowment. 2015, vol. 8, no. 11, pp. 1310–1321.

Khare R, Cutting D., Sitaker K., Rifkin A. Nutch: A Flexible and Scalable Open-Source Web Search Engine. Proceedings of the 14th International Conference on World Wide Web. 2005, vol. 1, p. 32.

Avasarala S. Selenium WebDriver Practical Guide. Pact Publishing, 2014. 266 p.


Пристатейна бібліографія ГОСТ