ТЕХНОЛОГІЯ ВИЗНАЧЕННЯ ІНФОРМАЦІЙНОГО ПОРЯДКУ ДЕННОГО В ПОТОКАХ НОВИННИХ ДАНИХ

Автор(и)

  • Світлана Петрасова Національний технічний університет «Харківський політехнічний інститут» https://orcid.org/0000-0001-6011-135X
  • Ніна Хайрова Національний технічний університет «Харківський політехнічний інститут» https://orcid.org/0000-0002-9826-0286
  • Анастасія Колесник Національний технічний університет «Харківський політехнічний інститут» https://orcid.org/0000-0001-5817-0844

DOI:

https://doi.org/10.20998/2079-0023.2021.01.14

Анотація

З кожним днем обсяг потоків новинних даних зростає, що збільшує інтерес до систем, які дозволяють автоматизувати обробку великих потоків даних. Визначення смислової подібності текстової інформації на основі використання інтелектуальних засобів обробки даних дозволить виділяти спільні інформаційні простори новин. У статті проаналізовані сучасні статистичні метрики для визначення зв’язних фрагментів, зокрема, новинних текстів, що відображають порядок денний (agenda), вказані основні переваги та недоліки. Пропонується інформаційна технологія виявлення спільного інформаційного простору актуальних новин в потоці даних за певний період часу. Технологія включає логіколінгвістичну і дистрибутивно-статистичну модель ідентифікації колокацій. Модель дистрибутивної семантики МІ застосовується на етапі вилучення потенційних колокацій. При цьому регулярні вирази, розроблені відповідно до граматики англійської мови, дозволяють виявляти граматично правильні конструкції. Перевагою розробленої логіко-лінгвістичної моделі формалізації семантико-граматичних характеристик колокацій на основі використання алгебро-предикатних операцій і предиката семантичної еквівалентності, є врахування аналізу як граматичної структури мови, так і смислу слів (колокатів). Тезаурус WordNet застосовується на етапі визначення відношення синонімії між головними і залежними компонентами колокацій. На основі досліджуваного корпусу новинних текстів служб CNN і BBC проведена оцінка ефективності розробленої технології. Аналіз показав, що коефіцієнт точності precision дорівнює 0,96. Застосування запропонованої технології дозволить поліпшити якість обробки потоків новинних повідомлень. Вирішення завдання автоматичного визначення смислової близькості може застосовуватися при виявленні текстів однієї тематики, актуальної інформації, добуванні фактів і усунення смислової неоднозначності та ін.

Ключові слова: потік даних, порядок денний, логіко-лінгвістична модель, дистрибутивно-статистична модель, колокація, смислова близькість, WordNet, корпус новинних текстів, precision.

Біографії авторів

Світлана Петрасова, Національний технічний університет «Харківський політехнічний інститут»

кандидат технічних наук, доцент, Національний технічний університет «Харківський політехнічний інститут», доцент кафедри інтелектуальних комп’ютерних систем; м. Харків, Україна; ORCID: https://orcid.org/ 0000-0001-6011-135X; e-mail: svetapetrasova@gmail.com.

Ніна Хайрова, Національний технічний університет «Харківський політехнічний інститут»

доктор технічних наук, професор, Національний технічний університет «Харківський політехнічний інститут», професор кафедри інтелектуальних комп’ютерних систем; м. Харків, Україна; ORCID: https://orcid.org/0000-0002-9826-0286; e-mail: nina_khajrova@yahoo.com.

Анастасія Колесник, Національний технічний університет «Харківський політехнічний інститут»

Національний технічний університет «Харківський політехнічний інститут», аспірантка кафедри інтелектуальних комп’ютерних систем; м. Харків, Україна; ORCID: https://orcid.org/0000-0001-5817-0844; e-mail: kolesniknastya20@gmail.com.

Посилання

Kaminchenko D.I. Informacionnaja povestka dnja sovremennyh setevyh SMI: politicheskij aspekt [Information Agenda of Modern Online Media: Political Aspect]. Via in tempore. Istorija. Politologija [Via in tempore. History. Political science]. 2019, vol. 46, no. 3, pp. 576–584

Adams A., Harf A., Ford R. Agenda Setting Theory: A Critique of Maxwell McCombs & Donald Shaw’s Theory In Em Griffin’s A First Look at Communication Theory. Meta-communicate. 2014, vol. 4, no. 1. URI: https://journals.chapman.edu/ojs/index.php/mc/ article/view/902 (accessed 23.04.2021).

Lenci A. Distributional Models of Word Meaning. Annual Review of Linguistics. 2018, vol. 4, pp. 151–171. URI: https://www.annualreviews.org/doi/pdf/10.1146/annurev-linguistics030514-125254

Dinu A., Dinu L., Sorodoc I. Aggregation methods for efficient collocation detection. Proceedings of the Ninth International Conference on Language Resources and Evaluation. 2014, pp. 4041– 4045. URI: http://www.lrec-conf.org/proceedings/ lrec2014/pdf/ 1184_Paper.pdf (accessed 23.04.2021).

Hohlova M.V. Sopostavitel'nyj analiz statisticheskih mer na primere chasterechnyh preferencіj sochetaemosti sushhestvitel'nyh [Comparative Analysis of Statistical Measures on the Example of Part-of-Speech Preferences for Combining Nouns]. Komp'juternaja lingvistika i vychislitel'nye ontologii [Computational linguistics and computational ontologies]. 2017, issue 1, pp. 166–171.

Liu X., Huang D., Yin Zh., Ren F. Recognition of Collocation Frames from Sentences. IEICE Trans. Inf. Syst. 2019, 102-D, pp. 620-627. URI: https://doi.org/10.1587/TRANSINF.2018EDP7255

Hohlova M.V. K voprosu o shodstve mer associacii primenitel'no k zadache avtomaticheskogo izvlechenija glagol'nyh kollokacij [To the Question of The Similarity of Association Measures Applied to the Problem of Automatic Extraction of Verb Collocations]. Komp'juternaja lingvistika i vychislitel'nye ontologii [Computational linguistics and computational ontologies]. 2019, issue 3, pp. 9–18.

Petrasova S., Khairova N., Lewoniewski W., Mamyrbayev O., Mukhsina K. Similar Text Fragments Extraction for Identifying Common Wikipedia Communities. Data. Stream Mining and Processing. 2018, vol. 3, issue 4, article 66. URI: https://doi.org/10.3390/data3040066 (accessed 23.04.2021).

Bondarenko M., Shabanov-Kushnarenko Yu. Teorija intellekta [The Theoryof Intelligence]. Kharkiv, SMIT Publ., 2007. 576 p.

BBC. URI: https://www.bbc.com/news (accessed 23.04.2021).

CNN. URI: https://edition.cnn.com (accessed 23.04.2021).

Bobkova T. V. Osnovnі pіdhody do іdentifіkatsii i vyluchennia kolokatsiy іz tekstіv [Basic approaches to identification and extraction of collocations from texts]. Naukovі pratsі. Fіlologіa. Movoznavstvo [Scientific works. Philology. Linguistics]. 2015, no. 241 (253), pp. 10–16. URI: http://linguistics.chdu.edu.ua/ article/viewFile/87653/83242/ (accessed 23.04.2021).

Sketch Engine. URI: https://www.sketchengine.eu (accessed 23.04.2021).

##submission.downloads##

Опубліковано

2021-07-12

Номер

Розділ

ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ