DOI: https://doi.org/10.20998/2079-0023.2019.02.13

ОЦІНКА ЕФЕКТИВНОСТІ МЕТОДІВ СЕНТИМЕНТ-АНАЛІЗУ ПОВІДОМЛЕНЬ СОЦІАЛЬНИХ МЕРЕЖ

Natalia Volodymyrivna Borysova, Karina Volodymyrivna Melnyk

Анотація


У роботі представлено результати оцінки ефективності методів машинного навчання для сентимент-аналізу повідомлень соціальних мереж. Обґрунтовано актуальність задачі сентимент-аналізу як однієї з важливих задач обробки природної мови взагалі та обробки текстової інформації зокрема. Проведено огляд існуючих методів сентимент-аналізу та програмних продуктів, що вирішують цю задачу. Обґрунтовано вибір класифікаторів для сентимент-аналізу текстів у межах дослідження. Описано принципи роботи наївного байєсівського класифікатора та класифікатора на основі рекурентної нейронної мережі. Класифікатори було послідовно навчено на двох корпусах: спочатку на корпусі RuTweetCorp – корпусі коротких повідомлень соціальної мережі Twitter, а потім на корпусі Slang corpus – корпусі повідомлень соціальних мереж Facebook та Instagram і постів з сайту Pikabu, у якому розмічено тональність сленгових слів. Інформацію про тональність сленгових слів було взято із словника молодіжного сленгу, отриманого у результаті опитування користувачів. Розподіл текстів за тональністю здійснювався на три класи: позитивні, негативні й нейтральні. Проведено оцінку ефективності роботи цих класифікаторів. Оцінка ефективності здійснювалась за стандартними метриками Recall, Precision, F-measure, Accuracy. Для наївного байєсівського класифікатора після навчання на першому корпусі були отримані наступні значення метрик: Recall = 0,853; Precision = 0,869; F-measure = 0,861; Accuracy = 0,855; а після навчання на другому корпусі такі значення: Recall = 0,948; Precision = 0,975; F-measure = 0,961; Accuracy = 0,960. Для класифікатора на основі рекурентної нейронної мережі після навчання на першому корпусі були отримані наступні значення метрик: Recall = 0,870; Precision = 0,878; F-measure = 0,874; Accuracy = 0,861; а після навчання на другому корпусі такі значення: Recall = 0,965; Precision = 0,982; F-measure = 0,973; Accuracy = 0,973 Отримані результати довели, що додаткове навчання на другому корпусі підвищило ефективність роботи класифікаторів на 10–11%.


Ключові слова


сентимент-аналіз; аналіз повідомлень соціальних мереж; машинне навчання; класифікація текстів; наївний байєсівський класифікатор; рекурентна нейронна мережа; оцінка ефективності

Повний текст:

PDF (English)

Посилання


Ameur H., Jamoussi S., Hamadou A.B. A New Method for Sentiment Analysis Using Contextual Auto-Encoders. Journal of Computer Science and Technology. 2018, vol. 33, issue 6, pp. 1307–1319. DOI: https://doi.org/10.1007/s11390-018-1889-1.

Eureka Engine. Available at: http://eurckacngine.ru/ru/description (accessed 15.09.2019).

Huang M., Zhuang F., Zhang X. et al. Supervised representation learning for multi-label classification. Machine Learning. 2019, vol. 108, issue 5, pp. 747–763. DOI: https://doi.org/10.1007/ s10994-019-05783-5.

Jeffrey L. Elman. Finding Structure in Time. Cognitive Science. 1990, vol. 14, issue 2, pp. 179–211.

Melnyk K. V., Borysova N. V. Improving the quality of credit activity by using scoring model. Radio Electronics, Computer Science, Control. 2019, vol. 2, pp. 60–70. DOI 10.15588/1607-3274-2019-2-7 . e-ISSN 1607-3274.

Mikolov T., Karafiat M., Burget L., Cernocky J., Khudanpur S. Recurrent neural network based language model. Proceedings 11th Annual Conference of the International Speech Communication Association (INTERSPEECH 2010). Makuhari, Chiba, Japan, 2010, рp. 1045–1048.

Nguyen-Trang T., Vo-Van T. A new approach for determining the prior probabilities in the classification problem by Bayesian method. Advances in Data Analysis and Classification. 2017, volume 11, issue 3, pp. 629–643. DOI: https://doi.org/10.1007/s11634-016-0253-y.

Pang B., Lee L., Vaithyanathan Sh. Thumbs up?: sentiment classification using machine learning techniques. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP’02), Association for Computational Linguistics. Vol. 10. 2002, pp. 79–86. DOI: https://doi.org/10.3115/1118693. 1118704.

Rahimi Z., Noferesti S., Shamsfard M. Applying data mining and machine learning techniques for sentiment shifter identification. Language Resources and Evaluation, 2019, vol. 53, issue 2, pp. 279–302. DOI: https://doi.org/10.1007/s10579-018-9432-0 .

RCO Fact Extractor SDK. Available at: http://www.rco.ru/ ?page_id=3554. (accessed 15.09.2019).

Rubtsova Y. Automatic Term Extraction for Sentiment Classification of Dynamically Updated Text Collections into Three Classes. Proceedings of International Conference on Knowledge Engineering and the Semantic Web (KESW 2014), Communications in Computer and Information Science. Vol. 468. Pp. 140–149. DOI: https://doi.org/10.1007/978-3-319-11716-4_12.

SentiStrength – sentiment strength detection in short texts. Available at: http://sentistrength.wlv.ac.uk/#About (accessed 15.09.2019).

System «Analytical Courier». Available at: http://www.iteco.ru/ solutions/business_intclligence_products/analytical_courier (accessed 15.09.2019).

VAAL project. Available at: http://www.vaal.ru (accessed 15.09.2019).

Wu L., Morstatter F., Liu H. SlangSD: building, expanding and using a sentiment dictionary of slang words for short-text sentiment classification. Language Resources and Evaluation. 2018, vol. 52, issue 3, pp. 839–852. DOI: https://doi.org/10.1007/ s10579-018-9416-0.

Borysova N. V, Niftilin V. V. Avtomatyzovane stvorennia elektronnogo slovnyka [Automated creation of electronic dictionary]. Informaciyni technologii: nauka, technika, technologiia, osvita, zdorov’ia: tezy dopovidei ХXV Mizhnarodnoi naukovo-practychnoi konferencii MicroCAD-2017. Ch. I [Proceedings of XXV International scientific-practical conference in Information technologies: science, engineering, technology, education, health MicroCAD-2017. Part I.]. Kharkiv: NTU "KhPI", 2017, p. 32.

Borysova N. V, Niftilin V. V. Zastosuvaniia metodiv korpusnoi lingvistiki dlia doslidzhennia osoblyvostei vykorystannia suchasnogo molodizhnogo slengu [Using of corpus linguistics methods to study the features of using modern youth slang]. Informaciyni technologii: nauka, technika, technologiia, osvita, zdorov’ia: tezy dopovidei ХXV Mizhnarodnoi naukovo-practychnoi konferencii MicroCAD-2018. Ch. I [Proceedings of XXV International scientific-practical conference in Information technologies: science, engineering, technology, education, health MicroCAD-2018. Part I.]. Kharkiv: NTU "KhPI", 2018, p. 27.

Korpus korotkih tekstov RuTweetCorp [Short texts corpus RuTweetCorp]. Available at: http://study.mokoron.com (accessed 15.09.2019).

Romanov A. V., Vasilieva M. I., Kurtukova A. V., Meshcheriakov R. V. Analiz tonalnosti tekstov s ispolzovaniem metodov mashinnogo obucheniia [Sentiment Analysis of Text Using Machine Learning Techniques]. Proceedings of the R. Piotrowski’s Readings in Language Engineering and Applied Linguistics. CEUR Workshop Proceedings. Vol.-2233. Saint Petersburg, Russia, 2017, pp. 86–95.

Rubtsova Yu. V. Postroenie korpusa tekstov dlia nastroyki tonovogo klassifikatora [Constructing a corpus for sentiment classification training]. Programnye produkty i sistemy [Program products and systems]. 2015, no. 1 (109), pp. 72–78. DOI: 10.15827/0236-235X.109.072-078.