ПОРІВНЯННЯ МЕТОДІВ СЕГМЕНТАЦІЇ ТЕМ ЗА ТЕКСТАМИ З КОМП’ЮТЕРНИХ НАУК

Автор(и)

  • Володимир Сокол Національний технічний університет «Харківський політехнічний інститут», Ukraine https://orcid.org/0000-0002-4689-3356
  • Віталій Крикун Національний технічний університет «Харківський політехнічний інститут», Ukraine https://orcid.org/0000-0003-2576-1001
  • Марія Білова Національний технічний університет «Харківський політехнічний інститут», Ukraine https://orcid.org/0000-0001-7002-4698
  • Іван Перепелиця Національний технічний університет «Харківський політехнічний інститут», Ukraine https://orcid.org/0000-0001-7683-8780
  • Володимир Пустоваров Харківське представництво генерального Замовника - Державного космічного агентства України, Ukraine https://orcid.org/0000-0003-3944-5771
  • Володимир Пустоваров Харківське представництво генерального Замовника - Державного космічного агентства України, Ukraine https://orcid.org/0000-0003-3944-5771

DOI:

https://doi.org/10.20998/2079-0023.2021.02.10

Ключові слова:

сегментація тем, TextTiling, TextSeg, Inspec, IT-компанії, тексти з комп’ютерних наук

Анотація

Попит на створення інформаційних систем, що спрощують і прискорюють роботу, значно зріс в умовах стрімкої інформатизації суспільства
та всіх сфер діяльності. Це пов’язано з появою все більшої кількості компаній, що займаються розробкою програмних продуктів та
інформаційних систем в цілому. З метою забезпечення систематизації, обробки та використання цих знань використовуються системи
управління знаннями. Одним з головних завдань IT-компаній є постійне навчання персоналу. Для цього потрібно експортувати контент із
системи управління знаннями компанії в систему управління навчанням. Основною метою дослідження є вибір алгоритму, який дозволяє
вирішити задачу розмітки тексту статей, близьких до тих, що використовуються в системах управління знаннями ІТ-компаній. Для
досягнення цієї мети необхідно порівняти різні методи сегментації тем на наборі даних з текстами з комп’ютерних наук. Inspec є одним із
таких наборів даних, які використовуються для виділення ключових слів, і у цьому дослідженні він був адаптований до структури наборів
даних, які використовуються для проблеми сегментації тем. Методи TextTiling і TextSeg були використані для порівняння деяких добре
відомих показників науки про дані та конкретних показників, які стосуються проблеми сегментації тем. Також була введена нова
узагальнена метрика для порівняння результатів для задачі сегментації тем. Усі програмні реалізації алгоритмів написані мовою
програмування Python і представляють собою набір взаємопов’язаних функцій. Отримано результати, що демонструють переваги методу
Text Seg у порівнянні з TextTiling з використанням класичних метрик науки про дані та спеціальних метрик, розроблених для завдання
сегментації тем. З усіх метрик, включаючи введену, можна зробити висновок, що алгоритм TextSeg працює краще, ніж алгоритм TextTiling
на адаптованому наборі тестових даних Inspec.

Біографії авторів

Володимир Сокол, Національний технічний університет «Харківський політехнічний інститут»

кандидат технічних наук, доцент, Національний технічний університет «Харківський політехнічний інститут», доцент кафедри програмної інженерії та інформаційних технологій управління; м. Харків, Україна

Віталій Крикун, Національний технічний університет «Харківський політехнічний інститут»

Національний технічний університет «Харківський політехнічний інститут», студент; м. Харків, Україна

Марія Білова, Національний технічний університет «Харківський політехнічний інститут»

кандидат технічних наук, Національний технічний університет «Харківський політехнічний інститут», доцент кафедри програмної інженерії та інформаційних технологій управління; м. Харків, Україна

Іван Перепелиця, Національний технічний університет «Харківський політехнічний інститут»

кандидат технічних наук, Національний технічний університет «Харківський політехнічний інститут», доцент кафедри програмної інженерії та інформаційних технологій управління; м. Харків, Україна

Володимир Пустоваров, Харківське представництво генерального Замовника - Державного космічного агентства України

кандидат технічних наук, начальник групи, Харківське представництво генерального Замовника - Державного космічного агентства України; м. Харків, Україна

Володимир Пустоваров, Харківське представництво генерального Замовника - Державного космічного агентства України

кандидат технічних наук, начальник групи, Харківське представництво генерального Замовника - Державного космічного агентства України; м. Харків, Україна

Посилання

Purver M. Topic Segmentation. Spoken Language Understanding. John Wiley & Sons, Ltd, Chichester, UK, 2011, pp. 291–317.

Hearst M. A. TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages. Computational Linguistics. 1997. no 23 (1). pp. 33–64.

Galley M., McKeown K., Fosler-Lussier E., Jing H. Discourse segmentation of multi-party conversation. Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL), 2003. pp. 562–569.

Georgescul M, Clark A and Armstrong S. Word distributions for thematic segmentation in a support vector machine approach. Proceedings of the 10th Conference on Computational Natural Language Learning (CoNLLX). New York City, New York, 2006. pp. 101–108.

Reynar J. An automatic method of finding topic boundaries. Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics (ACL). Association for Computational Linguistics, LasCruces, NM. 1994. pp. 331–333.

Mulbregt P. V., Carp I., Gillick L., Lowe S., Yamron J. Segmentation of automatically transcribed broadcast news text. Proceedings of the DARPA Broadcast News Workshop. Morgan Kaufmann. 1999. pp. 77–80.

Yamron J., Carp I., Gillick L., Lowe S., van Mulbregt P. A hidden Markov model approach to text segmentation and event tracking. Proceedings of the IEEE Conference on Acoustics, Speech, and Signal Processing. 1998. pp. 333–336.

Blei D., Moreno P. Topic segmentation with an aspect hidden Markov model. Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2001. pp. 343–348.

Utiyama M., Isahara H. A Statistical Model for Domain-Independent Text Segmentation. Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics. 2001. pp. 499–506.

Eisenstein J., Barzilay R. Bayesian unsupervised topic segmentation Proceedings of the 2008 Conferenceon Empirical Methods in Natural Language Processing, Association for Computational Linguistics,Honolulu, Hawaii. 2008. pp. 334–343.

Beeferman D, Berger A., Lafferty JD. Statistical models for text segmentation. Machine Learning. 1999. no 34(1–3). pp. 177–210.

Pevzner L and Hearst M. A critique and improvement of an evaluation metric for text segmentation. Computational Linguistics. 2002. no 28 (1). pp. 19–36.

Choi F. Advances in Domain Independent Linear Text Segmentation Proceedings of 1st Meeting of the North American Chapter of the Association for Computational Linguistics, 2000. pp. 26–33.

##submission.downloads##

Опубліковано

2021-12-28

Як цитувати

Сокол, В., Крикун, В., Білова, М., Перепелиця, І., Пустоваров, В., & Пустоваров, В. (2021). ПОРІВНЯННЯ МЕТОДІВ СЕГМЕНТАЦІЇ ТЕМ ЗА ТЕКСТАМИ З КОМП’ЮТЕРНИХ НАУК. Вісник Національного технічного університету «ХПІ». Серія: Системний аналiз, управління та iнформацiйнi технологiї, (2 (6), 59–66. https://doi.org/10.20998/2079-0023.2021.02.10

Номер

Розділ

ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ