ПОРІВНЯННЯ МЕТОДІВ СЕГМЕНТАЦІЇ ТЕМ ЗА ТЕКСТАМИ З КОМП’ЮТЕРНИХ НАУК
DOI:
https://doi.org/10.20998/2079-0023.2021.02.10Ключові слова:
сегментація тем, TextTiling, TextSeg, Inspec, IT-компанії, тексти з комп’ютерних наукАнотація
Попит на створення інформаційних систем, що спрощують і прискорюють роботу, значно зріс в умовах стрімкої інформатизації суспільства
та всіх сфер діяльності. Це пов’язано з появою все більшої кількості компаній, що займаються розробкою програмних продуктів та
інформаційних систем в цілому. З метою забезпечення систематизації, обробки та використання цих знань використовуються системи
управління знаннями. Одним з головних завдань IT-компаній є постійне навчання персоналу. Для цього потрібно експортувати контент із
системи управління знаннями компанії в систему управління навчанням. Основною метою дослідження є вибір алгоритму, який дозволяє
вирішити задачу розмітки тексту статей, близьких до тих, що використовуються в системах управління знаннями ІТ-компаній. Для
досягнення цієї мети необхідно порівняти різні методи сегментації тем на наборі даних з текстами з комп’ютерних наук. Inspec є одним із
таких наборів даних, які використовуються для виділення ключових слів, і у цьому дослідженні він був адаптований до структури наборів
даних, які використовуються для проблеми сегментації тем. Методи TextTiling і TextSeg були використані для порівняння деяких добре
відомих показників науки про дані та конкретних показників, які стосуються проблеми сегментації тем. Також була введена нова
узагальнена метрика для порівняння результатів для задачі сегментації тем. Усі програмні реалізації алгоритмів написані мовою
програмування Python і представляють собою набір взаємопов’язаних функцій. Отримано результати, що демонструють переваги методу
Text Seg у порівнянні з TextTiling з використанням класичних метрик науки про дані та спеціальних метрик, розроблених для завдання
сегментації тем. З усіх метрик, включаючи введену, можна зробити висновок, що алгоритм TextSeg працює краще, ніж алгоритм TextTiling
на адаптованому наборі тестових даних Inspec.
Посилання
Purver M. Topic Segmentation. Spoken Language Understanding. John Wiley & Sons, Ltd, Chichester, UK, 2011, pp. 291–317.
Hearst M. A. TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages. Computational Linguistics. 1997. no 23 (1). pp. 33–64.
Galley M., McKeown K., Fosler-Lussier E., Jing H. Discourse segmentation of multi-party conversation. Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL), 2003. pp. 562–569.
Georgescul M, Clark A and Armstrong S. Word distributions for thematic segmentation in a support vector machine approach. Proceedings of the 10th Conference on Computational Natural Language Learning (CoNLLX). New York City, New York, 2006. pp. 101–108.
Reynar J. An automatic method of finding topic boundaries. Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics (ACL). Association for Computational Linguistics, LasCruces, NM. 1994. pp. 331–333.
Mulbregt P. V., Carp I., Gillick L., Lowe S., Yamron J. Segmentation of automatically transcribed broadcast news text. Proceedings of the DARPA Broadcast News Workshop. Morgan Kaufmann. 1999. pp. 77–80.
Yamron J., Carp I., Gillick L., Lowe S., van Mulbregt P. A hidden Markov model approach to text segmentation and event tracking. Proceedings of the IEEE Conference on Acoustics, Speech, and Signal Processing. 1998. pp. 333–336.
Blei D., Moreno P. Topic segmentation with an aspect hidden Markov model. Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2001. pp. 343–348.
Utiyama M., Isahara H. A Statistical Model for Domain-Independent Text Segmentation. Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics. 2001. pp. 499–506.
Eisenstein J., Barzilay R. Bayesian unsupervised topic segmentation Proceedings of the 2008 Conferenceon Empirical Methods in Natural Language Processing, Association for Computational Linguistics,Honolulu, Hawaii. 2008. pp. 334–343.
Beeferman D, Berger A., Lafferty JD. Statistical models for text segmentation. Machine Learning. 1999. no 34(1–3). pp. 177–210.
Pevzner L and Hearst M. A critique and improvement of an evaluation metric for text segmentation. Computational Linguistics. 2002. no 28 (1). pp. 19–36.
Choi F. Advances in Domain Independent Linear Text Segmentation Proceedings of 1st Meeting of the North American Chapter of the Association for Computational Linguistics, 2000. pp. 26–33.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
ЛіцензіяАвтори, які публікуються у цьому журналі, погоджуються з наступними умовами:
- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).