TY - JOUR AU - Сокол, Володимир AU - Крикун, Віталій AU - Білова, Марія AU - Перепелиця, Іван AU - Пустоваров, Володимир AU - Пустоваров, Володимир PY - 2021/12/28 Y2 - 2024/03/29 TI - ПОРІВНЯННЯ МЕТОДІВ СЕГМЕНТАЦІЇ ТЕМ ЗА ТЕКСТАМИ З КОМП’ЮТЕРНИХ НАУК JF - Вісник Національного технічного університету «ХПІ». Серія: Системний аналiз, управління та iнформацiйнi технологiї JA - САУІТ VL - IS - 2 (6) SE - ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ DO - 10.20998/2079-0023.2021.02.10 UR - http://samit.khpi.edu.ua/article/view/249465 SP - 59-66 AB - <p>Попит на створення інформаційних систем, що спрощують і прискорюють роботу, значно зріс в умовах стрімкої інформатизації суспільства<br>та всіх сфер діяльності. Це пов’язано з появою все більшої кількості компаній, що займаються розробкою програмних продуктів та<br>інформаційних систем в цілому. З метою забезпечення систематизації, обробки та використання цих знань використовуються системи<br>управління знаннями. Одним з головних завдань IT-компаній є постійне навчання персоналу. Для цього потрібно експортувати контент із<br>системи управління знаннями компанії в систему управління навчанням. Основною метою дослідження є вибір алгоритму, який дозволяє<br>вирішити задачу розмітки тексту статей, близьких до тих, що використовуються в системах управління знаннями ІТ-компаній. Для<br>досягнення цієї мети необхідно порівняти різні методи сегментації тем на наборі даних з текстами з комп’ютерних наук. Inspec є одним із<br>таких наборів даних, які використовуються для виділення ключових слів, і у цьому дослідженні він був адаптований до структури наборів<br>даних, які використовуються для проблеми сегментації тем. Методи TextTiling і TextSeg були використані для порівняння деяких добре<br>відомих показників науки про дані та конкретних показників, які стосуються проблеми сегментації тем. Також була введена нова<br>узагальнена метрика для порівняння результатів для задачі сегментації тем. Усі програмні реалізації алгоритмів написані мовою<br>програмування Python і представляють собою набір взаємопов’язаних функцій. Отримано результати, що демонструють переваги методу<br>Text Seg у порівнянні з TextTiling з використанням класичних метрик науки про дані та спеціальних метрик, розроблених для завдання<br>сегментації тем. З усіх метрик, включаючи введену, можна зробити висновок, що алгоритм TextSeg працює краще, ніж алгоритм TextTiling<br>на адаптованому наборі тестових даних Inspec.</p> ER -