РОЗРОБКА ТА ПОРІВНЯЛЬНИЙ АНАЛІЗ АЛГОРИТМІВ НАВЧАННЯ З ЧАСТКОВИМ ЗАЛУЧЕННЯМ ВЧИТЕЛЯ НА МАЛIЙ КІЛЬКОСТІ РОЗМІЧЕНИХ ДАНИХ

Автор(и)

  • Клим Ямковий Національний технічний університет «Харківський політехнічний інститут» https://orcid.org/0000-0001-9512-4150

DOI:

https://doi.org/10.20998/2079-0023.2021.01.16

Анотація

Дана робота присвячена розробці та порівняльному аналізу алгоритмів навчання з частковим залученням вчителя, заснованих на поєднанні неконтрольованих та контрольованих підходів до класифікації наборів даних з невеликою кількістю маркованих даних, а саме виявленню, до якої з набору категорій нове спостереження належить за допомогою навчального набору даних, що містить спостереження, приналежність до категорії яких відома. Навчання з частковим залученням вчителя – це підхід до машинного навчання, який поєднує невелику кількість маркованих даних з великою кількістю немаркованих даних під час навчання. Немарковані дані, якщо їх використовувати в поєднанні з невеликою кількістю маркованих даних, можуть значно покращити точність навчання. Метою роботи є розробка та аналіз методів навчання з частковим залученням вчителя, а також порівняння їх точності та надійності на різних наборах штучних даних. Запропонований підхід заснований на методі неконтрольованого навчання K-медоїдів, також відомий як алгоритм Розбиття навколо медоїдів, однак, на відміну від K-медоїдів, запропонований алгоритм спочатку обчислює медоїди, використовуючи лише маркованi дані, а далі обробляє не марковані елементи - призначає мітки найближчих медоїд. Іншим запропонованим підходом є поєднання контрольованого методу K-найближчіх сусідів та неконтрольованого K-середніх. При цьому запропонований алгоритм навчання використовує інформацію як про найближчі точки, так і про класи центрів маси. Методи були реалізовані з використанням мови програмування Python та експериментально досліджені для вирішення проблем класифікації з використанням наборів даних з різними розподілом та просторовими характеристиками. Набори даних були сформовані за допомогою бібліотеки scikit-learn. Було порівняно розроблені підходи за їх середню точність за всіма датасетами. Було показано, що навіть невеликі кількості маркованих даних дозволяють використовувати навчання з частковим залученням вчителя, а запропоновані модифікації забезпечують підвищення точності та роботи алгоритму, що було продемонстровано під час експериментів. І зі збільшенням доступної інформації про ярлики, точність алгоритмів зростає. Таким чином розроблені алгоритми використовують метрику відстані, яка враховує доступну інформацію про ярлик.

Ключові слова: навчання без учителя, навчання з учителем, навчання з частковим залученням вчителя, кластеризація, відстань, функція відстані, найближчий сусід, медоід, центр мас.

Біографія автора

Клим Ямковий, Національний технічний університет «Харківський політехнічний інститут»

магістр, Національний технічний університет «Харківський політехнічний інститут», аспірант кафедри комп’ютерної математики і аналізу даних; м. Харків, Україна; ORCID: https://orcid.org/0000-0001-9512-4150; e-mail: yamkovou@gmail.com

Посилання

Hinton G., Sejnowski T. Unsupervised Learning: Foundations of Neural Computation. MIT Press, 1999. 391 p.

Lyubchyk L. M., Galuza O. A., Grinberg G. M. Semi-supervised Learning to Rank with Nonlinear Preference. Recent Developments in Fuzzy Logic and Fuzzy Sets. Studies in Fuzziness and Soft Computing. Lviv, Springer, 2019, vol. 391, pp. 81–103.

Basu S., Bilenko M., Banerjee A., Mooney. R. J. Probabilistic semisupervised clustering with constraints. MIT Press, 2006, pp. 73–102.

Jesper E., Holger H. A survey on semi-supervised learning. Available at: https://doi.org/10.1007/s10994-019-05855-6.

Bair E. Semi-supervised clustering. Available at: https://arxiv.org/pdf/1307.0252.pdf.

Kaufman, L., Rousseeuw P. J. Finding groups in data: an introduction to cluster analysis. New York, Wiley, 1990. 342 p.

Cover T., Hart P. Nearest neighbor pattern classification. IEEE Transactions on Information Theory. 1967, vol. 13, no. 1, pp. 21–27.

Huang T., Kecman V., Kopriva I. Kernel Based Algorithms for Mining Huge Data. New York, Springer, 2006. 208 p.

Vapnik V. N. Statistical Learning Theory. New York, Wiley, 1998. 768 p.

Wang J., Shen X., Pan W. Transductive Support Vector Machines, Contemporary Mathematics. 2007, vol. 443, pp. 7–19.

Rossum G. Python programming language. Available at: http://www.python.org.

Cournapeau D. Scikit-learn. machine learning library for the Python programming language. Available at: https://scikit-learn.org/stable/.

##submission.downloads##

Опубліковано

2021-07-12

Номер

Розділ

ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ