РОЗРОБКА ТА ПОРІВНЯЛЬНИЙ АНАЛІЗ АЛГОРИТМІВ НАВЧАННЯ З ЧАСТКОВИМ ЗАЛУЧЕННЯМ ВЧИТЕЛЯ НА МАЛIЙ КІЛЬКОСТІ РОЗМІЧЕНИХ ДАНИХ
DOI:
https://doi.org/10.20998/2079-0023.2021.01.16Анотація
Дана робота присвячена розробці та порівняльному аналізу алгоритмів навчання з частковим залученням вчителя, заснованих на поєднанні неконтрольованих та контрольованих підходів до класифікації наборів даних з невеликою кількістю маркованих даних, а саме виявленню, до якої з набору категорій нове спостереження належить за допомогою навчального набору даних, що містить спостереження, приналежність до категорії яких відома. Навчання з частковим залученням вчителя – це підхід до машинного навчання, який поєднує невелику кількість маркованих даних з великою кількістю немаркованих даних під час навчання. Немарковані дані, якщо їх використовувати в поєднанні з невеликою кількістю маркованих даних, можуть значно покращити точність навчання. Метою роботи є розробка та аналіз методів навчання з частковим залученням вчителя, а також порівняння їх точності та надійності на різних наборах штучних даних. Запропонований підхід заснований на методі неконтрольованого навчання K-медоїдів, також відомий як алгоритм Розбиття навколо медоїдів, однак, на відміну від K-медоїдів, запропонований алгоритм спочатку обчислює медоїди, використовуючи лише маркованi дані, а далі обробляє не марковані елементи - призначає мітки найближчих медоїд. Іншим запропонованим підходом є поєднання контрольованого методу K-найближчіх сусідів та неконтрольованого K-середніх. При цьому запропонований алгоритм навчання використовує інформацію як про найближчі точки, так і про класи центрів маси. Методи були реалізовані з використанням мови програмування Python та експериментально досліджені для вирішення проблем класифікації з використанням наборів даних з різними розподілом та просторовими характеристиками. Набори даних були сформовані за допомогою бібліотеки scikit-learn. Було порівняно розроблені підходи за їх середню точність за всіма датасетами. Було показано, що навіть невеликі кількості маркованих даних дозволяють використовувати навчання з частковим залученням вчителя, а запропоновані модифікації забезпечують підвищення точності та роботи алгоритму, що було продемонстровано під час експериментів. І зі збільшенням доступної інформації про ярлики, точність алгоритмів зростає. Таким чином розроблені алгоритми використовують метрику відстані, яка враховує доступну інформацію про ярлик.
Ключові слова: навчання без учителя, навчання з учителем, навчання з частковим залученням вчителя, кластеризація, відстань, функція відстані, найближчий сусід, медоід, центр мас.
Посилання
Hinton G., Sejnowski T. Unsupervised Learning: Foundations of Neural Computation. MIT Press, 1999. 391 p.
Lyubchyk L. M., Galuza O. A., Grinberg G. M. Semi-supervised Learning to Rank with Nonlinear Preference. Recent Developments in Fuzzy Logic and Fuzzy Sets. Studies in Fuzziness and Soft Computing. Lviv, Springer, 2019, vol. 391, pp. 81–103.
Basu S., Bilenko M., Banerjee A., Mooney. R. J. Probabilistic semisupervised clustering with constraints. MIT Press, 2006, pp. 73–102.
Jesper E., Holger H. A survey on semi-supervised learning. Available at: https://doi.org/10.1007/s10994-019-05855-6.
Bair E. Semi-supervised clustering. Available at: https://arxiv.org/pdf/1307.0252.pdf.
Kaufman, L., Rousseeuw P. J. Finding groups in data: an introduction to cluster analysis. New York, Wiley, 1990. 342 p.
Cover T., Hart P. Nearest neighbor pattern classification. IEEE Transactions on Information Theory. 1967, vol. 13, no. 1, pp. 21–27.
Huang T., Kecman V., Kopriva I. Kernel Based Algorithms for Mining Huge Data. New York, Springer, 2006. 208 p.
Vapnik V. N. Statistical Learning Theory. New York, Wiley, 1998. 768 p.
Wang J., Shen X., Pan W. Transductive Support Vector Machines, Contemporary Mathematics. 2007, vol. 443, pp. 7–19.
Rossum G. Python programming language. Available at: http://www.python.org.
Cournapeau D. Scikit-learn. machine learning library for the Python programming language. Available at: https://scikit-learn.org/stable/.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
ЛіцензіяАвтори, які публікуються у цьому журналі, погоджуються з наступними умовами:
- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).