АДАПТАЦІЯ МОДЕЛІ LAMBDAMART ДО НАПІВКОНТРОЛЬОВАНОГО НАВЧАННЯ

Автор(и)

  • Клим Ямковий Національний технічний університет «Харківський політехнічний інститут», Україна https://orcid.org/0000-0001-9512-4150

DOI:

https://doi.org/10.20998/2079-0023.2023.01.12

Ключові слова:

навчання ранжуванню, пошук інформації, напівавтоматичне навчання, попарне ранжування, LambdaMART, псевдомаркування, NDCG

Анотація

Проблема пошуку інформації дуже поширена в епоху Інтернету та великих даних. Зазвичай існують величезні колекції документів, і лише кілька відсотків з них є актуальними. У цьому налаштуванні методи перебору неефективні. Пошукові системи допомагають вирішити цю проблему оптимальним способом. Більшість пошукових двигунів засновані на методах навчання ранжируванню. тобто спочатку алгоритм видає оцінки документам на основі їх ознак, а потім сортує їх відповідно до цих оцінок у відповідному порядку. Існує багато алгоритмів у цій галузі, але одним із найшвидших і надійних алгоритмів ранжирування є LambdaMART. Цей алгоритм заснований на бустінгу та розроблений лише для навчання з вчителем, де кожен документ у колекції має ранг, оцінений експертом. Але зазвичай у цій сфері колекції містять масу документів, і їх анотація вимагає багато ресурсів, як-от часу, грошей, експертів тощо. У цьому випадку напівавтоматичне навчання є потужним підходом. Напівавтоматичне навчання – це підхід у машинному навчанні, який поєднує невелику кількість позначених даних із великою кількістю не позначених даних під час навчання. Дані без міток у поєднанні з невеликою кількістю мічених даних можуть значно підвищити точність навчання. Ця стаття присвячена адаптації LambdaMART до напівавтоматичного навчання. Автор пропонує додавати різні ваги для розмічених і нерозмічених документів під час процедури навчання, щоб досягти більшу надійність і точність. Запропонований алгоритм було реалізовано з використанням мови програмування Python та фреймворку lightGBM, який уже має реалізацію LambdaMART для навчання з вчителем. Для цілей тестування було використано кілька наборів даних. Один синтетичний 2D-набір даних для візуального пояснення результатів і два реальних набори даних MSLR-WEB10K від Microsoft і Yahoo LTRC.

Біографія автора

Клим Ямковий, Національний технічний університет «Харківський політехнічний інститут»

National Technical University "Kharkiv Polytechnic Institute", Assistant Professor of Computer Mathematics and Data Analysis Department, Kharkiv, Ukraine

Посилання

Burges C. J. C., Svore K. M., Wu Q., Gao J. Ranking, boosting and model adaptation. Available at: https://www.microsoft.com/en-us/research/publication/ranking-boosting-and-model-adaptation/ (accessed 07.04.2023).

Chang Y., Chapelle O. Yahoo! Learning to Rank Challenge Overview. JMLR: Workshop and Conference Proceedings 14. 2011, pp. 1–24.

Xu H., Li H. AdaRank: A Boosting Algorithm for Information Retrieval. Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2007, pp. 391–398.

Yilmaz E., Szummer M. Semi-supervised Learning to Rank withPreference Regularization. Proceedings of the 20th ACM International Conference on Information and Knowledge Management. 2011, pp. 269–278.

Burges C. J. C. From RankNet to LambdaMART to LambdaMART: An Overview. Available at: https://www.microsoft.com/en-us/research/publication/from-ranknet-to-lambdarank-to-lambdamart-an-overview/ (accessed 07.04.2023).

Grira N., Crucianu M., Boujemaa N. Unsupervised and Semi-supervised Clustering: a Brief Survey. Available at: http://cedric.cnam.fr/~crucianm/src/BriefSurveyClustering.pdf (accessed 07.04.2023)

Vapnik V. N. Statistical Learning Theory. New York, Wiley, 1998. 768 p.

Rahangdale A. U., Raut, S. Clustering Based Transductive Semi-supervised Learning for Learning-to-Rank. International Journal of Pattern Recognition and Artificial Intelligence. 2019, vol. 33, no. 12, pp. 1951007:1–1951007:27. DOI: 10.1142/s0218001419510078.

Amini M., Truong T., Goutte C. A Boosting Algorithm for Learning Bipartite Ranking Functions with Partially Labeled Data. Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2008. 2008, pp. 99–106.

Szummer M., Yilmaz E. Semi-supervised Learning to Rank with Preference Regularization. Proceedings of the 20th ACM International Conference on Information and Knowledge Management. 2011, pp. 269–278.

Weston J., Leslie C., Ie E., Zhou D., Elisseeff A., Noble W. S. Semi-supervised protein classification using cluster kernels. Bioinformatics. 2005, vol. 21, no. 15, pp. 3241–3247.

Valizadegan H., Jin R., Zhang R., and Mao J. Learning to Rank by Optimizing NDCG Measure. Advances in Neural Information Processing Systems 22: 23rd Annual Conference on Neural Information Processing Systems 2009. 2009, pp. 1883–1891.

##submission.downloads##

Опубліковано

2023-07-15

Як цитувати

Ямковий, К. (2023). АДАПТАЦІЯ МОДЕЛІ LAMBDAMART ДО НАПІВКОНТРОЛЬОВАНОГО НАВЧАННЯ. Вісник Національного технічного університету «ХПІ». Серія: Системний аналiз, управління та iнформацiйнi технологiї, (1 (9), 76–81. https://doi.org/10.20998/2079-0023.2023.01.12

Номер

Розділ

ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ