АДАПТАЦІЯ МОДЕЛІ LAMBDAMART ДО НАПІВКОНТРОЛЬОВАНОГО НАВЧАННЯ
DOI:
https://doi.org/10.20998/2079-0023.2023.01.12Ключові слова:
навчання ранжуванню, пошук інформації, напівавтоматичне навчання, попарне ранжування, LambdaMART, псевдомаркування, NDCGАнотація
Проблема пошуку інформації дуже поширена в епоху Інтернету та великих даних. Зазвичай існують величезні колекції документів, і лише кілька відсотків з них є актуальними. У цьому налаштуванні методи перебору неефективні. Пошукові системи допомагають вирішити цю проблему оптимальним способом. Більшість пошукових двигунів засновані на методах навчання ранжируванню. тобто спочатку алгоритм видає оцінки документам на основі їх ознак, а потім сортує їх відповідно до цих оцінок у відповідному порядку. Існує багато алгоритмів у цій галузі, але одним із найшвидших і надійних алгоритмів ранжирування є LambdaMART. Цей алгоритм заснований на бустінгу та розроблений лише для навчання з вчителем, де кожен документ у колекції має ранг, оцінений експертом. Але зазвичай у цій сфері колекції містять масу документів, і їх анотація вимагає багато ресурсів, як-от часу, грошей, експертів тощо. У цьому випадку напівавтоматичне навчання є потужним підходом. Напівавтоматичне навчання – це підхід у машинному навчанні, який поєднує невелику кількість позначених даних із великою кількістю не позначених даних під час навчання. Дані без міток у поєднанні з невеликою кількістю мічених даних можуть значно підвищити точність навчання. Ця стаття присвячена адаптації LambdaMART до напівавтоматичного навчання. Автор пропонує додавати різні ваги для розмічених і нерозмічених документів під час процедури навчання, щоб досягти більшу надійність і точність. Запропонований алгоритм було реалізовано з використанням мови програмування Python та фреймворку lightGBM, який уже має реалізацію LambdaMART для навчання з вчителем. Для цілей тестування було використано кілька наборів даних. Один синтетичний 2D-набір даних для візуального пояснення результатів і два реальних набори даних MSLR-WEB10K від Microsoft і Yahoo LTRC.
Посилання
Burges C. J. C., Svore K. M., Wu Q., Gao J. Ranking, boosting and model adaptation. Available at: https://www.microsoft.com/en-us/research/publication/ranking-boosting-and-model-adaptation/ (accessed 07.04.2023).
Chang Y., Chapelle O. Yahoo! Learning to Rank Challenge Overview. JMLR: Workshop and Conference Proceedings 14. 2011, pp. 1–24.
Xu H., Li H. AdaRank: A Boosting Algorithm for Information Retrieval. Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2007, pp. 391–398.
Yilmaz E., Szummer M. Semi-supervised Learning to Rank withPreference Regularization. Proceedings of the 20th ACM International Conference on Information and Knowledge Management. 2011, pp. 269–278.
Burges C. J. C. From RankNet to LambdaMART to LambdaMART: An Overview. Available at: https://www.microsoft.com/en-us/research/publication/from-ranknet-to-lambdarank-to-lambdamart-an-overview/ (accessed 07.04.2023).
Grira N., Crucianu M., Boujemaa N. Unsupervised and Semi-supervised Clustering: a Brief Survey. Available at: http://cedric.cnam.fr/~crucianm/src/BriefSurveyClustering.pdf (accessed 07.04.2023)
Vapnik V. N. Statistical Learning Theory. New York, Wiley, 1998. 768 p.
Rahangdale A. U., Raut, S. Clustering Based Transductive Semi-supervised Learning for Learning-to-Rank. International Journal of Pattern Recognition and Artificial Intelligence. 2019, vol. 33, no. 12, pp. 1951007:1–1951007:27. DOI: 10.1142/s0218001419510078.
Amini M., Truong T., Goutte C. A Boosting Algorithm for Learning Bipartite Ranking Functions with Partially Labeled Data. Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2008. 2008, pp. 99–106.
Szummer M., Yilmaz E. Semi-supervised Learning to Rank with Preference Regularization. Proceedings of the 20th ACM International Conference on Information and Knowledge Management. 2011, pp. 269–278.
Weston J., Leslie C., Ie E., Zhou D., Elisseeff A., Noble W. S. Semi-supervised protein classification using cluster kernels. Bioinformatics. 2005, vol. 21, no. 15, pp. 3241–3247.
Valizadegan H., Jin R., Zhang R., and Mao J. Learning to Rank by Optimizing NDCG Measure. Advances in Neural Information Processing Systems 22: 23rd Annual Conference on Neural Information Processing Systems 2009. 2009, pp. 1883–1891.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).