ЕКОНОМНІ МОДЕЛІ МАШИННОГО НАВЧАННЯ ДЛЯ ВИБОРУ ТЕХНІК ВИЯВЛЕННЯ ВИМОГ
DOI:
https://doi.org/10.20998/2079-0023.2023.01.13Ключові слова:
техніки виявлення вимог, байєсівський інформаційний критерій (BIC), фактор Байєса, довірчий інтервал, економна модель, точність, площа під кривою ROCАнотація
Предметом дослідження в статті є алгоритми машинного навчання, що використовуються для вибору технік виявлення вимог. Метою роботи є побудова ефективних економних моделей машинного навчання для прогнозування використання методів виявлення вимог в ІТ-проектах, які дозволяють використовувати якомога менше незалежних змінних без значного погіршення якості прогнозу. У статті вирішуються наступні завдання: розробка алгоритму побудови економних моделей-кандидатів машинного навчання для вибору техніки виявлення вимог на основі зібраної інформації про досвід практикуючих фахівців, оцінка точності моделі економного машинного навчання та розробка алгоритму вибору найкращої моделі-кандидата. Використовуються такі методи: теорія алгоритмів, теорія статистики, методи вибірки, теорія моделювання даних та наукові експерименти. Було отримано наступні результати: 1) для вибору технік виявлення вимог побудовано економні моделі-кандидати машинного навчання. Вони включали менше параметрів, що допомагає у майбутньому уникнути проблем із перенавчанням, пов’язаних із найкращими моделями; 2) відповідно до запропонованого алгоритму для відбору найкращого кандидата була обрана одна економна модель із задовільною продуктивністю. Висновок. Запропоновано алгоритм для побудови ощадливих моделей-кандидатів для вибору техніки виявлення вимог, які дозволяють уникнути проблеми перенавчання. Алгоритм вибору найкращої моделі-кандидата визначає, коли продуктивність економної моделі погіршується, і приймає рішення щодо вибору відповідної моделі. Обидва запропоновані алгоритми були успішно протестовані з чотирма наборами даних і можуть бути запропоновані для їх розширення для інших.
Посилання
Gobov D., Huchenko, I. Influence of the Software Development Project Context on the Requirements Elicitation Techniques Selection. Lecture Notes on Data Engineering and Communications Technologies. Springer, Cham, 2021, vol 83, pp. 208–218. DOI: 10.1007/978-3-030-80472-5_18.
Gobov D., Solovei O. Approaches to Improving the Accuracy of Machine Learning Models in Requirements Elicitation Techniques Selection, arXiv:2303.14762, 2023. DOI: 10.48550/arXiv.2303.14762.
Harrell F. E. Regression Modeling Strategies with Applications to Linear Models, Logistic Regression and Survival Analysis. New York, USA, Springer, 2001. 582 p.
Anderson D., Burnham K. Model selection and multi-model inference. Second ed. New York, USA, Springer-Verlag, 2004. 488 p. DOI: 10.1007/b97636.
Bursac Z., Gauss H. C., Williams D. K., and Hosmer D. W. Purposeful selection of variables in logistic regression. Source Code for Biology and Medicine. 2008, vol. 3 (17), pp. 3–17. DOI: 10.1186/1751-0473-3-17.
Zhang Z. Variable selection with stepwise and best subset approaches. Annals of translational medicine. 2016, vol. 4 (7), p. 136. DOI: 10.21037/atm.2016.03.35.
Solovei O. New organization process of feature selection by filter with correlation-based features selection method. Innovative Technologies and Scientific Solutions for Industries. 2022, vol. 3 (21), pp. 39–50. DOI: 10.30837/ITSSI.2022.21.039.
Vrieze S. Model selection and psychological theory: a discussion of the differences between the Akaike information criterion (AIC) and the Bayesian information criterion (BIC). Psychological methods. 2012, Vol. 17, no. 2, pp. 228–243. DOI:10.1037/a0027127.
Arnold T. Uninformative parameters and model selection using Akaike's Information Criterion. The Journal of Wildlife Management. 2010, vol. 74, no. 6, pp. 1175–1178. DOI: 10.1111/j.1937-2817.2010.tb01236.x.
van de Schoot R., Depaoli S., King R., Kramer B., Märtens K., Tadesse M. G., Vannucci M., Gelman A., Veen D., Willemsen J., Yau C. Bayesian statistics and modelling. Nature Reviews Methods Primers. 2021, 1, vol. 1. DOI: 10.1038/s43586-020-00001-2.
Lesaffre E., Lawson A. Bayesian Biostatistics. West Sussex, United Kingdom, John Wiley & Sons, 2012. 544 р. DOI: 10.1002/9781119942412.
Wasserman L. Bayesian model selection and model averaging. Journal of mathematical psychology. 2000, vol. 44, no. 1, pp. 92–107. DOI: 10.1006/jmps.1999.1278.
Rouder J.N., Speckman P.L., Sun D., Morey R. D., Iverson G. Bayesian t tests for accepting and rejecting the null hypothesis. Psychonomic bulletin & review. 2009, vol.16, pp. 225–237. DOI: 10.3758/PBR.16.2.225.
Hosmer Jr. D., Lemeshov S., Sturdivant R. Applied logistic regression, West Sussex, United Kingdom, John Wiley & Sons, 2013, 510 p.
Ghoroghi A., Rezgui Y., Petri I., Beach T. Advances in application of machine learning to life cycle assessment: a literature review. The International Journal of Life Cycle Assessment. 2022, vol. 27, pp. 433–456. DOI: 10.1007/s11367-022-02030-3.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).