Модель ідентифікації задач спринту проєкту на основі їх опису
DOI:
https://doi.org/10.30837/ITSSI.2023.26.033Ключові слова:
проєкт; опис задач; система управління завданнями проєктів; модель; класифікатор; векторна репрезентаціяАнотація
Предметом дослідження є ідентифікація завдань спринту проєкту. Мета статті – пошук підходів до зниження ризиків невиконання завдань спринту. У роботі вирішуються такі завдання: аналіз досліджень щодо класифікації та візуалізації завдань проєкту; розроблення алгоритму, який здатний автоматично класифікувати текстові описи завдань спринту; збір і підготовка навчальної вибірки текстових описів завдань спринту для навчання та тестування моделі класифікації; застосування методів оброблення природної мови для вдосконалення класифікації та забезпечення точності результатів, проведення валідації моделі на реальних показниках для оцінювання ефективності й точності класифікації; проведення аналізу результатів. Використовуються такі методи: машинне навчання для класифікації, векторизація текстів, класифікація текстових описів, оброблення природної мови, семантичний аналіз тексту опису завдань та оброблення експертних оцінок. Досягнуті результати. Запропоновано комплексний підхід використання алгоритмів машинного навчання, що передбачає збір та оброблення текстових описів завдань, для класифікації та залучення експертних оцінок з метою вдосконалення якості сприйняття завдань командою проєкту. Проведено класифікацію текстових висловів на основі класифікатора Баєса та нейронних класифікаторів. Реалізовано візуальну репрезентацію даних. Проведено семантичний аналіз тексту опису та назви завдання. Отримано розмітку даних для класифікації якості формулювань, яка була виконана командою експертів. Для вимірювання надійності отриманих оцінок експертів розраховано коефіцієнт каппа Коена для кожної пари розмітників. За результатами експериментів для класифікатора Баєса отримано точність 70%. Для класифікатора на основі глибокого навчання обрано нейронну мережу для бінарної класифікації на основі архітектури transformer. Проведено навчання нейронної мережі за допомогою мови програмування Python і фреймворків для глибокого навчання. Унаслідок отримано класифікатор, що на тестовому наборі оцінює з точністю 83%, що є гарним результатом для малого набору даних і даних із суперечливими мітками. Висновки. Аналіз текстової інформації підтверджує, що наявні в системі трекінгу дані не повні та містять скорочення, умовні познаки та сленг. Здобуті результати свідчать про те, що оцінка якості формулювань визначається рівнем обізнаності експерта щодо особливостей і контексту проєкту, водночас збільшення кількості експертів майже не впливає на результат. У подальших дослідженнях рекомендується перевірити гіпотезу про залежність ефективності класифікатора від конкретного проєкту та використання методів навчання без учителя для завдання ідентифікації якості формулювань.
Посилання
References:
Rohovyi, M., Grinchenko, M. (2023), "Project team management model under risk conditions". Vestn. Khar'k. politekhn. in ta. Ser.: Strategichne upravlinnya, upravlinnya portfelyamy, programamy ta proektamy [Bulletin of the Kharkov Polytechnic Institute. Series: Strategic Management, Portfolio Management, Programs and Projects], Kharkov: NTU "KhPI", No. 1 (7), P. 3–11. DOI: https://doi.org/10.20998/2413-3000.2023.7.1
Sonbol, R., Rebdawi, G., Ghneim, N. (2022), "Learning software requirements syntax: An unsupervised approach to recognize templates, Knowledge-Based Systems, Vol. 248, 108933 р. https://doi.org/10.1016/j.knosys.2022.108933
Leelaprute, P., Amasaki, S. (2022), "A comparative study on vectorization methods for non-functional requirements classification", Information and Software Technology, Vol. 150, 106991 р. https://doi.org/10.1016/j.infsof.2022.106991
Femmer, H., Fernández, D., Wagner, S., Eder, S. (2017), "Rapid quality assurance with Requirements Smells", Journal of Systems and Software, Vol. 123, P. 190–213. https://doi.org/10.1016/j.jss.2016.02.047
Ramesh, M.R.R., Reddy, C.S. (2021), "Metrics for software requirements specification quality quantification", Computers & Electrical Engineering, Vol. 96, Part A, 107445 P. 3–11. https://doi.org/10.1016/j.compeleceng.2021.107445
Casamayor, A., Godoy, D., Campo, M. (2010), "Identification of non-functional requirements in textual specifications: A semi-supervised learning approach", Information and Software Technology, Vol. 52, Issue 4, P. 436–445. https://doi.org/10.1016/j.infsof.2009.10.010
Casillo, F., Deufemia, V., Gravino, C. (2022), "Detecting privacy requirements from User Stories with NLP transfer learning models", Information and Software Technology, Vol. 146, P. 106853. https://doi.org/10.1016/j.infsof.2022.106853
Dalpiaz, F., et al. (2019), "Detecting terminological ambiguity in user stories: Tool and experimentation", Information and Software Technology, Vol. 110, P. 3–16. https://doi.org/10.1016/j.infsof.2018.12.007
Dalpiaz, F., Gieske, P., Sturm, A. (2021), " On deriving conceptual models from user requirements: An empirical study", Information and Software Technology, Vol. 131, 106484 P. 1–13. https://doi.org/10.1016/j.infsof.2020.106484
Amna, A.R., Poels, G. (2022), "Ambiguity in user stories: A systematic literature review", Information and Software Technology, Vol. 145, P. 1–12. https://doi.org/10.1016/j.infsof.2022.106824
Urbieta, M., et al. (2020), "The impact of using a domain language for an agile requirements management", Information and Software Technology, Vol. 145, P. 1–16. https://doi.org/10.1016/j.infsof.2020.106375
Jia, J., et al. (2019), "Understanding software developers' cognition in agile requirements engineering", Science of Computer Programming, Vol. 178, P. 1–19. https://doi.org/10.1016/j.scico.2019.03.005
Murtazina, M., Avdeenko, T. (2019), "An Ontology-based Approach to Support for Requirements Traceability in Agile Development", Procedia Computer Science, Vol. 150, P. 628–635. https://doi.org/10.1016/j.procs.2019.02.044
Y. Wahba, Y., Madhavji, N., Steinbacher, J. (2020), "A Hybrid Machine Learning Model for Efficient Classification of IT Support Tickets in The Presence of Class Overlap", Proceedings of the 32nd Annual International Conference on Computer Science and Software Engineering, P. 151-156. DOI: 10.1109/ICIT58465.2023.10143149
Ramírez-Mora, S., Oktaba, H., Gómez-Adorno, H. (2020), "Descriptions of issues and comments for predicting issue success in software projects", Journal of Systems and Software, Vol. 168, P. 1–19. https://doi.org/10.1016/j.jss.2020.110663
Li, Z., A "Unified Understanding of Deep NLP Models for Text Classification", available at: https://arxiv.org/abs/2206.09355 (last accessed 08.11.2023).
Ishizuka, R., et al. (2022), "Categorization and Visualization of Issue Tickets to Support Understanding of Implemented Features in Software Development Projects", Applied Sciences. № 12(7):3222. https://doi.org/10.3390/app12073222
Devlin, J., et al. (2019), "BERT: Pre-training of deep bidirectional transformers for language understanding", Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. 1, Р. 4171–4186. DOI:10.18653/v1/N19-1423
Chawla, P., Hazarika, S., Shen, H.-W. (2020), "Token-wise sentiment decomposition for convnet: Visualizing a sentiment classifier", Visual Informatics, Vol. 4 Issue 2, Р. 132–141. https://doi.org/10.1016/j.visinf.2020.04.006
Bird, S., Klein, E., Loper, E. "Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O'Reilly Media, Beijing", 2009. 504 р. available at: https://tjzhifei.github.io/resources/NLTK.pdf (last accessed 08.11.2023).
"Word2vec", available at: https://www.tensorflow.org/text/tutorials/word2vec (last accessed 08.11.2023).
"TF-IDF (Term Frequency-Inverse Document Frequency)", available at: https://www.learndatasci.com/glossary/tf-idf-term-frequency-inverse-document-frequency/i (last accessed 08.11.2023).
Pennington, J., Socher, R., Manning, C. (2014), "GloVe: Global Vectors for Word Representation", In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Р.1532–1543. http://dx.doi.org/10.3115/v1/D14-1162
"Оpen-source FastText", available at: https://fasttext.cc/ (last accessed 08.11.2023)
McHugh, Mary L. (2012), "Interrater reliability: the kappa statistic", Biochemia Medica, Vol. 22 Issue 3, Р. 276-282 https://doi.org/10.11613/BM.2012.031
Ashish Vaswani, Noam Shazeer, Niki Parmar et al., (2017), "Attention Is All You Need", 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, P.1–15. DOI: https://doi.org/10.48550/arXiv.1706.03762
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Наше видання використовує положення про авторські права Creative Commons для журналів відкритого доступу.
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:
Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0), котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
Автори мають право укладати самостійні додаткові угоди щодо не комерційного та не ексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису опублікованої роботи, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи.