Вдосконалення інформаційної технології аналізу контекстно-освічених подань фраз в галузі управління персоналом

Автор(и)

  • Майя Юріївна Бочарова Одеський національний університет імені І. І. Мечникова, Україна https://orcid.org/0009-0004-3875-5019
  • Євгеній Валерійович Малахов Одеський національний університет імені І. І. Мечникова, Україна https://orcid.org/0000-0002-9314-6062

DOI:

https://doi.org/10.15587/1729-4061.2024.313970

Ключові слова:

опрацювання природної мови, великі мовні моделі, подання тексту, управління персоналом

Анотація

Обʼєктом дослідження є контекстно-освічені подання  фраз. Зростаюча потреба в автоматизації процесів підбору кандидатів та рекомендацій вакансій відкрила шлях для використання векторного представлення тексту. Ці вбудовування включають у себе переклад семантичної суті тексту в неперервний високо-вимірний векторний простір. Дослідження контекстно-освічених, багатозначних представлень фраз у сфері управління персоналом підвищує ефективність пошуку подібності та процедур відповідності, що сприяє ефективному процесу підбору персоналу. Але існуючі підходи не враховують контекст при моделюванні фраз. Це обумовлює необхідність вдосконалення інформаційної технології аналізу у цій сфері. В даній роботі запропоновано маркування початків та кінців фраз в тексті з використання спеціальних токенів. Це дозволило знизити вимоги до обчислювальних потужностей шляхом розрахунку всіх подань фраз, наявних в тексті одночасно. Ефективність вдосконалення була перевірена на новому наборі даних для порівняння та оцінювання моделей у завданні моделювання фраз в галузі управління персоналом. Запропонований підхід до моделювання подань фраз з урахуванням контексту в галузі з управлінням персоналом призводить до покращення обчислювальної ефективності на до 50 % та підвищення точності на до 10 %. Розроблено архітектуру моделі машинного навчання для створення подань фраз з урахуванням контексту, яка відрізняється наявністю блоків для врахування меж фраз. Проведені експерименти та порівняння з існуючими підходами підтвердили ефективність запропонованого рішення. На практиці запропонована інформаційна технологія аналізу може бути використана для автоматизації процесу виділення та нормалізації навичок кандидатів в онлайн рекрутингу

Біографії авторів

Майя Юріївна Бочарова, Одеський національний університет імені І. І. Мечникова

Аспірант

Кафедра математичного забезпечення компʼютерних систем

Євгеній Валерійович Малахов, Одеський національний університет імені І. І. Мечникова

Доктор технічних наук, професор, завідувач кафедри

Кафедра математичного забезпечення компʼютерних систем

Посилання

  1. Green, T., Maynard, D., Lin, C. (2022). Development of a benchmark corpus to support entity recognition in job descriptions. Proceedings of the Thirteenth Language Resources and Evaluation Conference. Available at: https://aclanthology.org/2022.lrec-1.128/
  2. Zhang, M., Jensen, K., Sonniks, S., Plank, B. (2022). SkillSpan: Hard and Soft Skill Extraction from English Job Postings. Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. https://doi.org/10.18653/v1/2022.naacl-main.366
  3. O*NET OnLine. Available at: https://www.onetonline.org/
  4. European Skills/Competences, Qualifications and Occupations (ESCO). Available at: https://ec.europa.eu/social/main.jsp?catId=1326&langId=en
  5. Malakhov, E., Shchelkonogov, D., Mezhuyev, V. (2019). Algorithms of Classification of Mass Problems of Production Subject Domains. Proceedings of the 2019 8th International Conference on Software and Computer Applications, 149–153. https://doi.org/10.1145/3316615.3316676
  6. Prykhodko, S., Prykhodko, N. (2022). A Technique for Detecting Software Quality Based on the Confidence and Prediction Intervals of Nonlinear Regression for RFC Metric. 2022 IEEE 17th International Conference on Computer Sciences and Information Technologies (CSIT), 499–502. https://doi.org/10.1109/csit56902.2022.10000532
  7. Gotthardt, M., Mezhuyev, V. (2022). Measuring the Success of Recommender Systems: A PLS-SEM Approach. IEEE Access, 10, 30610–30623. https://doi.org/10.1109/access.2022.3159652
  8. Pro zastosuvannia anhliyskoi movy v Ukraini. Dokument 3760-IX. Pryiniattia vid 04.06.2024. Available at: https://zakon.rada.gov.ua/laws/show/3760-20#Text
  9. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N. et al. (2017). Attention is all you need. arXiv. https://doi.org/10.48550/arXiv.1706.03762
  10. Devlin, J., Chang, M.-W., Lee, K., Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North. https://doi.org/10.18653/v1/n19-1423
  11. Reimers, N., Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). https://doi.org/10.18653/v1/d19-1410
  12. Wang, S., Thompson, L., Iyyer, M. (2021). Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. https://doi.org/10.18653/v1/2021.emnlp-main.846
  13. Cer, D., Diab, M., Agirre, E., Lopez-Gazpio, I., Specia, L. (2017). SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation. Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017). https://doi.org/10.18653/v1/s17-2001
  14. Cohen, A., Gonen, H., Shapira, O., Levy, R., Goldberg, Y. (2022). McPhraSy: Multi-Context Phrase Similarity and Clustering. Findings of the Association for Computational Linguistics: EMNLP 2022, 3538–3550. https://doi.org/10.18653/v1/2022.findings-emnlp.259
  15. Decorte, J.-J., Van Hautte, J., Demeester, T., Develder, C. (2021). JobBERT: Understanding job titles through skill. International workshop on Fair, Effective And Sustainable Talent management using data science (FEAST) as part of ECML-PKDD 2021. arXiv. https://doi.org/10.48550/arXiv.2109.09605
  16. Decorte, J.-J., Van Hautte, J., Deleu, J., Develder, C., Demeester, T. (2022). Design of negative sampling strategies for distantly supervised skill extraction. 2nd Workshop on Recommender Systems for Human Resources (RecSys in HR 2022) as part of RecSys 2022. arXiv. https://doi.org/10.48550/arXiv.2209.05987
  17. Bhola, A., Halder, K., Prasad, A., Kan, M.-Y. (2020). Retrieving Skills from Job Descriptions: A Language Model Based Extreme Multi-label Classification Framework. Proceedings of the 28th International Conference on Computational Linguistics. https://doi.org/10.18653/v1/2020.coling-main.513
  18. Djumalieva, J., Sleeman, C. (2018). An Open and Data-driven Taxonomy of Skills Extracted from Online Job Adverts. Developing Skills in a Changing World of Work, 425–454. https://doi.org/10.5771/9783957103154-425
  19. Decorte, J.-J., Verlinden, S., Van Hautte, J., Deleu, J., Develder, C., Demeester, T. (2020). Extreme Multi-Label Skill Extraction Training using Large Language Models. International workshop on AI for Human Resources and Public Employment Services (AI4HR&PES) as part of ECML-PKDD 2023. arXiv. https://doi.org/10.48550/arXiv.2307.10778
  20. Günther, M., Mastrapas, G., Wang, B., Xiao, H., Geuter, J. (2023). Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models. Proceedings of the 3rd Workshop for Natural Language Processing Open Source Software (NLP-OSS 2023), 8–18. https://doi.org/10.18653/v1/2023.nlposs-1.2
  21. Mashtalir, S. V., Nikolenko, O. V. (2023). Data preprocessing and tokenization techniques for technical Ukrainian texts. Applied Aspects of Information Technology, 6 (3), 318–326. https://doi.org/10.15276/aait.06.2023.22
  22. Bojanowski, P., Grave, E., Joulin, A., Mikolov, T. (2017). Enriching Word Vectors with Subword Information. Transactions of the Association for Computational Linguistics, 5, 135–146. https://doi.org/10.1162/tacl_a_00051
  23. Lee, K., Ippolito, D., Nystrom, A., Zhang, C., Eck, D., Callison-Burch, C., Carlini, N. (2022). Deduplicating Training Data Makes Language Models Better. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). https://doi.org/10.18653/v1/2022.acl-long.577
  24. Wang, L., Yang, N., Huang, X., Jiao, B., Yang, L., Jiang, D. et al. (2022). Text embeddings by weakly-supervised contrastive pre-training. arXiv. https://doi.org/10.48550/arXiv.2212.03533
  25. Xiao, S., Liu, Z., Shao, Y., Cao, Z. (2022). RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. https://doi.org/10.18653/v1/2022.emnlp-main.35
Вдосконалення інформаційної технології аналізу контекстно-освічених подань фраз в галузі управління персоналом

##submission.downloads##

Опубліковано

2024-10-30

Як цитувати

Бочарова, М. Ю., & Малахов, Є. В. (2024). Вдосконалення інформаційної технології аналізу контекстно-освічених подань фраз в галузі управління персоналом. Eastern-European Journal of Enterprise Technologies, 5(2 (131), 53–60. https://doi.org/10.15587/1729-4061.2024.313970