Development of information technology of term extraction from documents in natural language

Oleksii Kungurtsev; Svetlana Zinovatnaya; Iana Potochniak; Maxim Kutasevych

doi:10.15587/1729-4061.2018.147978

Автор(и)

Oleksii Kungurtsev Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044, Україна https://orcid.org/0000-0002-3207-7315
Svetlana Zinovatnaya Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044, Україна https://orcid.org/0000-0002-9190-6486
Iana Potochniak Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044, Україна https://orcid.org/0000-0003-1291-1146
Maxim Kutasevych Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044, Україна https://orcid.org/0000-0003-0059-4964

DOI:

https://doi.org/10.15587/1729-4061.2018.147978

Ключові слова:

словник предметної області, багатослівний термін, морфологічний розбір, математична модель терміна, текстовий документ

Анотація

Показано, що словники предметних областей широко використовуються на різних етапах створення і експлуатації програмних продуктів. Процес створення словника, особливо виділення термінів, досить трудомісткий та вимагає високої кваліфікації експерта. Проведено дослідження по виявленню найбільш важливих характеристик багатослівних термінів, таких як: ймовірності присутності в документі термінів, що містять різну кількість слів; розташування іменників в багатослівних термінах; можливу кількість іменників в багатослівних термінах. Проаналізовано контекст використання термінів та визначено можливі межі термінів в тексті. Запропоновано процедуру попереднього групування документів, що дозволяє уникнути «втрати» термінів, що входять в короткі документи. Визначено залежність помилок при виділенні термінів від розміру аналізованого документа.

Запропоновано математичну модель представлення терміна, що заснована на визначенні безлічі ланцюжків слів, згрупованих близько опорного слова – іменника. Фільтрація ланцюжків виробляється в залежності від частоти їх входження в текст на основі зіставлення нормалізованих уявлень багатослівних термінів.

Розроблено механізми заповнення словника предметної області новими записами і коригування існуючих у міру аналізу вхідного документа. Запропоновано рішення щодо коригування частоти появи термінів на основі виявлення міжфразових зв'язків. Всі процеси і моделі об'єднані в єдину інформаційну технологію створення словника предметної області. Проблема визначення тлумачень термінів в даній роботі не розглядається, оскільки вимагає окремого рішення. Розроблено програмний продукт, що дозволяє в значній мірі автоматизувати процес виділення термінів з текстових документів. Результати апробації запропонованих рішень показали відсутність «загублених термінів» і, як результат, скорочення часу виділення термінів з текстів обсягом в 10000 слів на 1.5 години за рахунок звільнення експерта від аналізу вихідного документа. Результати дослідження можуть бути використані на різних етапах створення і експлуатації програмних продуктів

Біографії авторів

Oleksii Kungurtsev, Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044

Кандидат технічних наук, професор

Кафедра системного програмного забезпечення

Svetlana Zinovatnaya, Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044

Кандидат технічних наук, доцент

Кафедра системного програмного забезпечення

Iana Potochniak, Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044

Аспірант

Кафедра системного програмного забезпечення

Maxim Kutasevych, Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044

Кафедра системного програмного забезпечення

Посилання

Izbachkov, Yu. S., Petrov, V. N. (2011). Informacionnye sistemy. Piter, 544.
Liubchenko, V., Sulimova, I. (2017). Examining the attributes of transitions between team roles in the software development projects. Eastern-European Journal of Enterprise Technologies, 1 (3 (85)), 12–17. doi: https://doi.org/10.15587/1729-4061.2017.91597
Best Practices for Data Dictionary Definitions and Usage Version 1.1. 2006. Available at: https://s3.us-west-2.amazonaws.com/org-pnamp-assets/prod/best_practices_for_data_dictionary_definitions_and_usage_version_1.1_2006-11-14.pdf
Ways Data Dictionary Increases Software Developers Productivity. Available at: https://dataedo.com/blog/ways-data-dictionary-increases-software-developers-productivity
Novokhatska, K., Kungurtsev, O. (2016). Application of Clustering Algorithm CLOPE to the Query Grouping Problem in the Field of Materialized View Maintenance. Journal of Computing and Information Technology, 24 (1), 79–89. doi: https://doi.org/10.20532/cit.2016.1002694
Novokhatska, K., Kungurtsev, O. (2016). Developing methodology of selection of materialized views in relational databases. Eastern-European Journal of Enterprise Technologies, 3 (2 (81)), 9–14. doi: https://doi.org/10.15587/1729-4061.2016.68737
Kungurcev, A. B., Potochnyak, Ya. V., Silyaev, D. A. (2015). Method of automated construction of explanatory dictionary of subject area. Technology audit and production reserves, 2 (2 (22)), 58–63. doi: https://doi.org/10.15587/2312-8372.2015.40895
Califf, M., Mooney, R. J. (2003). Bottom-up relational learning of pattern matching rules for information extraction. Journal of Machine Learning Research, 4, 177‒210.
Bourigault, D. (1992). Surface grammatical analysis for the extraction of terminological noun phrases. COLING '92 Proceedings of the 14th conference on Computational linguistics, 977–981. DOI: https://doi.org/10.3115/993079.993111
Bessmertny, I. A., Nugumanova, A. B., Mansurova, M. Y., Baiburin, Y. M. (2017). Method of rare term contrastive extraction from natural language texts. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 17 (1), 81–91. doi: https://doi.org/10.17586/2226-1494-2017-17-1-81-91
Popova, S. V., Hodyrev, I. A. (2012). Izvlechenie klyuchevyh slovosochetaniy. Nauchno-tekhnicheskiy vestnik Sankt-Peterburgskogo gosudarstvennogo universiteta informacionnyh tekhnologiy, mekhaniki i optiki, 1 (77), 67–71.
Hasan, K. S., Ng, V. (2014). Automatic keyphrase extraction: a survey of the state of the art. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 1262–1273. doi: https://doi.org/10.3115/v1/p14-1119
Vavilenkova, A. (2017). Methods of identifying logical connections between parts of text documents. Bulletin of the National Technical University «KhPI» Series: New solutions in modern technologies, 7 (1229), 118–122. doi: https://doi.org/10.20998/2413-4295.2017.07.16
Bessmertniy, I. A., Karimov, A. T., Novoselov, A. O., Nugumanov, A. B. (2013). Realizaciya algoritma izvlecheniya klyuchevyh slov iz tekstov predmetnoy oblasti na osnove modeli MapReduce. Trudy VIII Mezhdunarodnoy nauchno-prakticheskoy konferencii "Sovremennye informacionnye tekhnologii i IT-obrazovanie", 617–624.
Programmniy paket sintaksicheskogo razbora i mashinnogo perevoda. Available at: https://www.cognitive.ru/
Kungurcev, A. B., Gavrilova, A. I., Leongard, A. S., Potochnyak, Ya. V. (2016). Uchet mezhfrazovyh svyazey pri avtomatizirovannom postroenii tolkovogo slovarya predmetnoy oblasti. Informatika i matematicheskie metody v modelirovanii, 2, 173–183.
Materialy i tekhnologiya izgotovleniya keramicheskih izdeliy. Available at: http://art-con.ru/node/233

Розробка інформаційної технології виділення термінів із документів на природній мові

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

Oleksii Kungurtsev, Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044

Svetlana Zinovatnaya, Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044

Iana Potochniak, Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044

Maxim Kutasevych, Одеський національний політехнічний університет пр. Шевченка, 1, м. Одеса, Україна, 65044

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Мова

Інформація

Подати статтю

##plugins.block.developedBy.blockTitle##