Розробка інформаційної технології виділення термінів із документів на природній мові
DOI:
https://doi.org/10.15587/1729-4061.2018.147978Ключові слова:
словник предметної області, багатослівний термін, морфологічний розбір, математична модель терміна, текстовий документАнотація
Показано, що словники предметних областей широко використовуються на різних етапах створення і експлуатації програмних продуктів. Процес створення словника, особливо виділення термінів, досить трудомісткий та вимагає високої кваліфікації експерта. Проведено дослідження по виявленню найбільш важливих характеристик багатослівних термінів, таких як: ймовірності присутності в документі термінів, що містять різну кількість слів; розташування іменників в багатослівних термінах; можливу кількість іменників в багатослівних термінах. Проаналізовано контекст використання термінів та визначено можливі межі термінів в тексті. Запропоновано процедуру попереднього групування документів, що дозволяє уникнути «втрати» термінів, що входять в короткі документи. Визначено залежність помилок при виділенні термінів від розміру аналізованого документа.
Запропоновано математичну модель представлення терміна, що заснована на визначенні безлічі ланцюжків слів, згрупованих близько опорного слова – іменника. Фільтрація ланцюжків виробляється в залежності від частоти їх входження в текст на основі зіставлення нормалізованих уявлень багатослівних термінів.
Розроблено механізми заповнення словника предметної області новими записами і коригування існуючих у міру аналізу вхідного документа. Запропоновано рішення щодо коригування частоти появи термінів на основі виявлення міжфразових зв'язків. Всі процеси і моделі об'єднані в єдину інформаційну технологію створення словника предметної області. Проблема визначення тлумачень термінів в даній роботі не розглядається, оскільки вимагає окремого рішення. Розроблено програмний продукт, що дозволяє в значній мірі автоматизувати процес виділення термінів з текстових документів. Результати апробації запропонованих рішень показали відсутність «загублених термінів» і, як результат, скорочення часу виділення термінів з текстів обсягом в 10000 слів на 1.5 години за рахунок звільнення експерта від аналізу вихідного документа. Результати дослідження можуть бути використані на різних етапах створення і експлуатації програмних продуктівПосилання
- Izbachkov, Yu. S., Petrov, V. N. (2011). Informacionnye sistemy. Piter, 544.
- Liubchenko, V., Sulimova, I. (2017). Examining the attributes of transitions between team roles in the software development projects. Eastern-European Journal of Enterprise Technologies, 1 (3 (85)), 12–17. doi: https://doi.org/10.15587/1729-4061.2017.91597
- Best Practices for Data Dictionary Definitions and Usage Version 1.1. 2006. Available at: https://s3.us-west-2.amazonaws.com/org-pnamp-assets/prod/best_practices_for_data_dictionary_definitions_and_usage_version_1.1_2006-11-14.pdf
- Ways Data Dictionary Increases Software Developers Productivity. Available at: https://dataedo.com/blog/ways-data-dictionary-increases-software-developers-productivity
- Novokhatska, K., Kungurtsev, O. (2016). Application of Clustering Algorithm CLOPE to the Query Grouping Problem in the Field of Materialized View Maintenance. Journal of Computing and Information Technology, 24 (1), 79–89. doi: https://doi.org/10.20532/cit.2016.1002694
- Novokhatska, K., Kungurtsev, O. (2016). Developing methodology of selection of materialized views in relational databases. Eastern-European Journal of Enterprise Technologies, 3 (2 (81)), 9–14. doi: https://doi.org/10.15587/1729-4061.2016.68737
- Kungurcev, A. B., Potochnyak, Ya. V., Silyaev, D. A. (2015). Method of automated construction of explanatory dictionary of subject area. Technology audit and production reserves, 2 (2 (22)), 58–63. doi: https://doi.org/10.15587/2312-8372.2015.40895
- Califf, M., Mooney, R. J. (2003). Bottom-up relational learning of pattern matching rules for information extraction. Journal of Machine Learning Research, 4, 177‒210.
- Bourigault, D. (1992). Surface grammatical analysis for the extraction of terminological noun phrases. COLING '92 Proceedings of the 14th conference on Computational linguistics, 977–981. DOI: https://doi.org/10.3115/993079.993111
- Bessmertny, I. A., Nugumanova, A. B., Mansurova, M. Y., Baiburin, Y. M. (2017). Method of rare term contrastive extraction from natural language texts. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 17 (1), 81–91. doi: https://doi.org/10.17586/2226-1494-2017-17-1-81-91
- Popova, S. V., Hodyrev, I. A. (2012). Izvlechenie klyuchevyh slovosochetaniy. Nauchno-tekhnicheskiy vestnik Sankt-Peterburgskogo gosudarstvennogo universiteta informacionnyh tekhnologiy, mekhaniki i optiki, 1 (77), 67–71.
- Hasan, K. S., Ng, V. (2014). Automatic keyphrase extraction: a survey of the state of the art. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 1262–1273. doi: https://doi.org/10.3115/v1/p14-1119
- Vavilenkova, A. (2017). Methods of identifying logical connections between parts of text documents. Bulletin of the National Technical University «KhPI» Series: New solutions in modern technologies, 7 (1229), 118–122. doi: https://doi.org/10.20998/2413-4295.2017.07.16
- Bessmertniy, I. A., Karimov, A. T., Novoselov, A. O., Nugumanov, A. B. (2013). Realizaciya algoritma izvlecheniya klyuchevyh slov iz tekstov predmetnoy oblasti na osnove modeli MapReduce. Trudy VIII Mezhdunarodnoy nauchno-prakticheskoy konferencii "Sovremennye informacionnye tekhnologii i IT-obrazovanie", 617–624.
- Programmniy paket sintaksicheskogo razbora i mashinnogo perevoda. Available at: https://www.cognitive.ru/
- Kungurcev, A. B., Gavrilova, A. I., Leongard, A. S., Potochnyak, Ya. V. (2016). Uchet mezhfrazovyh svyazey pri avtomatizirovannom postroenii tolkovogo slovarya predmetnoy oblasti. Informatika i matematicheskie metody v modelirovanii, 2, 173–183.
- Materialy i tekhnologiya izgotovleniya keramicheskih izdeliy. Available at: http://art-con.ru/node/233
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2018 Oleksii Kungurtsev, Svetlana Zinovatnaya, Iana Potochniak, Maxim Kutasevych

Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Закріплення та умови передачі авторських прав (ідентифікація авторства) здійснюється у Ліцензійному договорі. Зокрема, автори залишають за собою право на авторство свого рукопису та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons CC BY. При цьому вони мають право укладати самостійно додаткові угоди, що стосуються неексклюзивного поширення роботи у тому вигляді, в якому вона була опублікована цим журналом, але за умови збереження посилання на першу публікацію статті в цьому журналі.
Ліцензійний договір – це документ, в якому автор гарантує, що володіє усіма авторськими правами на твір (рукопис, статтю, тощо).
Автори, підписуючи Ліцензійний договір з ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР», мають усі права на подальше використання свого твору за умови посилання на наше видання, в якому твір опублікований. Відповідно до умов Ліцензійного договору, Видавець ПП «ТЕХНОЛОГІЧНИЙ ЦЕНТР» не забирає ваші авторські права та отримує від авторів дозвіл на використання та розповсюдження публікації через світові наукові ресурси (власні електронні ресурси, наукометричні бази даних, репозитарії, бібліотеки тощо).
За відсутності підписаного Ліцензійного договору або за відсутністю вказаних в цьому договорі ідентифікаторів, що дають змогу ідентифікувати особу автора, редакція не має права працювати з рукописом.
Важливо пам’ятати, що існує і інший тип угоди між авторами та видавцями – коли авторські права передаються від авторів до видавця. В такому разі автори втрачають права власності на свій твір та не можуть його використовувати в будь-який спосіб.